1. 感性vs理性
2. 把A/B测试摆放在正确的位置上(译文)
3. 定量研究的风险(译文)

作者:Jakob Nielsen
翻译:JJYY
原文:http://www.useit.com/alertbox/20050815.html
以关键商业指标来衡量设计改变所带来的冲击是有价值的,但同时也常创造了对短期改进的关注。这些短期性视线常常忽略了仅仅只能通过定性分析才能发现的重要事件。
在A/B测试中, 你发布两个不同的设计版本然后看哪一个的表现更好。这个方法是有历史的,它是直邮中的一个经典方法:公司分别送出不同的邮寄(广告等)信息给不同受众。A/B测试也在Web中变得十分流行,因为在网络上很你能容易展示不同的页面版本给不同的访问者。
有时A、B版本是直接相互竞争的设计,各自面向一半的用户去展示。而有时候,A是当前的设计,作为控制版本供绝大部分用户所见。在这情况下,B更多是偏向于一些大胆的设计或实验版本,在证明自己真正有效前仅会向小部分用户展现。
最后,在更多重变量测试中,你会同时改变多个设计元素,但要点和A/B测试是相似的。为了简单化,我用“A/B”来代表所有使用真实流量去衡量二选一设计的测试研究,忽略了其中被测试的变量数目。
优势
和其他方法相比,A/B测试有4个巨大优势:
1. 它衡量了你的用户在现实世界环境下的真实行为。你可以十分有信心的断定如果版本B比版本A卖出了更多的东西,那么版本B应该要在未来展示给所有用户。
2. 通过高度统计的数据,它可以衡量非常细微的性能差异,因为你可以分别记录两个设计的详细流量情况。例如“侧边栏告诉你怎样去衡量1%的差异”
3. 有时会同时存在相互冲突的指导方针或可用性研究发现,A/B测试可以解决这种交易取舍问题,去判定哪个因素在当前环境下携带了更多的比重。
例:一个电子商务网站在显著位置要求用户输入折扣券,用户测试反映没有折扣券的用户会抱怨,因为他们不想比另一些用户花更多的钱。另一方面,折扣券是一个十分好的市场营销工具,用户测试表明如果没有方便输入折扣券的地方的话,持有折扣券的用户会明显不满。
这个电子商务网站用A/B测试来观察两个不同的设计(提供和不提供折扣券输入框),在主要购买和结算流程中,不提供折扣券的情况下总体销售量要高出20%-50%。这样的话,主要指导原则就是避免提供一个显著的折扣券位置。当然你的网站存在着各种例外,也许折扣券带来的好处要大于它的伤害。通过A/B测试你可以十分容易发现这些。
4. 它十分便宜:当你做出两个供挑选的设计后(或一个改进版本同当前版本的比较),你只需简单把它们全都丢到服务器上,然后搞一点软件设置让他们随机分别展示给一定份额的用户看。
局限
既然有这么明显的好处,为什么我们不把A/B测试套用到所有项目中去?因为事物常常是双刃剑,有时不利面会大于有利面。
首先,A/B测试只适用于那些有着一个清晰、且各方面都很重要的目标的项目。或者说,一个简单的关键指标(KPI)。另外,这个目标要能够被电脑通过简单的统计用户行为来衡量。在这里举一些例子如:
- 电子商务网站的销量
- 一份电子新闻邮件的用户订阅数
- 用户开设的在线银行账户数目
- 用户下载了一份白皮书,要求一个销售人员和他联系,或其他非常明显的进入销售流程的行为。
非常不幸的是,很少见到这类指标是网站的唯一目标。是的,对于电子商务网站来说,销售总量可能是最为重要的,但不能说一个单一的用户行为代表了网站的所有。用户填写一个表单并接触销售人员是好事,但让用户离开时对你的产品感觉良好、并把你列为在今后购买流程中值得信赖的公司同样重要。特别是对于 B2B网站,如果你唯一的判定标准是哪个设计会产生更多的白皮书下载量,你就在冒险渐渐破坏你的生意。
对于许多网站而言,终极的目标不是通过服务器上的用户的行为去衡量。例如提升品牌价值、支持公司的公共关系这些目标是不能通过用户点击某个特殊按钮来衡量的。你在线公关信息宣传报道的覆盖额也许可以被某些服务很衡量,但它不会告诉你一位记者在采访你的大老板前来网站访问过。
类似的,你可以很容易统计有多少用户注册了你的新闻邮件,但除非你去观察订阅用户的阅读行为,否则你不可能知道他们是怎样阅读你新闻邮件内容的。
第二个A/B测试的缺陷是它只能使用完全实施好了的设计。
在一个设计已经制作完成并运行的时候去测试是便宜的,但我们都知道要把一个设计制作成可运行的版本需要花费漫长的时间,在你可以在线发布展示给最终用户前,有着大量的Debug和测试。A/B测试只适用于甄别少数个别设计间的优劣。
与之相对的,纸上原型让我们可以在一天之内尝试许多不同的点子,当然原型测试只能给你定性的数据,但是它们能够帮助里快速抛弃明显糟糕的点子,然后集中精力在那些好点子上。许多经验告诉我们优秀的用户界面设计往往是通过多次设计迭代提炼中得到,如果每一次迭代太慢或需要太多资源,你会因为缺乏提炼去得到完善的设计。
一个可行的折中方案是用纸上原型去开发呈现你的点子,当有了很棒的设计后,你可以用A/B测试作为最后的舞台来看看它是不是真的比目前的设计更好。但A/B测试不应该在用户界面设计项目中作为首要的驱动。
着眼于短期
A/B测试的驱使力量是测试结果中被衡量的数字,一般这都是当下用户的行为,例如购买某样东西。理论上来说这些数字标尺可以用来衡量长期结果,例如五年期间的客户总价值。但在实际中,这种长期数据的跟踪很少发生,没有人会有耐心等五年来决定究竟采用A还是B。
基于当前(短期)数据上所作出的决定,有可能会把你引向歧途。一个常见的例子:你应该 在首页或产品页上增加促销信息吗?除非你推荐给用户和他们需求相关的商品,否则每一个增加的促销都是信息噪音,在降低网站的可用性。
当我指出促销的这个可用性问题时,我常常收到具有代表性的争论“促销创造了更多目标商品的销量”。当然,任何时候你把一个东西摆在显著位置上,它会卖得更多。问题是这种做法是不是在其他地方损害了你的网站。
有时候A/B测试可以在这点上帮助你,如果你检查整体的销量而不是特定促销的商品。在另一些时候,如果负面影响不是立即发生的话,A/B测试会失败。打比方,浏览一个混乱拥挤的网站让人不
快,尽管在当前促进了用户的购买,但长期有可能降低用户的忠诚度,他们在未来就不太可能回来。就产生了一种效应:用户慢慢被其他更好的网站所吸引和抽取过去。(这也是为什么当初许多嘈杂拥挤的搜索引擎在4年间败给了Google)
缺乏行为洞察力
A/B测试最大的问题是你不知道为什么你会得到这个结果。你没有观察用户或者倾听他们的想法,你只知道:根据统计来看,在两个设计中,A比B有更多的人执行一个特定的操作。当然,这可以支持我们去发布版本A,但是这不会对你在其他设计中做决定和向前有任何帮助。
喏,比如你测试了两种尺寸的购买按钮然后发现大按钮比小按钮产生了多1%的购买量,那,这是不是表示你换个更大号的按钮会卖的更多呢?或者,一个中号的按钮可以产生多2%的购买?天知道。为了找出答案,你别无选择,只能再去尝试一系列的按钮。
当然你也不知道或许其他改变可能带来更大的好处,例如改变按钮的颜色或者按钮上的文字,或改变按钮在页面上的位置,按钮文字大小会比改变按钮本身尺寸更有效,更能带来积极的结果。基本上,对于按钮B不好的原因你P都不知道,留给你的就只有猜测,去琢磨是不是有其他的东西也会有帮助。在每一个猜测后面,你都要发布更多测试然后等着得到更多的统计数据去接受或者丢弃这个猜测。
最最糟糕的是,A/B测试只能够提供你所测试的元素的数据,他不是一个开放的方法(比如User Testing), 用户常常在你意想不到的地方被阻碍和困惑。这非常常见,例如寻找和信赖相关的问题,在这里用户根本就不想和你做生意,因为你网站在渐渐蛀空你的信誉。
像类似信赖度和残缺的产品信息这种大问题往往有着100%或更大的效果,意思是如果识别和修复这类问题,你的销量可能会翻倍。如果你花费所有的时间在寻找1-2%的改进上,思考一下你可以很容易通过定性研究洞察用户的需求、渴望和害怕来获得100%的改进。
方法组合
A/B测试存在的问题比带来的好处更多。你不应该把它作为改进你网站转换率时所采用的首选方法,而且永远不要把它作为项目中使用的唯一方法。定性的观察用户行为更为迅速,更能产生深远的洞察。同时,定性分析存在的错误和陷阱比定量分析要少。
A/B测试的确有着他的优势,是定性研究的强大补充。当公司的可用性需求增长到一个层次后你会常常指导进行许多不同形式的用户研究,A/B测试一定在工具箱里有着他的位置。
thanks for your share, accurately translation