度量用户体验
想象一下有这样一个公式,允许你从少量(通常至少为 8 个,极端情况下至少 3 个)用户身上得知设计问题的所在。比如说:为什么 Autodesk 的客户经常打电话寻求帮助,Bugget.com 的用户能否在一分钟之内完成租车,又或者为什么有信用卡的用户为什么不愿意使用移动支付。
这样的公式是存在的,而且它不像管理策略中的「成功的方法」拟或是设计技能那样抽象。我们说的是一个真正的数学公式,它可以很简单的通过变形来计算和管理用户体验。
这个公式叫做:调整的 Wald 二项分布比例的置信区间(Adjusted-Wald Binomial Confidence Interval)简称「调整的 Wald 区间」(「Adjusted-Wald Interval」),名字虽然难记但它的能力却非常强大。它可以估算整个用户群体的行为偏好,即使这个群体的数量非常小。它通过截取一部分的样本来计算一个置信区间(Confidence Interval)。例如,有10个用户去完成一个任务,其中 7 个成功完成了,成功率是 70%。但是,由于样本如数量如此之小,你对这一结果并没有信心。倘若有 10000 个用户来完成这个任务,你无法确定是不是就真的有 7000 个会成功。没有人会有这个信心,但我们可以计算实际的结果与我们观察到的数据会有多大的偏差。
这个时候会用到置信区间(Confidence interval),它提供了特定置信水平下(即你有多大的信心,这是一个常数,通常为 95% )真实结果的合理范围(误差范围)。基于大致范围而不是观察到数值来做决策,避免了我们受到随机性的愚弄。回到上面的例子,10 个人中有 7 个人成功完成任务,设定置信水平为 95%,调整的 Wald 区间则是 39%–90%。这样的范围大大增强了决策的合理性,特别是在我们已经有了比较的标准时。例如,你的目标是成功率至少要达到 90%,那么例子中的设计肯定就是失败的了,因为它的成功率不会超过 90%。又或者,基于之前的设计或行业数据,你的目标是成功率大于 35%,那么这个设计就是成功的了。如果你的目标是 39% 到 90% 之间的某个点,那么你有必要收集更多的数据。
有时候反过来思考失败率会比成功率更有价值。继续使用上文的案例,如果 10 个人中有 7 个成功了,那么很明显有 3 个失败了。那么 10 个里面有 3 个,并且在 95% 的 Adjusted-Wald 置信区间为 10%-61%。即便是如此之少的样本,现在看来也是非常可信的,因为失败率很少会低于 10%。否则,则需要不断的改进设计,并且尽可能的降低失败区间。
接下来我们将进行一些案例分析,随后会解释我们的在线计算器的工作原理
五个案例分析
接下来的这些真实案例是调整的 Wald 在 UX 设计中的应用。看看这些数据,然后尝试使用我们的在线计算器来计算(注意看置信区间的结果)。
案例分析 1:为什么用户无法理解错误提醒,转而寻求电话帮助呢?
Autodesk 发现他们的呼叫中心有大量的呼叫。一些用户抱怨在下载了 Autodesk 的当家产品 AutoCAD 的试用版之后,经常会出现一个奇怪的错误提示(ADR Not Empty)。但是在分析了网上的信息之后,发现并没有类似的问题。于是 UX 团队快速准备了一些研究,他们邀请真实的用户来进行问题重现,重新在软件并且安装,最终 11 为用户接受了邀请。
通过几天的观察,他们发现其中的 3 个人(27%)的人选错了操作系统架构(32 位或 64 位),跟着就收到了错误消息。但是分析小组担心如此之小的样本可能会产生误导。为了弄清楚问题,我们将使用调整的 Wald 区间来查明问题,我们可以有 95% 的把握认为有 9%-57% 的用户可能会碰到此问题。即使仅有如此小的样本,但是统计结果说明仍有大部分用户(至少 9%,也可能接近 27%)的用户会遇到此问题,而这值得令人关注。据此,Autodesk 重新的设计了下载页面,而这大幅降低了此类问题的帮助电话。
案例分析 2:用户能否在 60 秒内租到汽车?
The Budget Rent A Car 网站做出了这样的承诺「60 内租到车」但是一个普通用户是否能在一分钟之内租到车呢?为此我们请来了 12 位有过在线租车经验的用户,邀请他们来到我们的可用性实验室,使用该网站来租一辆车。我们记录了完整的任务完成时间,结果如下(秒)215、131、260、171、187、147、74、170、131、165、347 以及 90,只有一个人超过了 14 秒完成了任务,而几乎没有一个人能够在 60 秒内完成租车。但是如此小的样本是否真的可信呢?那么在 0/12 的范围内,置信水平 95% 上置信区间为 0% 到 22%,意味着在 10,000 的样本中,有超过 22% 的人几乎不可能在一分钟内租到车。[注意:如果你是 Budget 的会员,并且保存了个人信息,而且知道你的机场代码,那么你很可能在 60 秒内租到车]
案例分析 3 :使用手册的注意事项是否能够帮用户避免错误?
一个大型计算机生产厂商在新电脑的使用手册中发现了个很纠结的问题,但这些手册都已经准备分发出去了。因为重新印刷的成本太高,因此我们针对大面积的警告贴纸的影响进行了可用性研究,看看会对用户产生怎样的影响,我们在产品的外包装上印上大大的「注意事项」这几个字。但即便是如此醒目的警告,6/8 的用户会直接忽略警告贴纸,因此也不会去使用手册。因此,很显然失败率达到了 75%,在 95% 上置信区间为 40% 到 94%。最低的置信区间说明了成功率会低于 40%。而生厂商无法接受这样的风险,因此他们还是花钱重印了使用手册。
案例分析 4:担心数据被盗是阻碍移动支付的主要原因吗?
在最近的一次关于信用卡用户的研究中,我们调查了为何用户很少在移动网站上进行支付的原因。我们询问了 16 名用户为什么他们从不在手机上进行支付,其中的 5 人(31%)担心蜂窝网络下的信用卡和银行数据的安全性。使用调整的 Wald 方法,我们在 95% 上置信区间设置为 14% 到 56% 的用户会有此看法。结果促使公司提高安全意识,并对数据进行加密来保护蜂窝网络,就像用户在她们在家里的网络一样。
案例分析 5:为什么多数用户在租带有 GPS 的汽车时会遇到问题?
在另一个租车的可用性测试中,我们招募了 45 名美国各地的参与者,来测试在 Enterprise.com 租赁一辆带有 GPS 的车会有多难。这一次,我们并没有在实验室测试,而是使用了无主持的远程测试,并进行屏幕录制。我们发现 33/45(73%)的用户在任务中会碰到问题,因为该选项是在用户输入了信用卡信息之后才呈现出来的。基于调整的 Wald 区间,我们有 95% 的信心相信 59%-84% 的用户在租赁带有 GPS 的汽车时会碰到此类问题。我们推测,绝大多数的用户会认为网站不提供这类服务,因此会直接选择不带 GPS 的汽车,而另一部分则觉得 Enterprise 的价格昂贵,转而去其他的网站租车。
计算公式
正如我们所说的,下面是关于在线计算器的公式(更多详情,可以参阅我们的书籍《Quantifying the User Experience: Practical Statistics for User Research》的第三章)虽然计算公式确实挺复杂的,但是你完全可以把这理解为一个魔法盒子,或者干脆跳过这节直接去看结论。
多数研究都离不开客户和用户,比如使用其中一组或者整个用户群体作为样本,来做调研或者可用性测试。虽然说有很多种测量用户体验的方法呢,但都是用一些非常简单的二进制的方法:
- 是/否
- 支付/不支付
- 推荐/不推荐
- 成功/失败
像编码一样,把结果整理为 1 和 0。这些 1 和 0 平均数会产生一个比例。使用这个比例来计算置信区间时,我们必须知道分子(例如,成功的样本数量,x)和分母(样本总数,n),以及期望的统计信度(通常为 95%)。观察到的比例可被视是(衡量估计准确性的)标准误差,用结果乘以标准分数(即 z)来计算期望的置信水平。对于二进制的数据,标准错误等于 p(1-p)/n 的平方根,而 p 是观察到的比例,n 则是样本数。那么 z 在 95% 的置信区间上的值则是 1.96。
把这个公式应用在观察到的比例中,就变成了统计学中众所周知的 Wald 区间,也就是当样本量很小时,就无法输出精确的范围。而最新的调整的 Wald 区间,则对 x 和 n 的值进行调整,进而得到调整过的 p,用来当作区间的中间值,以及计算标准误差。具体的调整方法是通过给 x 加 z,n 加 z*2,从而增加小样本区间的精确性。例如 95% 的置信水平上,z 的值(1.96)接近于 2,所以调整的 Wald 的首要方法是为成功和失败的样本都增加 2 个观察到的数据,也就是 padj = (x+2)/(n+4).
和所有的统计学方法一样,调整的 Wald 区间也是从小样本中得出结论,然后应用到所有人身上,这一点很重要。如果样本无法代表整个用户群体(最好的方法是从潜在用户列表中随机抽取),那么这个结果就会有偏差。选择样本时要谨慎,因为结果的精确程度取决于选择的样本能在多大程度上代表整体。如果说某个银行客户的样本是一群来自山沟沟的退休老人,那么置信区间是没有错的,但是结果却无法代笔整体的用户群。
结论
正如上文的案例和数据,在做设计决策时,并不是任何时候都需要进行大量的数据分析。你可以使用大量的二进制数据和这个神奇的公式来做决策。要记住,这个公式仅仅是整体策略的一部分,你的目的是做出决策,而这个公式可以为你提供一些参考价值。以同样的数据,你永远无法得到精确的数据和百分比,但是利用上述公式计算,你可以得知数据的可信度。如此以来,调整的 Wald 区间可以为用户体验设计的决策提供支持。
原文链接:A New Formula for Quantitative UX Decision Making
作者:Jeff Sauro, Jim Lewis
翻译: Max Cheung
名词解释:
置信区间(Confidence Interval): 在统计学中,一个概率样本的置信区间(Confidence interval)是对这个样本的某个总体参数的区间估计。置信区间展现的是这个参数的真实值有一定概率落在测量结果的周围的程度。 更多内容请参阅:维基百科