A/B测试算法大揭秘第四篇:置信区间究竟是怎么来的?
置信区间在A/B测试中的意义
置信区间的不同表现,可用作判断试验结果显著与否的标准:在试验运行一段时间之后(一般来说是1-2周),如果置信区间的上下限同为正,说明试验结果是统计显著的,并且试验版本优于对照版本;如果同为负,试验结果也是统计显著的,且对照版本优于试验版本;如果置信区间为一正一负,则说明版本间差异不大。
举个例子,当两个不同版本都以7%的小流量运行时,A 版本的用户总数(样本大小)为33771,均值为23.01,标准差为53.21;B 版本的用户总数(样本大小)为34190,均值为22.11,标准差为50.21。
我们可以计算出这两个均值比较得到的变化百分值为-3.9%,但这只是根据两个点估计计算出的新的点估计,是有误差的,所以我们就必须找到一个概率范围,来准确描述结果。
计算出Z 值为2.28,再根据置信区间的计算公式,我们可以得出结果为-1.678,-0.112,即这个区间有95%的可能性包含两个总体均值之差。为了更直观,我们把这个总体均值差的置信区间转换为相比A 版本均值变化的百分比置信区间,即-7.3%,-0.5%。这时候我们就可以评价试验的结果为:B 版本不如A 版本,并且有95%的可能性是差了0.5%到7.3%之间。
值得注意的是,置信区间同为正或负,只能说明试验是统计显著的(也就是试验版本和对照版本有差异),但是这个差异有可能是非常小的,在实际应用中微不足道的。因此,只有兼备统计显著和效果显著两个特征的结果,才能说明该版本是可用,值得发布的。
至于如何判定结果是否是效果显著,则需要结合我们在下一章中介绍的统计功效来综合考量了。
作者:吆喝科技,微信公众号(appadhoc )。
人人都是产品经理(woshipm.com )中国最大最活跃的产品经理学习、交流、分享平台