首页 >> 百科

02.ABtest的常用的方法

2023-01-11 百科 308 作者:admin

在互联网公司的产品设计场景中,我们经常会遇到多种设计方案。 A/B 测试比较产品的哪些不同相关功能设计会带来更好的结果。 在 A/B 测试中,向随机选择的一组用户展示产品的版本 A,而向另一组随机选择的用户展示版本 B。然后比较测试结果以确定哪个版本表现更好。 A/B 测试通常用于优化网站、应用程序和其他产品以实现最高效率。

比如App或web某个页面的按钮颜色应该是蓝色还是红色,应该放在左边还是右边? 传统的解决方案通常由负责人决定,但从概率上来说,很难保证传统的选择策略每次都有效,但显然是一种更科学的方法。 AB实验其实就是对实验组的测试。 A和对照组B做出的一些假设,计算两组之间的差异是否具有统计显着性,最后根据显着性结果做出判断。

例如,针对一个功能点提出了两个提案。 在审查中,两项提案都有各自的支持者。 比如某个页面的某个按钮的颜色应该是蓝色还是红色,让部分用户进入页面时,网页显示为蓝色按钮,而当另一部分用户进入页面时,网页显示显示为红色按钮,然后通过日志记录用户的使用情况,通过结构化的日志数据分析相关指标,比如点击率,是否转化成功等,以测试采集到的数据看不同的方案之间是否存在显着性,并计算出哪种方案更符合预期的设计目标,最后将所有流量切换到符合目标的方案上。

01.几个步骤

第一步:提问(测试目的);

猜想或假设(实验假设);

这个假设应该包括你想改变什么,以及你猜想实验方案会产生什么影响。

第二步:设计实验(DOE);

进行实验(数据收集);

AB test的样本需要满足:随机且均质。

第三步:分析数据(数据分析);

得出结论(报告介绍);

测试通过之后,我们就得到了方案之间是否存在显着差异,我们也可以通过对各个方案的取值进行统计,看看哪个方案的效果更好。

02.常用方法:

本文主要介绍第3步AB检验的检验方法,常见的有独立样本T检验、单因素方差分析、卡方检验等。

独立样本 T 检验

采用独立样本T检验检验两组数据是否存在显着差异。

例如:某电商平台想提高用户单价。 运营部制定了两套方案:A激励方案和B激励方案。 他们想给用户小规模的优惠,测试一下效果。

输出结果:独立样本T检验结果的P值为0.000***≤0.05,所以统计结果显着,说明Plan B和Plan A的单价存在显着差异。其中,两种方案的客单价均值条形图 可以看出,方案A的效果优于方案B。

方差分析

采用单因素方差分析检验不同组间数据是否存在显着差异。

例子:某电商平台想提高用户单价。 运营部制定了四套方案:A、B、C、D激励方案。 他们想给用户小规模的优惠,测试一下效果。

输出结果:单因素方差分析结果的P值为0.000***≤0.05,所以统计结果显着,说明不同方案的单价存在显着差异。 其中,从各方案平均单价折线图可以看出,C方案效果最好,其次是A方案。

卡方检验

卡方检验用于检验两个分组变量之间是否存在显着差异。

例:某互联网公司要宣传一个活动,设计部门做了两套网络营销方案A和B,哪一套更有利于用户当天是否点击活动广告(0:没有点击, 1:点击)

输出结果:显着性P值为0.005***,水平显着,拒绝原假设,所以方案和数据是否被点击有显着差异,方案A的点击率为130 /500,与方案B的点击率比值为171/500,说明方案B的转化率高于方案A。

02.进阶方法

使用上述方法时,需要满足一个要求,两组用户是同质的,即用户属性相似。 否则,当两个用户群的体量出现差异时,我们无法确定是政策变化导致的,还是用户自身的原因。 理想情况下,根据大数定理,只要分组是随机的,用户规模足够大,其他因素对结果的平均影响是相同的。 默认情况下,两组用户 AB 必须均匀分布。 但是在实际应用中,很多应用场景下的AB测试能够获取的样本相对较少。 例如,如果你想只在某个城市测试一个新功能,或者产品本身的用户很少,那么短时间内能够触达的在线用户往往是有限的。 在这种情况下,很有可能两批样本用户的属性差异会很明显。

最传统的方法是选取几组同质用户(用户属性一致,如城市、年龄等),按照随机抽取A组和A组的原则,从几组同质用户中随机抽取一些样本。 B 组计划)。 AB测试需要将流量拆分成不同的计划。 如果流量不能正确拆分,使得分配到不同计划的用户群的特征以相同的方式分布,那么测试就没有意义了。

但是在我们的AB测试中,能够触达的在线用户数量是有限的,并不是所有的用户都能触及到。 即使对不同计划组的样本进行均衡抽样,两批次能达到功能的用户质量也可能存在差异。 采用去除混杂因素(用户属性数据)影响的方法对该方案进行对比测试。 根据节目的数量和结果变量是定量的还是分类的,推荐以下方法,但以下方法都有其自身的局限性,需要根据需要使用。

倾向得分匹配分组

在实际工作中,无论分层抽样方案多么详细,都不能保证实验组和对照组完全相似。 匹配的思想是在将分层抽样的思想演绎到极致的时候产生的。 由于我们担心实验组和对照组之间的异质性,所以我们简单地将实验组中的每个个体与对照组中与其非常相似的个体进行匹配,这样构建的对照组就非常接近于实验组。

倾向得分匹配组回归用于比较实验组和对照组的结果变量是否存在差异。 其原理是根据每个样本的倾向得分的距离进行样本匹配,以每个实验组为基准,去除对照组中的差异。 寻找混杂变量尽可能相似的样本,以减少数据偏差和混杂因素。

案例:某电商平台想提高用户单价。 运营部制定了两个计划:A激励计划和B激励计划。 他们想给用户小规模的优惠,测试一下效果。 由于两个方案之间的关系是独立的,因此将方案A更改为实验组(值为1),将方案B更改为对照组(值为0)。 其中,方案A响应233人,方案B响应767人。

分析结果:

从上表可以看出,四个混杂变量的标准化偏差在匹配前后均降低了100%,且在“匹配前”T检验中均显着(P<0.05),说明搭配效果极佳。

在上一步中,我们证明了匹配效果更好,所以我们可以继续使用匹配后的样本进行测试。 所以我们主要看匹配后的ATT效果的结果。 匹配后数据的显着性P值为0.000,显着,拒绝原假设。 Plan A和Plan B在客单价上有显着差异。 单价远高于对照组,即Plan A的单价远高于Plan B。

分层卡方分析

层次卡方检验是在卡方检验的基础上,进一步考虑分层项目(混杂因素)的干扰。但是,层次卡方检验有很多局限性:1. 只允许一个混杂变量参与分析

只支持2×2×k表的数据结构(即卡方检验的两个分类变量只允许2个分类水平,混杂因子Z的k个水平指任意水平,不限)。

例:某互联网公司要宣传一个活动,设计部门做了两套网页营销方案,哪一套更有利于用户当天是否点击活动广告(0:没有点击,1:点击)

输出结果:

比值比同质性检验的显着P值为0.970,不显着,说明混杂因素在类别间是同质的,不存在混杂效应。 单独分析,我们可以看到,在女性中,选项2更受欢迎; 在男性中,选项 2 也更受欢迎。 所以不管是男人还是女人,方案2都比较受欢迎。 这也反映出性别不存在且不影响差异结论。

当同质性比值考虑混杂因素确实起到干扰作用时,CMH条件独立性检验可以排除混杂因素得到卡方检验结果,显着性P值为0.000***,显着,说明去掉了混杂因素影响后,和之间存在显着差异,即方案2总是比方案1更受欢迎。

协方差分析

协方差分析方法可以消除实验设计阶段人为无法控制的因素对结果的影响。 在统计分析阶段,这些难以控制的随机变量被用作协变量。 在扣除协变量的影响后,对校正后的主效应进行方差分析,以达到准确分析和评价控制变量对观测变量影响的目的。

公司简介

鸟笔记——讲营销故事! 成立于2010年,专注于分享营销行业的专业知识,连接营销资源,为营销从业者赋能。 内容涵盖广告、营销、运营、推广、品牌等细分领域知识与资源对接服务 查看更多>

关于

网站导航

促销栏目分类标签

下载APP

链接

公司简介

鸟笔记——讲营销故事! 成立于2010年,专注于分享营销行业的专业知识,连接营销资源,为营销从业者赋能。 内容涵盖广告、营销、运营、推广、品牌等细分领域知识与资源对接服务 查看更多>

关于

网站导航

促销栏目分类标签

下载APP

链接

公司简介

鸟笔记——讲营销故事! 成立于2010年,专注于分享营销行业的专业知识,连接营销资源,为营销从业者赋能。 内容涵盖广告、营销、运营、推广、品牌等细分领域知识与资源对接服务 查看更多>

关于

网站导航

促销栏目分类标签

下载APP

链接

公司简介

鸟笔记——讲营销故事! 成立于2010年,专注于分享营销行业的专业知识,连接营销资源,为营销从业者赋能。 内容涵盖广告、营销、运营、推广、品牌等细分领域知识与资源对接服务 查看更多>

关于

网站导航

促销栏目分类标签

下载APP

链接

公司简介

鸟笔记——讲营销故事! 成立于2010年,专注于分享营销行业的专业知识,连接营销资源,为营销从业者赋能。 内容涵盖广告、营销、运营、推广、品牌等细分领域知识与资源对接服务 查看更多>

关于

网站导航

促销栏目分类标签

下载APP

链接

关于我们

最火推荐

小编推荐

联系我们


Copyright 8S新商盟 Rights Reserved.
联系YY号:2949821684
邮箱:chenjing919994@sohu.com
备案号:浙ICP备2023016511号-1