A/B测试--假设检验实例

2024-02-14 03:08
文章标签 实例 测试 假设检验

本文主要是介绍A/B测试--假设检验实例,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

本文将主要介绍假设检验的三个类型:
单样本检验
相关配对检验
独立双样本检验
一、假设检验的步骤

1.提出问题?

  1. 根据实际问题,建立零假设、备选假设分别为H0和H1。H0和H1互为相反,不可能同时满足。
  2. 检验类型:单样本检验、相关配对检验、独立双样本检验
  3. 抽样分布类型(正态分布、t分布、其他分布)
    当样本容量n>=30,无论总体为何分布,均值的抽样分布均为正态分布,即中心极限定理。
    当样本容量n<30,总体近似服从正态分布,则均值的抽样分布为t分布。
    4)检验方向
    单尾检验:检测的判断标准在抽样分布的左侧或右侧
    单尾检验:左尾:备选假设H1中包含"<",则为左尾;
    单尾检验:右尾 :备选假设H1中包含">",则为右尾;
    双尾检验:备选假设H1中包含"≠",则为双尾。

2.找到证据
假设检验最核心的步骤就是计算 p 值,p值是假定零假设成立的前提下,得到样本平均值的概率。
*
• 当样本数据的描述统计信息,先计算出SE(标准误差)SE=S(样本标准差)/sqrt(n)
*
• 然后计算t检验 t=(样本平均值-总体平均值)/标准误差
*
• 最后根据t值,查找t表格得到p值。
*
• 使用也可以用Python的科学计算包scipy自动计算。

3.判定标准
显著性水平α(0.1%,1%,5%),由人为根据实际情况主观指定,常用的显著性水平α=0.05。

4.得出结论
用最终的p值与α值做比较:当p<=α时,拒绝零假设,接受备选假设;
当p>α时,接受零假设,拒绝备选假设。
5.置信区间
置信区间用来估计总体的均值范围。在不同的置信水平下有不同的“宽度”,一般查询置信水平为95%,自由度是n-1对应的t值:
1)置信水平对应的t值(t_ci)
查t表格可以得到,95%的置信水平,自由度是n-1对应的t值
2)计算上下限
*
• 置信区间上限a=样本平均值 - t_ci ×标准误差
*
• 置信区间下限b=样本平均值 - t_ci ×标准误差

6.效应量
效应量是指处理效应的大小,例如药物A比药物B效果显著。度量效应量有很多种,但大多数都属于两大主要类别。
1)第一种叫做差异度量
例如在对比平均值时,衡量效应大小的常见标准之一是Cohen’s d

Cohen’s d 除以的是标准差,也就是以标准差为单位,样本平均值和总体平均值之间相差多少。
2)第二种叫做相关度度量
例如R平方,表示某个变量的变化比例与另一变量的关系。可以用t检验的信息推出R平方的公式,这里的t值从t检验中获得的值,df是自由度。

如果r平方等于20%,表示我们可以说通过知道另一个变量能够接受相关变量20%的变化情况
二、单样本检验:汽车引擎排放量实例

案例介绍:
一家专门生产汽车引擎的公司,根据政府最新发布排放要求,引擎排放平均值要低于20ppm。现从公司抽取10台引擎供测试使用,每一台的排放水平如下:15.6 16.2 22.5 20.5 16.4 19.4 16.6 17.9 12.7 13.9,判断该公司汽车是否符合新排放标准?

1、首先查看样本的描述统计信息。

#导入包
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
#样本数据集
dataSer=pd.Series([15.6,16.2,22.5,20.5,16.4,
19.4,16.6,17.9,12.7,13.9])
#样本平均值
sample_mean=dataSer.mean()
#样本标准差
sample_std=dataSer.std()
print(‘样本平均值=’,sample_mean,‘单位:ppm’)
print(‘样本标准差=’,sample_std,‘单位:ppm’)

2、问题:如何知道汽车引擎排放量是否符合新标准?
1)零假设HO:公司的汽车引擎排放不符合最新排放指标>=20ppm;
备选假设H1:公司的汽车引擎排放符合最新排放指标<20ppm。
2)检验类型:只有1个样本,所以是单样本检验。
3)抽样分布类型:样本大小<30,属于小样本,总体近似服从正态分布,则均值的抽样分布为t分布,也可利用seaborn包来查看数据集的分布图来确定分布类型。
4)检验方向:由于备选假设H1中包含小于号‘<’,故我们使用单尾检验中的左尾检验。

import seaborn as sns

#查看数据集分布
sns.distplot(dataSer)
plt.title(‘数据集分布’)
plt.show()

3.假设验证(证据是什么)?
证据就是计算p值,即求出零假设成立时,得到样本平均值的概率p值。
计算标准误差的方法有两种:
1):用公式手动计算

#样本大小
n = 10
#标准误差=样本标准差/(n的开方)
se =sample_std / (np.sqrt(n))
2)手动计算t值
t=(样本平均值-总体平均值)/标准误差
#总体平均值:就是政府发布的标准20
pop_mean=20
#t值
t=(sample_mean-pop_mean) / se
#计算出t值=-3
print(‘标准误差se=’,se)
print(‘t=’,t)

2):用python中的stats自动计算

#导入统计模块(stats)
from scipy import stats
#总体平均值
pop_mean=20
‘’’
ttest_1samp:单独样本t检验
返回的第1个值t是假设检验计算出的(t值),
第2个值p是双尾检验的p值
‘’’
t,p_two =stats.ttest_1samp(dataSer,pop_mean)

print(‘t值=’,t,‘双尾检验的p值=’,p_two)

#单尾检验的p值
p_one=p_two/2
print(‘单尾检验的p值=’,p_one)

4.判定是什么?
即常用的显著水平的取值,本案例取显著水平=5%

5.得出结论
由以上可判断,该公司的汽车引擎排符合新的标准。但还需要计算效应量来判断有多大差异。同时需要求得置信区间来估计总体的均值范围。

#做出结论
if(t<0 and p_one< alpha):
#左尾判断条件
print(‘拒绝零假设,有统计显著,也就是汽车引擎排放满足标准’)
else:
print(‘接受零假设,没有统计显著,也就是汽车引擎排放不满足标准’)

6、置信区间
此处置信水平为95%,自由度是n-1(9)对应的t值:为0.0645

t_ci=2.262
#使用scipy计算标准误差
se=stats.sem(dataSer)
#置信区间上限
a=sample_mean - t_ci * se
#置信区间下限
b=sample_mean + t_ci * se
print(‘单个平均值的置信区间,95置信水平 CI=(%f,%f)’ % (a,b))

7.效应量
当假设检验具有统计显著的结论时,需要进一步研究是否具有实际意义。量化显著差异,即得出差异大小,使做出的决策更具目的性。

d=(sample_mean - pop_mean) / sample_std
#效应量:相关度指标R2
#样本大小
n=10
#自由度
df=n-1
R2=(tt)/(tt+df)
print(‘d=’,d)
print(‘R2=’,R2)

由以上判断标准,效果显著(差异大)。

8.分析报告

1、描述统计分析
样本平均值17.17ppm,样本标准差2.98ppm
2、推论统计分析

1)假设检验:独立样本t(9)=-3.00, p=.0074(a=5%),单位检验(左尾),公司的汽车引擎排符合新的标准。
2)置信区间:单个平均值的置信区间 95%置信书评 [17.11,17.23]
3)效应量:d=-0.94,效果显著。二、相关配对检验:斯特鲁普效应实例

案例介绍:
斯特鲁普效应是是一种干涉效应,当有一个新的刺激出现时,如果它的特征和原先的刺激相似或符合一致,便会加速人们的认知;反之,若新的刺激特征与原先的刺激不相同,则会干扰人们的认知,使人们的所需的反映数据变长。
简单来说,斯特鲁普效应是当有与原有认知不同的情况出现时,人们的反应时间会较长。
接下来我们要验证斯特普鲁效应。
我们可以通过网上的stroop实验来测试人的反应时间,每名参与者得到两组有颜色的文字,第一组数据是字体内容和字体颜色一致,第二组数据是字体内容和字体颜色不一致。每名参与者对着每组文字说出文字的颜色,并分别统计每名参与者所完成每组的时间。
问题描述:
*
• 第一组数据:颜色和文字一致;第二组数据:颜色和文字不一致。
*
• 验证特鲁普效应存在,即验证字体内容和颜色一致和不一致时的反应时间不相同。
*
• 相关配对检验目的:检验相关或配对观测之差的平均值是否等于目标值。
1.提出问题?
*
• 首先查看样本的描述统计信息

‘’’
data = pd.read_csv(‘C:\houzi\test\data.csv’,
encoding = ‘GBK’)
data.head()

描述统计信息
data.describe()

#第一组数据均值
con1_mean = data[‘一致’].mean()

第一组数据标准差

con1_std = data[‘一致’].std()
第一组数据:字体内容和字体颜色一致情况下,实验者的反应时间

第二组数据均值

con2_mean = data[‘不一致’].mean()

第二组数据标准差

con2_std = data[‘不一致’].std()
#两个样本数据集对比
#画板
fg = plt.figure(figsize = (20,10))
#画纸
ax = fg.add_subplot(1,1,1)
#绘制柱状图
data.plot(kind = ‘bar’,ax = ax)
#显示图形
plt.show()

1)建立假设
*
• 零假设Ho:斯特鲁普效应不存在,即两组试验者反应时间均值相同。
*
• 备选假设H1:斯特鲁普效应存在,即在字体颜色和文字不同的情况下,试验者的反应时间会变长。

2)检验类型:因为使用的两组数据是相关样本,所以是相关配对检验。
相关配对检验只关注每对相关数据的差值,在只关注差值集的情况下,样本集处理后只有一组差值集。需要对样本数据进行处理,从而得到差值集。

‘’’
获取差值数据集,也就是“一致”这一列数据,对应减去“不一致”这一列的数据
‘’’
#差值数据集
data[‘差值’] =data[‘一致’] -data[‘不一致’]
data.head()

3)抽样分布类型
可通过观测数据值的抽样分布来查看类型

#导入绘图包
import seaborn as sns
#查看数据集分布
sns.distplot(data[‘差值’])
plt.title(‘差值数据集分布’)
plt.show()

本案例样本大小为n=24,上图数据集近似正态分布,所以案例分布类型为t分布。

4)检验方向
备选假设为在字体颜色和文字不同的情况下,试验者的反应时间会变长,即第一组平均值<第二组平均值,所以选择单尾检验中的左尾检验,即备选假设(<)单尾检验,左尾

2.找到证据

即求出零假设成立时,得到样本平均值的概率p值。
相关(related)配对t检验(ttest_rel)

t,p_two = stats.ttest_rel(data[‘一致’],data[‘不一致’])

print(‘t值=’,t,‘双尾检验的p值=’,p_two)

#单尾检验的p值
p_one=p_two/2
print(‘单尾检验的p值=’,p_one)

3.判定标准
本案例取显著水平依然取 =5%
左尾判断条件:t < 0 and p_one < 判断标准(显著水平)alpha
右尾判断条件:t > 0 and p_one < 判断标准(显著水平)alpha

#做出结论
if(t<0 and p_oneTail< alpha):
print(‘拒绝零假设,有统计显著’)
print(‘也就是接受备选假设:特鲁普效应存在’)
else:
print(‘接受备选假设,没有统计显著,也就是特鲁普效应不存在’)

4.得出结论
相关配对检验t(24)=-8.35,p=7.32e-09 (α=5%),左尾检验
统计上存在显著差异,拒绝零假设,从而验证斯特鲁普效应存在。
5.置信区间
置信水平为95%,查t表格得到自由度df=23时, t=2.064。

t_ci=2.064
#差值数据集平均值
sample_mean=data[‘差值’].mean()
#使用scipy计算标准误差
se=stats.sem(data[‘差值’])
#置信区间上限
a=sample_mean - t_ci * se
#置信区间下限
b=sample_mean + t_ci * se
print(‘两个平均值差值的置信区间,95置信水平 CI=[%f,%f]’ % (a,b))

6.效应量
即求显著差异大小

#差值数据集对应的总体平均值是0
pop_mean=0
#差值数据集的标准差
sample_std=data[‘差值’].std()
d=(sample_mean - pop_mean) / sample_std
print(‘d=’,d)

7.分析报告
1.描述统计分析

第一组数据平均反应时间是:13.93 秒,标准差是:3.54 秒
第二组数据平均反应时间是:22.35 秒,标准差是:5.01 秒
第二组明显比第一组反应时间长。
2.推论统计分析
1)假设检验
相关配对检验 t(23)=-8.08, p=1.77e-08( =5%),单尾检验(左尾)
拒绝零假设,斯特鲁普效应存在。
2)置信区间两个平均值差值的置信区间,95%的置信水平 CI=[-10.58,-6.27]
3)效应量 d=-1.65,效果显著。三、独立双样本检验
AB测试:简单来说,就是为同一个目标制定两个方案,让一部分用户使用 A 方案,另一部分用户使用 B 方案,记录下用户的使用情况,看哪个方案更符合设计。可以看出AB测试对于产品优化有很大的帮助。

案例介绍:有两款键盘布局不一样的手机应用(A版本,B版本),你作为公司的产品经理,想在正式发布产品之前,知道哪个键盘布局对用户体验更好?
首先,我们需要设置目标,用来衡量各个版本的优劣,如果一个键盘布局对用户打字时拼错产生的影响较小,那么这个布局是符合用户体验习惯的。所以我们将目标定为用户打字时拼错字产生的影响。随机抽取实验者,将实验者分成2组,每组25人,A组使用键盘布局A,B组使用键盘布局B。让他们在30秒内打出标准的20个单词文字消息,然后记录打错字的数量。
问题:两种版本布局是否用户体验显著不同,哪种更好?
1、查看样本数据集的描述统计信息

#文件路径
fileNameStr=’…\键盘AB测试.xlsx’
#读取Ecxcel数据,统一先按照字符串读入,之后转换
xls = pd.ExcelFile(fileNameStr, dtype=‘object’)
data = xls.parse(‘Sheet1’,dtype=‘object’)
data.head()

查看每一列的数据类型
data.dtypes
#描述统计信息
data.describe()

字符串转换为数值(浮点型)
data[‘A’] = data[‘A’].astype(‘int’)
data[‘B’] = data[‘B’].astype(‘int’)
#样本平均值
a_mean=data[‘A’].mean()
b_mean=data[‘B’].mean()
#样本标准差
a_std=data[‘A’].std()
b_std=data[‘B’].std()
print(‘A版本样本大小25,样本标准差=’,a_std,‘单位:打错字数量’)
print(‘B版本样本大小25,样本标准差=’,b_std,‘单位:打错字数量’)

得到两个版本的主要参数信息,可以看到,A版本的平均打错字数为5.08 ,低于 B版本的平均打错字数为7.80,B版本比A版本打错字数多。
2、提出问题:哪个版本的键盘布局对用户的体验更好?
*
• 零假设:A版本和B版本没有差别,即A版本平均值=B版本平均值
*
• 备选假设:A版本和B版本有差别,即A版本平均值≠B版本平均值

1)检验类型
本次案例是两组不同的人来测试2组独立版本,所以是双独立样本检验。
2)抽样分布类型
两个数据集的样本大小为25,都小于30,不属于中心极限定理,所以查看两个数据集的分布判断符合哪种分布:

import seaborn as sns
#查看数据集分布
sns.distplot(data[‘A’])
plt.title(‘A版本数据集分布’)
plt.show()
sns.distplot(data[‘B’])
plt.title(‘B版本数据集分布’)
plt.show()

通过观察上面数据集分布图,两个样本数据集都近似正态分布,满足t分布的使用条件,所以抽样分布是t分布
3)检验方向
因备选假设是A版本和B版本有差别,即A版本平均值B版本平均值,所以我们用双尾检验。
3、找到证据
即在零假设成立前提下,我们需要得到样本平均值的概率p值。
双独立(independent)样本t检验(ttest_ind)

import statsmodels.stats.weightstats as st

usevar='unequal’两个总体方差不一样

t,p_two,df=st.ttest_ind(data[‘A’],data[‘B’],
usevar=‘unequal’)

#自由度一般只保留整数部分
print(‘t=’,t,‘p_two=’,p_two,’,df=’,df)

4、判定标准
即显著水平,本案例依然取显著水平=5%。
5、得出结论

#判断标准(显著水平)使用alpha=5%
alpha=0.05
#做出结论
if(p_two< alpha):
print(‘拒绝零假设,有统计显著,也就是接受备选假设’)
print(‘备选假设:A版本和B版本有差异’)
else:
print(‘接受零假设,没有统计显著’)
print(‘零假设:A版本和B版本没有差异’)

6、置信区间
1)置信水平对应的t值(t_ci)
查t表格可以得到95%的置信水平,自由度是n-1对应的t值。
2)计算上下限,
置信区间上限a=样本平均值 - t_ci ×标准误差
置信区间下限b=样本平均值 - t_ci ×标准误差

t_ci=2.0141
#样本大小n
a_n = 25
b_n = 25
se=np.sqrt( np.square(a_std)/a_n + np.square(b_std)/b_n )
#对于双独立样本检验
#置信区间的样本平均值=A版本平均值 - B版本平均值
sample_mean=a_mean - b_mean
#置信区间上限
a=sample_mean - t_ci * se
#置信区间下限
b=sample_mean + t_ci * se
print(‘两个平均值差值的置信区间,95置信水平 CI=[%f,%f]’ % (a,b))

置信区间是[-2.76,-2.68],平均下来使用A键盘的错误数量要比B键盘的要少大约3到2个
7、效应量
Cohen’s d=
本案例需合并标准差,其公式为:

#合并标准差
sp=np.sqrt(((a_n-1)np.square(a_std) + (b_n-1) np.square(a_std)) / (a_n+b_n-2))
#效应量Cohen’s d
d=(a_mean - b_mean) / sp
print(‘d=’,d)

8、分析报告
1、描述统计分析
A版本打错字数量 平均是5.08个,标准差是2.06个
B版本打错字数量 平均是7.8个,标准差是2.65个
2、推论统计分析
1)假设检验
独立双样本t(45)=-4.05 , p=0.00019 (α=5%) , 双尾检验
拒绝零假设,统计显著。
2)置信区间 两个平均值差值的置信区间, 95%置信水平 CI=[-2.76,-2.68]
3)效应量
d= - 1.32,效果显著

这篇关于A/B测试--假设检验实例的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/707351

相关文章

java图像识别工具类(ImageRecognitionUtils)使用实例详解

《java图像识别工具类(ImageRecognitionUtils)使用实例详解》:本文主要介绍如何在Java中使用OpenCV进行图像识别,包括图像加载、预处理、分类、人脸检测和特征提取等步骤... 目录前言1. 图像识别的背景与作用2. 设计目标3. 项目依赖4. 设计与实现 ImageRecogni

Java操作ElasticSearch的实例详解

《Java操作ElasticSearch的实例详解》Elasticsearch是一个分布式的搜索和分析引擎,广泛用于全文搜索、日志分析等场景,本文将介绍如何在Java应用中使用Elastics... 目录简介环境准备1. 安装 Elasticsearch2. 添加依赖连接 Elasticsearch1. 创

使用C#代码计算数学表达式实例

《使用C#代码计算数学表达式实例》这段文字主要讲述了如何使用C#语言来计算数学表达式,该程序通过使用Dictionary保存变量,定义了运算符优先级,并实现了EvaluateExpression方法来... 目录C#代码计算数学表达式该方法很长,因此我将分段描述下面的代码片段显示了下一步以下代码显示该方法如

Oracle Expdp按条件导出指定表数据的方法实例

《OracleExpdp按条件导出指定表数据的方法实例》:本文主要介绍Oracle的expdp数据泵方式导出特定机构和时间范围的数据,并通过parfile文件进行条件限制和配置,文中通过代码介绍... 目录1.场景描述 2.方案分析3.实验验证 3.1 parfile文件3.2 expdp命令导出4.总结

如何测试计算机的内存是否存在问题? 判断电脑内存故障的多种方法

《如何测试计算机的内存是否存在问题?判断电脑内存故障的多种方法》内存是电脑中非常重要的组件之一,如果内存出现故障,可能会导致电脑出现各种问题,如蓝屏、死机、程序崩溃等,如何判断内存是否出现故障呢?下... 如果你的电脑是崩溃、冻结还是不稳定,那么它的内存可能有问题。要进行检查,你可以使用Windows 11

MySQL的索引失效的原因实例及解决方案

《MySQL的索引失效的原因实例及解决方案》这篇文章主要讨论了MySQL索引失效的常见原因及其解决方案,它涵盖了数据类型不匹配、隐式转换、函数或表达式、范围查询、LIKE查询、OR条件、全表扫描、索引... 目录1. 数据类型不匹配2. 隐式转换3. 函数或表达式4. 范围查询之后的列5. like 查询6

Python开发围棋游戏的实例代码(实现全部功能)

《Python开发围棋游戏的实例代码(实现全部功能)》围棋是一种古老而复杂的策略棋类游戏,起源于中国,已有超过2500年的历史,本文介绍了如何用Python开发一个简单的围棋游戏,实例代码涵盖了游戏的... 目录1. 围棋游戏概述1.1 游戏规则1.2 游戏设计思路2. 环境准备3. 创建棋盘3.1 棋盘类

性能测试介绍

性能测试是一种测试方法,旨在评估系统、应用程序或组件在现实场景中的性能表现和可靠性。它通常用于衡量系统在不同负载条件下的响应时间、吞吐量、资源利用率、稳定性和可扩展性等关键指标。 为什么要进行性能测试 通过性能测试,可以确定系统是否能够满足预期的性能要求,找出性能瓶颈和潜在的问题,并进行优化和调整。 发现性能瓶颈:性能测试可以帮助发现系统的性能瓶颈,即系统在高负载或高并发情况下可能出现的问题

字节面试 | 如何测试RocketMQ、RocketMQ?

字节面试:RocketMQ是怎么测试的呢? 答: 首先保证消息的消费正确、设计逆向用例,在验证消息内容为空等情况时的消费正确性; 推送大批量MQ,通过Admin控制台查看MQ消费的情况,是否出现消费假死、TPS是否正常等等问题。(上述都是临场发挥,但是RocketMQ真正的测试点,还真的需要探讨) 01 先了解RocketMQ 作为测试也是要简单了解RocketMQ。简单来说,就是一个分

【测试】输入正确用户名和密码,点击登录没有响应的可能性原因

目录 一、前端问题 1. 界面交互问题 2. 输入数据校验问题 二、网络问题 1. 网络连接中断 2. 代理设置问题 三、后端问题 1. 服务器故障 2. 数据库问题 3. 权限问题: 四、其他问题 1. 缓存问题 2. 第三方服务问题 3. 配置问题 一、前端问题 1. 界面交互问题 登录按钮的点击事件未正确绑定,导致点击后无法触发登录操作。 页面可能存在