A/B测试--假设检验实例

2024-02-14 03:08
文章标签 实例 测试 假设检验

本文主要是介绍A/B测试--假设检验实例,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

本文将主要介绍假设检验的三个类型:
单样本检验
相关配对检验
独立双样本检验
一、假设检验的步骤

1.提出问题?

  1. 根据实际问题,建立零假设、备选假设分别为H0和H1。H0和H1互为相反,不可能同时满足。
  2. 检验类型:单样本检验、相关配对检验、独立双样本检验
  3. 抽样分布类型(正态分布、t分布、其他分布)
    当样本容量n>=30,无论总体为何分布,均值的抽样分布均为正态分布,即中心极限定理。
    当样本容量n<30,总体近似服从正态分布,则均值的抽样分布为t分布。
    4)检验方向
    单尾检验:检测的判断标准在抽样分布的左侧或右侧
    单尾检验:左尾:备选假设H1中包含"<",则为左尾;
    单尾检验:右尾 :备选假设H1中包含">",则为右尾;
    双尾检验:备选假设H1中包含"≠",则为双尾。

2.找到证据
假设检验最核心的步骤就是计算 p 值,p值是假定零假设成立的前提下,得到样本平均值的概率。
*
• 当样本数据的描述统计信息,先计算出SE(标准误差)SE=S(样本标准差)/sqrt(n)
*
• 然后计算t检验 t=(样本平均值-总体平均值)/标准误差
*
• 最后根据t值,查找t表格得到p值。
*
• 使用也可以用Python的科学计算包scipy自动计算。

3.判定标准
显著性水平α(0.1%,1%,5%),由人为根据实际情况主观指定,常用的显著性水平α=0.05。

4.得出结论
用最终的p值与α值做比较:当p<=α时,拒绝零假设,接受备选假设;
当p>α时,接受零假设,拒绝备选假设。
5.置信区间
置信区间用来估计总体的均值范围。在不同的置信水平下有不同的“宽度”,一般查询置信水平为95%,自由度是n-1对应的t值:
1)置信水平对应的t值(t_ci)
查t表格可以得到,95%的置信水平,自由度是n-1对应的t值
2)计算上下限
*
• 置信区间上限a=样本平均值 - t_ci ×标准误差
*
• 置信区间下限b=样本平均值 - t_ci ×标准误差

6.效应量
效应量是指处理效应的大小,例如药物A比药物B效果显著。度量效应量有很多种,但大多数都属于两大主要类别。
1)第一种叫做差异度量
例如在对比平均值时,衡量效应大小的常见标准之一是Cohen’s d

Cohen’s d 除以的是标准差,也就是以标准差为单位,样本平均值和总体平均值之间相差多少。
2)第二种叫做相关度度量
例如R平方,表示某个变量的变化比例与另一变量的关系。可以用t检验的信息推出R平方的公式,这里的t值从t检验中获得的值,df是自由度。

如果r平方等于20%,表示我们可以说通过知道另一个变量能够接受相关变量20%的变化情况
二、单样本检验:汽车引擎排放量实例

案例介绍:
一家专门生产汽车引擎的公司,根据政府最新发布排放要求,引擎排放平均值要低于20ppm。现从公司抽取10台引擎供测试使用,每一台的排放水平如下:15.6 16.2 22.5 20.5 16.4 19.4 16.6 17.9 12.7 13.9,判断该公司汽车是否符合新排放标准?

1、首先查看样本的描述统计信息。

#导入包
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
#样本数据集
dataSer=pd.Series([15.6,16.2,22.5,20.5,16.4,
19.4,16.6,17.9,12.7,13.9])
#样本平均值
sample_mean=dataSer.mean()
#样本标准差
sample_std=dataSer.std()
print(‘样本平均值=’,sample_mean,‘单位:ppm’)
print(‘样本标准差=’,sample_std,‘单位:ppm’)

2、问题:如何知道汽车引擎排放量是否符合新标准?
1)零假设HO:公司的汽车引擎排放不符合最新排放指标>=20ppm;
备选假设H1:公司的汽车引擎排放符合最新排放指标<20ppm。
2)检验类型:只有1个样本,所以是单样本检验。
3)抽样分布类型:样本大小<30,属于小样本,总体近似服从正态分布,则均值的抽样分布为t分布,也可利用seaborn包来查看数据集的分布图来确定分布类型。
4)检验方向:由于备选假设H1中包含小于号‘<’,故我们使用单尾检验中的左尾检验。

import seaborn as sns

#查看数据集分布
sns.distplot(dataSer)
plt.title(‘数据集分布’)
plt.show()

3.假设验证(证据是什么)?
证据就是计算p值,即求出零假设成立时,得到样本平均值的概率p值。
计算标准误差的方法有两种:
1):用公式手动计算

#样本大小
n = 10
#标准误差=样本标准差/(n的开方)
se =sample_std / (np.sqrt(n))
2)手动计算t值
t=(样本平均值-总体平均值)/标准误差
#总体平均值:就是政府发布的标准20
pop_mean=20
#t值
t=(sample_mean-pop_mean) / se
#计算出t值=-3
print(‘标准误差se=’,se)
print(‘t=’,t)

2):用python中的stats自动计算

#导入统计模块(stats)
from scipy import stats
#总体平均值
pop_mean=20
‘’’
ttest_1samp:单独样本t检验
返回的第1个值t是假设检验计算出的(t值),
第2个值p是双尾检验的p值
‘’’
t,p_two =stats.ttest_1samp(dataSer,pop_mean)

print(‘t值=’,t,‘双尾检验的p值=’,p_two)

#单尾检验的p值
p_one=p_two/2
print(‘单尾检验的p值=’,p_one)

4.判定是什么?
即常用的显著水平的取值,本案例取显著水平=5%

5.得出结论
由以上可判断,该公司的汽车引擎排符合新的标准。但还需要计算效应量来判断有多大差异。同时需要求得置信区间来估计总体的均值范围。

#做出结论
if(t<0 and p_one< alpha):
#左尾判断条件
print(‘拒绝零假设,有统计显著,也就是汽车引擎排放满足标准’)
else:
print(‘接受零假设,没有统计显著,也就是汽车引擎排放不满足标准’)

6、置信区间
此处置信水平为95%,自由度是n-1(9)对应的t值:为0.0645

t_ci=2.262
#使用scipy计算标准误差
se=stats.sem(dataSer)
#置信区间上限
a=sample_mean - t_ci * se
#置信区间下限
b=sample_mean + t_ci * se
print(‘单个平均值的置信区间,95置信水平 CI=(%f,%f)’ % (a,b))

7.效应量
当假设检验具有统计显著的结论时,需要进一步研究是否具有实际意义。量化显著差异,即得出差异大小,使做出的决策更具目的性。

d=(sample_mean - pop_mean) / sample_std
#效应量:相关度指标R2
#样本大小
n=10
#自由度
df=n-1
R2=(tt)/(tt+df)
print(‘d=’,d)
print(‘R2=’,R2)

由以上判断标准,效果显著(差异大)。

8.分析报告

1、描述统计分析
样本平均值17.17ppm,样本标准差2.98ppm
2、推论统计分析

1)假设检验:独立样本t(9)=-3.00, p=.0074(a=5%),单位检验(左尾),公司的汽车引擎排符合新的标准。
2)置信区间:单个平均值的置信区间 95%置信书评 [17.11,17.23]
3)效应量:d=-0.94,效果显著。二、相关配对检验:斯特鲁普效应实例

案例介绍:
斯特鲁普效应是是一种干涉效应,当有一个新的刺激出现时,如果它的特征和原先的刺激相似或符合一致,便会加速人们的认知;反之,若新的刺激特征与原先的刺激不相同,则会干扰人们的认知,使人们的所需的反映数据变长。
简单来说,斯特鲁普效应是当有与原有认知不同的情况出现时,人们的反应时间会较长。
接下来我们要验证斯特普鲁效应。
我们可以通过网上的stroop实验来测试人的反应时间,每名参与者得到两组有颜色的文字,第一组数据是字体内容和字体颜色一致,第二组数据是字体内容和字体颜色不一致。每名参与者对着每组文字说出文字的颜色,并分别统计每名参与者所完成每组的时间。
问题描述:
*
• 第一组数据:颜色和文字一致;第二组数据:颜色和文字不一致。
*
• 验证特鲁普效应存在,即验证字体内容和颜色一致和不一致时的反应时间不相同。
*
• 相关配对检验目的:检验相关或配对观测之差的平均值是否等于目标值。
1.提出问题?
*
• 首先查看样本的描述统计信息

‘’’
data = pd.read_csv(‘C:\houzi\test\data.csv’,
encoding = ‘GBK’)
data.head()

描述统计信息
data.describe()

#第一组数据均值
con1_mean = data[‘一致’].mean()

第一组数据标准差

con1_std = data[‘一致’].std()
第一组数据:字体内容和字体颜色一致情况下,实验者的反应时间

第二组数据均值

con2_mean = data[‘不一致’].mean()

第二组数据标准差

con2_std = data[‘不一致’].std()
#两个样本数据集对比
#画板
fg = plt.figure(figsize = (20,10))
#画纸
ax = fg.add_subplot(1,1,1)
#绘制柱状图
data.plot(kind = ‘bar’,ax = ax)
#显示图形
plt.show()

1)建立假设
*
• 零假设Ho:斯特鲁普效应不存在,即两组试验者反应时间均值相同。
*
• 备选假设H1:斯特鲁普效应存在,即在字体颜色和文字不同的情况下,试验者的反应时间会变长。

2)检验类型:因为使用的两组数据是相关样本,所以是相关配对检验。
相关配对检验只关注每对相关数据的差值,在只关注差值集的情况下,样本集处理后只有一组差值集。需要对样本数据进行处理,从而得到差值集。

‘’’
获取差值数据集,也就是“一致”这一列数据,对应减去“不一致”这一列的数据
‘’’
#差值数据集
data[‘差值’] =data[‘一致’] -data[‘不一致’]
data.head()

3)抽样分布类型
可通过观测数据值的抽样分布来查看类型

#导入绘图包
import seaborn as sns
#查看数据集分布
sns.distplot(data[‘差值’])
plt.title(‘差值数据集分布’)
plt.show()

本案例样本大小为n=24,上图数据集近似正态分布,所以案例分布类型为t分布。

4)检验方向
备选假设为在字体颜色和文字不同的情况下,试验者的反应时间会变长,即第一组平均值<第二组平均值,所以选择单尾检验中的左尾检验,即备选假设(<)单尾检验,左尾

2.找到证据

即求出零假设成立时,得到样本平均值的概率p值。
相关(related)配对t检验(ttest_rel)

t,p_two = stats.ttest_rel(data[‘一致’],data[‘不一致’])

print(‘t值=’,t,‘双尾检验的p值=’,p_two)

#单尾检验的p值
p_one=p_two/2
print(‘单尾检验的p值=’,p_one)

3.判定标准
本案例取显著水平依然取 =5%
左尾判断条件:t < 0 and p_one < 判断标准(显著水平)alpha
右尾判断条件:t > 0 and p_one < 判断标准(显著水平)alpha

#做出结论
if(t<0 and p_oneTail< alpha):
print(‘拒绝零假设,有统计显著’)
print(‘也就是接受备选假设:特鲁普效应存在’)
else:
print(‘接受备选假设,没有统计显著,也就是特鲁普效应不存在’)

4.得出结论
相关配对检验t(24)=-8.35,p=7.32e-09 (α=5%),左尾检验
统计上存在显著差异,拒绝零假设,从而验证斯特鲁普效应存在。
5.置信区间
置信水平为95%,查t表格得到自由度df=23时, t=2.064。

t_ci=2.064
#差值数据集平均值
sample_mean=data[‘差值’].mean()
#使用scipy计算标准误差
se=stats.sem(data[‘差值’])
#置信区间上限
a=sample_mean - t_ci * se
#置信区间下限
b=sample_mean + t_ci * se
print(‘两个平均值差值的置信区间,95置信水平 CI=[%f,%f]’ % (a,b))

6.效应量
即求显著差异大小

#差值数据集对应的总体平均值是0
pop_mean=0
#差值数据集的标准差
sample_std=data[‘差值’].std()
d=(sample_mean - pop_mean) / sample_std
print(‘d=’,d)

7.分析报告
1.描述统计分析

第一组数据平均反应时间是:13.93 秒,标准差是:3.54 秒
第二组数据平均反应时间是:22.35 秒,标准差是:5.01 秒
第二组明显比第一组反应时间长。
2.推论统计分析
1)假设检验
相关配对检验 t(23)=-8.08, p=1.77e-08( =5%),单尾检验(左尾)
拒绝零假设,斯特鲁普效应存在。
2)置信区间两个平均值差值的置信区间,95%的置信水平 CI=[-10.58,-6.27]
3)效应量 d=-1.65,效果显著。三、独立双样本检验
AB测试:简单来说,就是为同一个目标制定两个方案,让一部分用户使用 A 方案,另一部分用户使用 B 方案,记录下用户的使用情况,看哪个方案更符合设计。可以看出AB测试对于产品优化有很大的帮助。

案例介绍:有两款键盘布局不一样的手机应用(A版本,B版本),你作为公司的产品经理,想在正式发布产品之前,知道哪个键盘布局对用户体验更好?
首先,我们需要设置目标,用来衡量各个版本的优劣,如果一个键盘布局对用户打字时拼错产生的影响较小,那么这个布局是符合用户体验习惯的。所以我们将目标定为用户打字时拼错字产生的影响。随机抽取实验者,将实验者分成2组,每组25人,A组使用键盘布局A,B组使用键盘布局B。让他们在30秒内打出标准的20个单词文字消息,然后记录打错字的数量。
问题:两种版本布局是否用户体验显著不同,哪种更好?
1、查看样本数据集的描述统计信息

#文件路径
fileNameStr=’…\键盘AB测试.xlsx’
#读取Ecxcel数据,统一先按照字符串读入,之后转换
xls = pd.ExcelFile(fileNameStr, dtype=‘object’)
data = xls.parse(‘Sheet1’,dtype=‘object’)
data.head()

查看每一列的数据类型
data.dtypes
#描述统计信息
data.describe()

字符串转换为数值(浮点型)
data[‘A’] = data[‘A’].astype(‘int’)
data[‘B’] = data[‘B’].astype(‘int’)
#样本平均值
a_mean=data[‘A’].mean()
b_mean=data[‘B’].mean()
#样本标准差
a_std=data[‘A’].std()
b_std=data[‘B’].std()
print(‘A版本样本大小25,样本标准差=’,a_std,‘单位:打错字数量’)
print(‘B版本样本大小25,样本标准差=’,b_std,‘单位:打错字数量’)

得到两个版本的主要参数信息,可以看到,A版本的平均打错字数为5.08 ,低于 B版本的平均打错字数为7.80,B版本比A版本打错字数多。
2、提出问题:哪个版本的键盘布局对用户的体验更好?
*
• 零假设:A版本和B版本没有差别,即A版本平均值=B版本平均值
*
• 备选假设:A版本和B版本有差别,即A版本平均值≠B版本平均值

1)检验类型
本次案例是两组不同的人来测试2组独立版本,所以是双独立样本检验。
2)抽样分布类型
两个数据集的样本大小为25,都小于30,不属于中心极限定理,所以查看两个数据集的分布判断符合哪种分布:

import seaborn as sns
#查看数据集分布
sns.distplot(data[‘A’])
plt.title(‘A版本数据集分布’)
plt.show()
sns.distplot(data[‘B’])
plt.title(‘B版本数据集分布’)
plt.show()

通过观察上面数据集分布图,两个样本数据集都近似正态分布,满足t分布的使用条件,所以抽样分布是t分布
3)检验方向
因备选假设是A版本和B版本有差别,即A版本平均值B版本平均值,所以我们用双尾检验。
3、找到证据
即在零假设成立前提下,我们需要得到样本平均值的概率p值。
双独立(independent)样本t检验(ttest_ind)

import statsmodels.stats.weightstats as st

usevar='unequal’两个总体方差不一样

t,p_two,df=st.ttest_ind(data[‘A’],data[‘B’],
usevar=‘unequal’)

#自由度一般只保留整数部分
print(‘t=’,t,‘p_two=’,p_two,’,df=’,df)

4、判定标准
即显著水平,本案例依然取显著水平=5%。
5、得出结论

#判断标准(显著水平)使用alpha=5%
alpha=0.05
#做出结论
if(p_two< alpha):
print(‘拒绝零假设,有统计显著,也就是接受备选假设’)
print(‘备选假设:A版本和B版本有差异’)
else:
print(‘接受零假设,没有统计显著’)
print(‘零假设:A版本和B版本没有差异’)

6、置信区间
1)置信水平对应的t值(t_ci)
查t表格可以得到95%的置信水平,自由度是n-1对应的t值。
2)计算上下限,
置信区间上限a=样本平均值 - t_ci ×标准误差
置信区间下限b=样本平均值 - t_ci ×标准误差

t_ci=2.0141
#样本大小n
a_n = 25
b_n = 25
se=np.sqrt( np.square(a_std)/a_n + np.square(b_std)/b_n )
#对于双独立样本检验
#置信区间的样本平均值=A版本平均值 - B版本平均值
sample_mean=a_mean - b_mean
#置信区间上限
a=sample_mean - t_ci * se
#置信区间下限
b=sample_mean + t_ci * se
print(‘两个平均值差值的置信区间,95置信水平 CI=[%f,%f]’ % (a,b))

置信区间是[-2.76,-2.68],平均下来使用A键盘的错误数量要比B键盘的要少大约3到2个
7、效应量
Cohen’s d=
本案例需合并标准差,其公式为:

#合并标准差
sp=np.sqrt(((a_n-1)np.square(a_std) + (b_n-1) np.square(a_std)) / (a_n+b_n-2))
#效应量Cohen’s d
d=(a_mean - b_mean) / sp
print(‘d=’,d)

8、分析报告
1、描述统计分析
A版本打错字数量 平均是5.08个,标准差是2.06个
B版本打错字数量 平均是7.8个,标准差是2.65个
2、推论统计分析
1)假设检验
独立双样本t(45)=-4.05 , p=0.00019 (α=5%) , 双尾检验
拒绝零假设,统计显著。
2)置信区间 两个平均值差值的置信区间, 95%置信水平 CI=[-2.76,-2.68]
3)效应量
d= - 1.32,效果显著

这篇关于A/B测试--假设检验实例的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/707351

相关文章

性能测试介绍

性能测试是一种测试方法,旨在评估系统、应用程序或组件在现实场景中的性能表现和可靠性。它通常用于衡量系统在不同负载条件下的响应时间、吞吐量、资源利用率、稳定性和可扩展性等关键指标。 为什么要进行性能测试 通过性能测试,可以确定系统是否能够满足预期的性能要求,找出性能瓶颈和潜在的问题,并进行优化和调整。 发现性能瓶颈:性能测试可以帮助发现系统的性能瓶颈,即系统在高负载或高并发情况下可能出现的问题

字节面试 | 如何测试RocketMQ、RocketMQ?

字节面试:RocketMQ是怎么测试的呢? 答: 首先保证消息的消费正确、设计逆向用例,在验证消息内容为空等情况时的消费正确性; 推送大批量MQ,通过Admin控制台查看MQ消费的情况,是否出现消费假死、TPS是否正常等等问题。(上述都是临场发挥,但是RocketMQ真正的测试点,还真的需要探讨) 01 先了解RocketMQ 作为测试也是要简单了解RocketMQ。简单来说,就是一个分

【测试】输入正确用户名和密码,点击登录没有响应的可能性原因

目录 一、前端问题 1. 界面交互问题 2. 输入数据校验问题 二、网络问题 1. 网络连接中断 2. 代理设置问题 三、后端问题 1. 服务器故障 2. 数据库问题 3. 权限问题: 四、其他问题 1. 缓存问题 2. 第三方服务问题 3. 配置问题 一、前端问题 1. 界面交互问题 登录按钮的点击事件未正确绑定,导致点击后无法触发登录操作。 页面可能存在

【机器学习】高斯过程的基本概念和应用领域以及在python中的实例

引言 高斯过程(Gaussian Process,简称GP)是一种概率模型,用于描述一组随机变量的联合概率分布,其中任何一个有限维度的子集都具有高斯分布 文章目录 引言一、高斯过程1.1 基本定义1.1.1 随机过程1.1.2 高斯分布 1.2 高斯过程的特性1.2.1 联合高斯性1.2.2 均值函数1.2.3 协方差函数(或核函数) 1.3 核函数1.4 高斯过程回归(Gauss

业务中14个需要进行A/B测试的时刻[信息图]

在本指南中,我们将全面了解有关 A/B测试 的所有内容。 我们将介绍不同类型的A/B测试,如何有效地规划和启动测试,如何评估测试是否成功,您应该关注哪些指标,多年来我们发现的常见错误等等。 什么是A/B测试? A/B测试(有时称为“分割测试”)是一种实验类型,其中您创建两种或多种内容变体——如登录页面、电子邮件或广告——并将它们显示给不同的受众群体,以查看哪一种效果最好。 本质上,A/B测

C++操作符重载实例(独立函数)

C++操作符重载实例,我们把坐标值CVector的加法进行重载,计算c3=c1+c2时,也就是计算x3=x1+x2,y3=y1+y2,今天我们以独立函数的方式重载操作符+(加号),以下是C++代码: c1802.cpp源代码: D:\YcjWork\CppTour>vim c1802.cpp #include <iostream>using namespace std;/*** 以独立函数

实例:如何统计当前主机的连接状态和连接数

统计当前主机的连接状态和连接数 在 Linux 中,可使用 ss 命令来查看主机的网络连接状态。以下是统计当前主机连接状态和连接主机数量的具体操作。 1. 统计当前主机的连接状态 使用 ss 命令结合 grep、cut、sort 和 uniq 命令来统计当前主机的 TCP 连接状态。 ss -nta | grep -v '^State' | cut -d " " -f 1 | sort |

Java Websocket实例【服务端与客户端实现全双工通讯】

Java Websocket实例【服务端与客户端实现全双工通讯】 现很多网站为了实现即时通讯,所用的技术都是轮询(polling)。轮询是在特定的的时间间隔(如每1秒),由浏览器对服务器发 出HTTP request,然后由服务器返回最新的数据给客服端的浏览器。这种传统的HTTP request 的模式带来很明显的缺点 – 浏 览器需要不断的向服务器发出请求,然而HTTP

828华为云征文|华为云Flexus X实例docker部署rancher并构建k8s集群

828华为云征文|华为云Flexus X实例docker部署rancher并构建k8s集群 华为云最近正在举办828 B2B企业节,Flexus X实例的促销力度非常大,特别适合那些对算力性能有高要求的小伙伴。如果你有自建MySQL、Redis、Nginx等服务的需求,一定不要错过这个机会。赶紧去看看吧! 什么是华为云Flexus X实例 华为云Flexus X实例云服务是新一代开箱即用、体

Verybot之OpenCV应用一:安装与图像采集测试

在Verybot上安装OpenCV是很简单的,只需要执行:         sudo apt-get update         sudo apt-get install libopencv-dev         sudo apt-get install python-opencv         下面就对安装好的OpenCV进行一下测试,编写一个通过USB摄像头采