本文主要是介绍AB实验_如何计算P值、效应量和统计功效,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
做AB实验的核心过程就是做一个假设检验,为了让这个假设检验可以支持接下来的决策,我们通常需要计算三个值,P值、效应量和统计功效。
P值跟显著性水平比较(一般取0.05),若结果具有统计显著性(P<0.05),那么还需要继续计算其效应量(Effect_size);如果结果不具有统计显著性(P<0.05),并且还需要继续进行决策的话,那么需要计算功效(Power)。
P值
P值的含义就是在原假设的分布下,出现实验样本情况的概率。
通俗地讲就是,我假设你就是一个成绩普通的学生(假设普通学生的成绩f服从均值70分,标准差10分的正态分布),然后随机抽取了你的几次成绩,一算下来平均90分。那么在均值是70分,标准差是10分的分布情况下,抽取到90分的概率P=(1-95%)/2=2.5%。
在假设检验中,我们通常使用各种参数检验或者非参数检验来计算P值。
效应量(effect size)
效应量代表样本间差异大小的指标,毕竟世界上没有两篇一毛一样的叶子,只有样本足够多,一定可以检测出任务两类样本的显著差异。
这个时候就需要结合效应量来看,这个显著带来的收益有多大,是否有意义。举个例子,【某团队花费了很大的成本,新app的发布成功地让用户使用app的开启速度显著提高了0.01ms。】这里我们就要打个问号?虽然显著,但是0.01ms这个效应量太小了,用户根本无感知,这是值得的吗?
效应量通常用三种方式来衡量:(1) 标准均差(standardized mean difference),(2) 几率(odd ratio),(3) 相关系数(correlation coefficient)。
统计功效
在原假设是错误的情况下,正确拒绝原假设的概率,记作1-β。
通俗地讲就是一个策略其实有用,但大家普遍相信某个策略没啥作用的时候,你能指正他们,指出这个策略实际上是有作用的概率。
根据显著性水平α,效应量和样本容量n,计算功效。
- 样本量 (n):其他条件保持不变,样本量越大,功效就越大。
- 显著性水平 (α): 其他条件保持不变,显著性水平越低,功效就越小。
- 两总体之间的差异:其他条件保持不变,总体参数的真实值和估计值之间的差异越大,功效就越大。也可以说,效应量(effect size)越大,功效就越大。
(可用G*Power或Statsmodels计算)
> 单样本t检验:statsmodels.stats.power.tt_solve_power(effect_size=None,
> nobs=None, alpha=None, power=None, alternative='two-sided')
>
> 独立样本t检验:statsmodels.stats.power.tt_ind_solve_power(effect_size=None,
> nobs1=None, alpha=None, power=None, ratio=1.0,
> alternative='two-sided')
>
> 卡方检验:statsmodels.stats.power.GofChisquarePower.solve_power(effect_size=None,
> nobs=None, alpha=None, power=None, n_bins=2)
>
> F检验:statsmodels.stats.power.FTestPower.solve_power(effect_size=None,
> df_num=None, df_denom=None, nobs=None, alpha=None, power=None, ncc=1)
>
> 方差分析:statsmodels.stats.power.FTestAnovaPower.solve_power(effect_size=None,
> nobs=None, alpha=None, power=None, k_groups=2)
附录
如何计算假设检验的功效(power)和效应量(effect size)?
这篇关于AB实验_如何计算P值、效应量和统计功效的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!