AB实验_如何计算P值、效应量和统计功效

本文主要是介绍AB实验_如何计算P值、效应量和统计功效，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

做AB实验的核心过程就是做一个假设检验，为了让这个假设检验可以支持接下来的决策，我们通常需要计算三个值，P值、效应量和统计功效。

P值跟显著性水平比较（一般取0.05），若结果具有统计显著性（P<0.05），那么还需要继续计算其效应量(Effect_size);如果结果不具有统计显著性（P<0.05），并且还需要继续进行决策的话，那么需要计算功效(Power)。

P值

P值的含义就是在原假设的分布下，出现实验样本情况的概率。

通俗地讲就是，我假设你就是一个成绩普通的学生（假设普通学生的成绩f服从均值70分，标准差10分的正态分布），然后随机抽取了你的几次成绩，一算下来平均90分。那么在均值是70分，标准差是10分的分布情况下，抽取到90分的概率P=（1-95%）/2=2.5%。

在假设检验中，我们通常使用各种参数检验或者非参数检验来计算P值。

效应量（effect size）

效应量代表样本间差异大小的指标，毕竟世界上没有两篇一毛一样的叶子，只有样本足够多，一定可以检测出任务两类样本的显著差异。

这个时候就需要结合效应量来看，这个显著带来的收益有多大，是否有意义。举个例子，【某团队花费了很大的成本，新app的发布成功地让用户使用app的开启速度显著提高了0.01ms。】这里我们就要打个问号？虽然显著，但是0.01ms这个效应量太小了，用户根本无感知，这是值得的吗？
效应量通常用三种方式来衡量：(1) 标准均差（standardized mean difference），(2) 几率（odd ratio），(3) 相关系数（correlation coefficient）。

统计功效

在原假设是错误的情况下，正确拒绝原假设的概率，记作1-β。

通俗地讲就是一个策略其实有用，但大家普遍相信某个策略没啥作用的时候，你能指正他们，指出这个策略实际上是有作用的概率。

根据显著性水平α，效应量和样本容量n，计算功效。

样本量 (n)：其他条件保持不变，样本量越大，功效就越大。
显著性水平 (α)：其他条件保持不变，显著性水平越低，功效就越小。
两总体之间的差异：其他条件保持不变，总体参数的真实值和估计值之间的差异越大，功效就越大。也可以说，效应量（effect size）越大，功效就越大。

（可用G*Power或Statsmodels计算）

> 单样本t检验：statsmodels.stats.power.tt_solve_power(effect_size=None,
> nobs=None, alpha=None, power=None, alternative='two-sided')
> 
> 独立样本t检验：statsmodels.stats.power.tt_ind_solve_power(effect_size=None,
> nobs1=None, alpha=None, power=None, ratio=1.0,
> alternative='two-sided')
> 
> 卡方检验：statsmodels.stats.power.GofChisquarePower.solve_power(effect_size=None,
> nobs=None, alpha=None, power=None, n_bins=2)
> 
> F检验：statsmodels.stats.power.FTestPower.solve_power(effect_size=None,
> df_num=None, df_denom=None, nobs=None, alpha=None, power=None, ncc=1)
> 
> 方差分析：statsmodels.stats.power.FTestAnovaPower.solve_power(effect_size=None,
> nobs=None, alpha=None, power=None, k_groups=2)