概率统计Python计算：假设检验应用—

概率统计Python计算：假设检验应用——基于成对数据的检验

本文主要是介绍概率统计Python计算：假设检验应用——基于成对数据的检验，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

在这里插入图片描述
设有 $n$ 个相互独立的观测结果 $X_1,Y_1)$ ， $X_2,Y_2)$ ， $\cdots$ ， $X_n,Y_n)$ ，诸对 $X_i$ 和 $Y_i$ 受同一因素影响， $D_i=X_i-Y_i$ ~ $N(\mu,\sigma^2),i=1,2,\cdots,n$ 。其中 $\mu$ 和 $\sigma^2$ 均未知。在指定显著水平 $\alpha$ 下，检验假设
$H_0:\mu=\mu_0(H_1:\mu\not=\mu_0)\text{或}\\H_0:\mu\leq\mu_0(H_1:\mu>\mu_0)\text{或} \\H_0:\mu\geq\mu_0(H_1:\mu<\mu_0).$
的问题，称为基于成对数据的检验问题。由于 $D_i$ ~ $N(\mu,\sigma^2),i=1,2,\cdots,n$ ，且 $\sigma^2$ 未知，故可用 $t$ 检验法解决基于成对数据的检验问题。
由于 $D_i=X_i-Y_i$ ~ $N(\mu,\sigma^2)$ ， $i=1,2,\cdots,n$ ，其中 $\sigma^2$ 未知。在显著水平 $\alpha=0.05$ 下，为检验假设 $H_0:\mu=\mu_0$ （或 $H_0:\mu\leq\mu_0$ 或 $H_0:\mu\geq\mu_0$ ），scipy.stats包提供了函数
$ttest_1samp(a, popmean, alternative=’two-sided’) \text{ttest\_1samp(a, popmean, alternative='two-sided')}$
其参数a表示序列 $\{d_1=x_1-y_1,d_2=x_2-y_2,\cdots,d_n=x_n-y_n\}$ ，popmean表示 $\mu$ 的假设值 $\mu_0$ ，alternative为三个选项之一’two-sided’，‘greater’或’less’，分别表示双侧假设、右侧假设及左侧假设，缺省值为表示双侧假设的’two-sided’。该函数的返回值包括两个数据：表示检验统计量值 $\frac{\overline{d}-\mu_0}{s/\sqrt{n}}$ 的statistic和表示检验p值的pvalue。
例1将双胞胎分开来抚养，一个由父母亲自带大，另一个不是由父母亲自带大。现取14对双胞胎测试他们的智商，智商测试得分如下：

序号	1	2	3	4	5	6	7	8	9	10	11	12	13	14
父母带大 $X_i$	23	31	25	18	19	25	28	18	25	28	22	14	34	36
非父母带大 $Y_i$	22	31	29	24	28	31	27	15	23	27	26	19	30	28

希望比较两种不同的成长环境是否对孩子的智商有不同的影响。
解：首先，注意到表中数据是成对出现的，14对双胞胎的智商 $(X_i,Y_i),i=1,2,\cdots,14$ ，任何两对双胞胎的成长过程互不影响，故可以认为是相互独立的。同一家庭的双胞胎孩子的智商 $X_i$ 和 $Y_i$ 应当由某种联系。为考察一对双胞胎的不同成长环境对智商的影响，考虑两者的差 $D_i=X_i-Y_i,i=1,2,\cdots,14$ 。由于诸 $D_i$ 均受同样因素（孩子的成长环境）影响，故可认为具有相同的分布。假定 $D_i$ ~ $N(\mu,\sigma^2),i=1,2,\cdots,14$ （由诸 $X_i,Y_i)$ 的相互独立性，知诸 $D_i$ 也是相互独立的），本例即是需要在一定的显著水平 $\alpha$ 下检验假设
$H_0:\mu=0(H_1:\mu\not=0).$
下列代码完成例7-26中对双侧假设 $H_0$ 在显著水平 $\alpha=0.05$ 下的检验计算。

import numpy as np                      #导入numpy
from scipy.stats import ttest_1samp     #导入ttest_1samp
x=np.array([23, 31, 25, 18, 19, 25, 28, #设置样本数据18, 25, 28, 22, 14, 34, 36])
y=np.array([22, 31, 29, 24, 28, 31, 27,15, 23, 27, 26, 19, 30, 28])
alpha=0.05                              #显著水平
d=x-y                                   #计算di=xi-yi
_,pvalue=ttest_1samp(d, 0)              #计算检验p值
print('mu=0 is %s.'%(pvalue>=alpha))

程序的第3~7行按题面设置各项数据。第8行计算序列 $d=\{d_1=x_1-y_1,d_2=x_2-y_2,\cdots,d_n=x_n-y_n\}$ ，记为d。第9行调用函数ttest_1samp计算检验假设 $H_0$ 的p值（由于此处不需要检验统计量值，故用下划线’_'将返回值中的statistic屏蔽掉），第10行计算检验并输出。