概率统计Python计算：假设检验应用—

概率统计Python计算：假设检验应用——分布拟合检验

本文主要是介绍概率统计Python计算：假设检验应用——分布拟合检验，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

在这里插入图片描述
对来自总体 $X$ 的样本 $X_1,X_2,\cdots,X_n$ ，及给定的显著水平 $\alpha$ 检验假设 $H_0:X\text{的分布函数为}F(x)(H_1:X\text{的分布函数不是}F(x)).$ 其中， $F (x)$ 是已知分布类型的分布函数（或分布律），含有 $r$ 个未知参数。为此，需要将 $(-\infty,+\infty)$ 划分成 $k\leq n$ 个区间 $A_1,A_2,\cdots,A_k$ ，统计样本中落入每个区间 $A_i$ 中的频数 $f_i$ 并按假设中的分布函数 $F (x)$ （用未知参数的最大似然统计量值替代对应参数）计算概率 $p_i=P(X\in A_i)$ 。利用这些数据，调用scipy.stats包中的函数
$chisquare(f_obs, f_exp, ddof=0) \text{chisquare(f\_obs, f\_exp, ddof=0)}$
即可算得检验假设 $H_0$ 的p值。该函数的参数f_obs表示上述样本频数序列 $\{f_1,f_2,\cdots,f_k\}$ ，f_exp表示假设总体概率序列 $\{np_1,np_2,\cdots,np_k\}$ ，ddof表示假设总体所含的未知参数个数 $r$ ，缺省值为0。该函数的返回值包括两个数据：表示检验统计量值 $\chi^2=\sum\limits_{i=1}^k\frac{(f_i-np_i)^2}{np_i}$ 的chisq，和表示检验p值 $S(\chi^2)=1-F(\chi^2)$ 的p，其中 $F (x)$ 和 $S (x)$ 分别为 $\chi^2(k-1-r)$ 分布的分布函数和残存函数。
例1在一实验中，每隔一定时间观察一次由某种铀所放射的到达计数器上的 $\alpha$ 粒子数 $X$ ，共观察了100次，得结果如下表：

$i$	0	1	2	3	4	5	6	7	8	9	10	11	$\geq$ 12
$f_i$	1	5	16	17	26	11	9	9	2	1	2	1	0
$A_i$	$A_0$	$A_1$	$A_2$	$A_3$	$A_4$	$A_5$	$A_6$	$A_7$	$A_8$	$A_9$	$A_{10}$	$A_{11}$	$A_{12}$

其中， $f_i$ 是观察到有 $i$ 个 $\alpha$ 粒子的次数，从理论上考虑知 $X$ 应服从泊松分布 $\pi(\lambda)$ ，问此判断是否符合实际（取 $\alpha=0.05$ ）？
解：下列代码完成本例中假设 $H_0:X$ ~ $\pi(\lambda)$ 的检验。

from scipy.stats import poisson, chisquare  #导入poisson, chisquare
import numpy as np                          #导入numpy
n=100                                       #样本容量
alpha=0.05                                  #显著水平
f=np.array([1,5,16,17,26,11,9,9,2,1,2,1,0]) #样本数据频数
k=f.size                                    #区间个数
r=1                                         #总体未知参数个数
x_bar=(np.arange(k)*f).sum()/n              #总体均值的最大似然估计值
p=[poisson.pmf(i,x_bar) for i in range(k-1)]#各区间内概率
p.append(1-sum(p))
p=np.array(p)
_, pv=chisquare(f, p*n, r)                  #检验p值
print('H0 is %s'%(pv>=alpha))

程序的第3~5行按题面设置各项数据。第6行计算区间个数k，第7行设置未知参数个数r，第8行计算假设中总体所含未知参数 $\lambda$ 的最大似然估计值x_bar。第9行计算概率 $p_i=\frac{\lambda^i}{i!}e^{-\lambda},i=0,1,\cdots,k-2$ ，第10行计算 $p_{k-1}=1-\sum\limits_{i=0}^{k-2}p_i$ ，第11行将算得的 $p_0,p_1,\cdots,p_{k-1}$ 构造成数组p。第12行调用函数chisquare，传递参数f（各区间内样本数据频数），n*p（序列 $np_0,np_1,\cdots,np_{k-1}$ ）和r（未知参数个数），计算假设 $H_0:X$ ~ $\pi(\lambda)$ 的检验p值（由于此处我们并不需要检验统计量值，故用下划线将chisq屏蔽）。运行程序，输出