概率统计Python计算：一元线性回归未知参数的点估计

本文主要是介绍概率统计Python计算：一元线性回归未知参数的点估计，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

在这里插入图片描述
设试验结果可表为随机变量 $Y$ ，影响试验结果 $Y$ 的因素是可控的且表为普通变量 $x$ ，若 $Y$ ~ $N(ax+b,\sigma^2)$ ，其中 $a, b$ 即 $\sigma^2$ 均为未知参数。对 $x$ 的一系列取值 $(x_1,x_2,\cdots,x_n)$ （诸 $x_i$ 不全相等），对应独立地进行试验，得到样本 $(Y_1,Y_2,\cdots,Y_n)$ 。利用这样的样本数据计算 $Y$ 的分布中的未知参数的估计及假设检验的过程称为一元线性回归，其中 $E (Y) = a x + b$ 称为回归方程， $a$ 和 $b$ 称为回归系数。对样本数据 $(x_1,x_2,\cdots,x_n)$ 和 $(Y_1,Y_2,\cdots,Y_n)$ 可算得未知参数 $a$ ， $b$ 和 $\sigma^2$ 的最大似然估计量
$\begin{cases}\stackrel{\wedge}{a}=\frac{\sum\limits_{i=1}^n(x_i-\overline{x})(Y_i-\overline{Y})}{\sum\limits_{i=1}^n(x_i-\overline{x})^2}\\ \stackrel{\wedge}{b}=\overline{Y}-\stackrel{\wedge}{a}\overline{x}\\ \stackrel{\wedge}{\sigma^2}=\frac{1}{n}\sum\limits_{i=1}^n(Y_i-\stackrel{\wedge}{a}x_i-\stackrel{\wedge}{b})^2\end{cases}.$
其中， $\overline{x}=\frac{1}{n}\sum\limits_{i=1}^nx_i$ ， $\overline{Y}=\frac{1}{n}\sum\limits_{i=1}^nY_i$ 。当取得 $Y_1,Y_2,\cdots,Y_n$ 的观测值 $y_1,y_2,\cdots,y_n$ 后，代入上式即得出 $a, b$ 及 $\sigma^2$ 的最大似然估计值。若记 $l_{xx}=\sum\limits_{i=1}^n(x_i-\overline{x})^2$ ， $l_{yy}=\sum\limits_{i=1}^n(Y_i-\overline{Y})^2$ ， $l_{xy}=\sum\limits_{i=1}^n(x_i-\overline{x})(Y_i-\overline{Y})$ 。则上述 $a$ ， $b$ 和 $\sigma^2$ 的最大似然估计量可表为
$\begin{cases} \stackrel{\wedge}{a}=\frac{l_{xy}}{l_{xx}}\\ \stackrel{\wedge}{b}=\overline{Y}-\frac{l_{xy}}{l_{xx}}\overline{x}\\ \stackrel{\wedge}{\sigma^2}=\frac{1}{n}l_{yy}\left(1-\frac{l_{xy}^2}{l_{xx}l_{yy}}\right) \end{cases}.$
Python的scipy.stats包提供了一个用于计算样本数据 $x=(x_1,x_2,\cdots,x_n)$ ， $y=y_1,y_2,\cdots,y_n$ 的一元线性回归的函数linregress，其调用接口为
$\text{linregress(x,y)}$
其返回值是一个含有多个命名属性的对象。属性包括：slope，intercept，rvalue，pvalue，stderr，intercept_stderr。其中的slope和intercept分别表示回归系数的最大似然估计值 $\stackrel{\wedge}{a}$ 和 $\stackrel{\wedge}{b}$ 。而stderr表示 $\stackrel{\wedge}{a}$ 的标准差 $\sqrt{\frac{\sigma^2}{\sum\limits_{i=1}^n(x_i-\overline{x})^2}}$ 的估计量 $\sqrt{\frac{n\stackrel{\wedge}{\sigma^2}}{(n-2)\sum\limits_{i=1}^n(x_i-\overline{x})^2}}=\sqrt{\frac{n\stackrel{\wedge}{\sigma^2}}{(n-2)l_{xx}}}$ 。只要将stderr的平方与 $\frac{(n-1)l_{xx}}{n}$ 相乘，即可得到总体方差 $\sigma^2$ 的最大似然估计 $\stackrel{\wedge}{\sigma^2}$ 。
例1设炼铝厂所产铸模的抗张强度与所用铝的硬度有关。设当铝的硬度为 $x$ 时，抗张强度 $Y$ ~ $N(ax+b,\sigma^2)$ ，其中 $a$ ， $b$ 和 $\sigma^2$ 均未知。对于一系列的 $x$ 值，测得相应的抗张强度如下表
$\text{硬度}x: 51,53,60,64,68,70,70,72,83,84\\ \text{抗张强度}Y: 283,293,290,256,288,349,340,354,324,343$
希望根据样本数据计算 $a$ ， $b$ 和 $\sigma^2$ 的估计值。
解：下列代码完成本例计算。

import numpy as np                                  #导入numpy
from scipy.stats import linregress                  #导入linregress
x=np.array([51, 53, 60, 64, 68, 70, 70, 72, 83, 84])#设置样本数据
y=np.array([283, 293, 290, 286, 288, 349, 340, 354, 324, 343])
n=x.size                                            #样本容量
x_bar=x.mean()                                      #x的均值
lxx=((x-x_bar)**2).sum()                            #x偏差平方和
res=linregress(x, y)                                #调用linregress
a=res.slope                                         #a的最大似然估计
b=res.intercept                                     #b的最大似然估计
s2=(res.stderr**2)*lxx*(n-2)/n                      #sigma^2的最大似然估计
print('a=%.4f, b=%.4f, s^2=%.4f'%(a, b, s2))

程序中第5行算得样本容量n，第6行算得 $x$ 的均值 $\overline{x}$ ，第7行算得 $x$ 的偏差平方和 $l_{xx}=\sum\limits_{i=1}^n(x_i-\overline{x})^2$ ，第11行利用linregress函数的返回值中stderr（ $=\sqrt{\frac{n\stackrel{\wedge}{\sigma^2}}{(n-2)l_{xx}}}$ ）对其平方后（ $=\frac{n\stackrel{\wedge}{\sigma^2}}{(n-2)l_{xx}}$ ）乘以 $l_{xx}$ （ $=\frac{n\stackrel{\wedge}{\sigma^2}}{(n-2)}$ 此为 $\sigma^2$ 的无偏估计值），乘以 $n - 2$ 并除以 $n$ 得 $\stackrel{\wedge}{\sigma^2}$ 为 $\sigma^2$ 的最大似然估计值。运行程序输出