第十一章一元线性回归

本文主要是介绍第十一章一元线性回归，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

主要分析数值型自变量与数值型自变量之间的关系。
从变量个数上看，可分为简单相关与简单回归分析和多元相关与多元回归分析；从变量之间的关系形态上看，有线性相关与线性回归分析和非线性相关与非线性回归分析。

1 变量间关系的度量

1 变量间的关系

变量之间的关系可分为函数关系和相关关系
函数关系：一一对应的确定关系
相关关系：变量之间存在的不确定的数量关系

2 相关关系的描述与测度

假设：(1)两个变量之间是线性关系 (2)两个变量是随机变量
步骤：(1)绘制散点图来判断变量之间的关系形态
(2)如果是线性关系，则利用相关系数来测度两个变量之间的关系强度
(3)对相关系数进行显著性检验，以判断样本所反映的关系能否用来代表两个变量总体上的关系
样本相关系数计算公式：
$r=\dfrac{n\sum{xy}-\sum{x}\sum{y}}{\sqrt{n\sum{x^2}-(\sum{x})^2}\sqrt{n\sum{y^2}-(\sum{y})^2}}$
上述相关系数也称为线性相关系数，或Pearson相关系数

3 相关关系的显著性检验

一般情况下，总体相关系数 $\rho$ 是未知的，通常是根据样本相关系数 $r$ 作为 $\rho$ 的近似估计值。但 $r$ 是根据样本数据计算得到到，受到抽样波动的影响。能否根据样本系数说明总体的相关程度？就需考察样本相关系数的可靠性，即显著性检验。
当样本数据来自正态总体时，随着 $n$ 的增大， $r$ 的抽样分布趋于正态分布，尤其当总体相关系数 $\rho$ 很小或接近0时，趋于正态分布的趋势非常明显。而当 $\rho$ 远离0时，除非 $n$ 非常大，否则 $r$ 的抽样分布呈现一定的偏离。因此对 $r$ 的显著性检验采用费希尔提出的 $t$ 分布检验，不仅可以用于小样本，也可以用于大样本。
检验的步骤为：
第一步：提出假设
$H_0:\rho=0;\rho\not=0$
第二步：计算检验的统计量
$t=|r|\sqrt{\dfrac{n-2}{1-r^2}}\sim{t(n-2)}$
第三布：进行决策。根据给出的显著性水平 $\alpha$ 和自由度计算出临界值。若 $|t|>t_{\alpha/2}$ ，则拒绝原假设 $H_0$ ，表明总体的两个变量间存在显著的线性关系

2 一元线性回归

1 一元线性回归模型

回归模型：描述因变量y如何依赖于自变量x和误差项ε的方程
一元线性回归模型： $y=\beta_0+\beta_1x+\varepsilon$
回归方程：描述因变量y的期望值如何依赖于自变量x的方程
一元线性回归方程： $E(y)=\beta_0+\beta_1x$
估计的回归方程：用样本统计量代替回归方程中的未知参数
对于一元线性回归，估计的回归方程形式为：
y ^