本文主要是介绍模型自由度与残差自由度,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
模型的自由度(degrees of freedom)通常指的是在模型参数估计过程中剩余可以自由变化的数量。
当我们谈论残差平方和(RSS)或误差项的自由度时,确实使用的是n - k - 1的公式,这里:
- n 是样本大小,即观测值的数量。
- k 是除了截距项之外的解释变量个数。
自由度n - k - 1的原因在于:
- 因为模型中有k+1个待估计的参数(包括截距项)。
- 在确定了这k+1个参数后,n个观测值中的n - (k+1)个值就被模型完全确定了(因为它们是通过模型计算出来的残差)。
- 所以残差具有n - k - 1个自由度,意味着在这个模型框架下,残差能够独立变化的程度。
模型自由度指模型参数(包括截距项)的总数减1,即k+1-1=k(解释变量的个数)
如果总共有k+1个解释变量(包括截距项作为一个特殊的解释变量),则理论上存在k+1个未知参数需要估计。但是,在OLS(普通最小二乘法)估计过程中,模型参数的方程组是线性的,并且总是可以通过重新标度所有解释变量使得模型中的截距项固定不变。这样一来,尽管有k+1个参数,但实际上只确定了k个独立的参数关系。
当我们使用最小二乘法求解时,由于需要满足误差项的均值为0的假设,即误差项的总和应该等于0(这是因为误差项是残差,而残差与截距项和解释变量的系数相加应当等于因变量观测值),因此即使有k个参数,最后一个参数实际上是通过其他k个参数以及数据点的总和条件来确定的,这导致了一个自由度的减少。
即在最小二乘估计的过程中,为了使残差的均值为0(即误差项的期望值为0),模型会自动调整截距项的估计值以满足这个条件。因此,尽管看起来模型有k+1个参数(k个解释变量系数加上截距项),但实际上只有k个参数是“自由”选择的,截距项受到其余参数及数据集中因变量平均值的约束,从而失去了一个自由度。
这篇关于模型自由度与残差自由度的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!