机器学习白板推导系列三线性回归

本文主要是介绍机器学习白板推导系列三线性回归，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

(系列三) 线性回归1-最小二乘法及其几何意义

最小二乘法：（矩阵表达；几何意义）
概率角度：最小二乘法等价于噪声为高斯分布的极大似然估计
加上正则化后：L1 ->Lasso，L2 -> Ridge岭回归

假设数据集为 $D={(x_1, y_1), (x_2, y_2), \cdots, (x_N, y_N)}, x_{i} \in \mathbb{R}^{p}, y_{i} \in \mathbb{R} , i=1,2, \cdots, N$
数据使用矩阵表示 $x=\left(x_{1} x_{2} \cdots x_{N}\right)^{\top}=\left[\begin{array}{c} x_{1}^{T} \\ x_{2}^{T} \\ \vdots \\ x_{N}^{T} \end{array}\right]=\left[\begin{array}{cccc} x_{11} & x_{12} & \cdots & x_{1 p} \\ x_{21} & x_{22} & \cdots & x_{2 p} \\ \vdots & \vdots & \ddots & \vdots \\ x_{m 1} & x_{m 2} & \cdots & x_{m_{B}} \end{array}\right]_{N x p}$
$y_i$ 是一个一维实数值
$Y=\left(\begin{array}{l} y_{1} \\ y_{2} \\ \vdots \\ y_{N} \end{array}\right)_{N \times{1}}$

定义拟合的直线 $f(w)=w^{T} x$ ，其中w为p维列向量，其中这里隐含了偏置b不过当作 $w_0$ 包含进去。

最小二乘法估计：
损失函数：
$L(w)=\sum_{i=1}^{N}\left\|w^{\top} x_{i}-y_{i}\right\|^{2}=\sum_{i=1}^{N}\left(w^{\top} x_{i}-y_{i}\right)^{2}$
$=\left(\begin{array}{c}w^{\top} x_{1}-y_{1} & w^{\top} x_{2}-y_{2} & \cdots & w^{\top} x_N -y_{N}\end{array}\right) \left(\begin{array}{c} w^{\top} x_{1}-y_{1} \\ w^{\top} x_{2}-y_{2} \\ \vdots \\ w^{\top} x_{N}-y_{N} \end{array}\right)$
(即两个向量相乘)
前一个横向量还可进一步写为：
$\begin{aligned} &\left(\begin{array}{c}w ^{\top}x_{1} & w^{\top} x_{2} & \cdots & w^{\top} x_{N}\end{array}\right)-\left(\begin{array}{c}y_{1} & y_{2} & \cdots & y_{N}\end{array}\right) \\ =& w^{\top}\left(\begin{array}{c}x_{1} & x_{2} & \cdots & x_{N}\end{array}\right)-\left(\begin{array}{c}y_{1} & y_{2} & \cdots & y_{N}\end{array}\right) \\ =& w^{\top} X^{\top}-Y^{\top} \end{aligned}$
同理右边的列向量可写为XW-Y,即横向量的转置，所以XW是位置调换的

可得 $L(w)=\left(w^{\top} X^{\top}-Y^{\top}\right)(X w-Y)$

为了求导方便继续展开
$=w^{\top} X^{\top} X w-Y^{\top} X w-w^{\top} X^{\top} Y+Y^{\top} Y$
注意这里每一项都是实数，中间两项是相等的
$=w^{\top} X^{\top} X w-2w^{\top} X^{\top} Y+Y^{\top} Y$

要估计的 $\hat{w} = \arg\min L(w)$
对L(w)进行求导，注意矩阵求导的
$\frac{\partial L(w)}{\partial w}=2 X^{\top} X w-2 X^{\top} Y \triangleq 0$
$\Rightarrow X^{\top} X w = X^{\top} Y$
$\Rightarrow w = (X^{\top} X)^{-1} X^{\top} Y$
此为我们得到的解，即最小二乘估计的矩阵形式的表达,把 $(X^{\top} X)^{-1} X^{\top}$ 称为伪逆 $X^+$

几何解释1：误差与所有红色距离有关

几何解释2：

数据X是Nxp维的，可构成一个p维子空间，Y通常是不在这个子空间中的，即最小二乘是在p维子空间中找向量f(w)使得f(w)与Y的距离最小，可知f(w)是Y在p维子空间的投影
即可知，Y-f(w)与p维子空间的基向量垂直
即 $X^{\top}(Y-f(w))=0$
$X^{\top}(Y-Xw)=0$
$X^{\top}Y=X^{\top}Xw$
$\Rightarrow w = (X^{\top} X)^{-1} X^{\top} Y$

(系列三) 线性回归2-最小二乘法-概率视角-高斯噪声-MLE

假设数据集为 $D={(x_1, y_1), (x_2, y_2), \cdots, (x_N, y_N)}, x_{i} \in \mathbb{R}^{p}, y_{i} \in \mathbb{R} , i=1,2, \cdots, N$

数据使用矩阵表示 $x=\left(x_{1} x_{2} \cdots x_{N}\right)^{\top}=\left[\begin{array}{c} x_{1}^{T} \\ x_{2}^{T} \\ \vdots \\ x_{N}^{T} \end{array}\right]=\left[\begin{array}{cccc} x_{11} & x_{12} & \cdots & x_{1 p} \\ x_{21} & x_{22} & \cdots & x_{2 p} \\ \vdots & \vdots & \ddots & \vdots \\ x_{m 1} & x_{m 2} & \cdots & x_{m_{B}} \end{array}\right]_{N x p}$
$y_i$ 是一个一维实数值
$Y=\left(\begin{array}{l} y_{1} \\ y_{2} \\ \vdots \\ y_{N} \end{array}\right)_{N \times{1}}$

最小二乘法估计：
损失函数：
$L(w)=\sum_{i=1}^{N}\left\|w^{\top} x_{i}-y_{i}\right\|^{2}=\sum_{i=1}^{N}\left(w^{\top} x_{i}-y_{i}\right)^{2}$

要估计的 $\hat{w} = \arg\min L(w) = (X^{\top} X)^{-1} X^{\top} Y$

假设数据中的噪声服从高斯分布 $\varepsilon \sim N\left(0, \sigma^{2}\right)$

$\varepsilon = w^{\top}x + \varepsilon$
因 $\varepsilon$ 服从正态分布，则 $\sim N(w^{\top}x, \sigma^{2})$
$\frac{1}{\sqrt{2\pi}\sigma}\exp\{-\frac{(y-w^{\top}x)^2}{2\sigma^2}\}$

用极大似然估计MLE:
$L(w) = logP(Y|X;w) = \log \prod^N_{i=1} P(y_i |x_i;w) $
$\sum^N_{i=1} \log P(y_i |x_i;w)$
$=\sum^N_{i=1} \log \frac{1}{\sqrt{2\pi}\sigma} + \log\exp\{-\frac{(y-w^{\top}x)^2}{2\sigma^2}\}$
$=\sum^N_{i=1} ( \log \frac{1}{\sqrt{2\pi}\sigma} -\frac{1}{2\sigma^2}(y-w^{\top}x)^2)$

根据极大似然估计
$\hat{w} = \underset{w}{\arg\max} L(w)$
$=\underset{w}{\arg\max} -\frac{1}{2\sigma^2}(y-w^{\top}x)^2$
$\underset{w}{\arg\min}(y-w^{\top}x)^2$
此公式和最小二乘估计的损失函数是一模一样的
$L(w)=\sum_{i=1}^{N}\left\|w^{\top} x_{i}-y_{i}\right\|^{2}=\sum_{i=1}^{N}\left(w^{\top} x_{i}-y_{i}\right)^{2}$

最小二乘估计隐含着噪声服从正态分布这样的假设

(系列三) 线性回归3-正则化-岭回归-频率角度

最小二乘的损失函数：
$L(w)=\sum_{i=1}^{N}\left\|w^{\top} x_{i}-y_{i}\right\|^{2}=\sum_{i=1}^{N}\left(w^{\top} x_{i}-y_{i}\right)^{2}$

要估计的 $\hat{w} = \arg\min L(w) = (X^{\top} X)^{-1} X^{\top} Y$

数据是 $X_{Nxp}$ ，有N个样本， $x_i \in \mathbb{R}^p$ ，通常N要远大于p

但实际中样本可能不多，这个时候 $X^TX$ 可能不可逆，容易造成过拟合

过拟合的3种处理办法
1.加数据
2.特征选择/特征提取(PCA)
3.正则化

正则化框架
$\underset{w}{\arg\min}[L(w)+\lambda P(w)]$
P(w)是惩罚项

L1:Lasso， $P(w)=\|w\|$
L2:Ridge，岭回归，权值衰减， $P(w)=\|w\|^2_2=W^TW$

带L2的优化的目标函数：
$J(w)=\sum_{i=1}^{N}\left\|w^{\top} x_{i}-y_{i}\right\|^{2}+\lambda w^{\top} w$
$=(W^TX^T-Y^T)(XW-Y)+\lambda w^{\top} w$
$=w^{\top} X^{\top} X w-2 w^{\top} X^{\top} Y+Y^{\top} Y+\lambda w^{\top} w$
把第一项和最后一项可以合并起来，其中I是单位矩阵
$=w^{\top}\left(X^{\top} X+\lambda I\right) w-2 w^{\top} X^{\top} Y+Y^{\top} Y$

$\hat{w} = \arg\min J(w)$
$\frac{\partial J(\omega)}{\partial w}=2\left(X^{\top} X+\lambda I\right) w-2 X^{\top} Y=0$
可得 $\hat{w}=\left(X^{\top} X+\lambda I\right)^{-1} X^{\top} Y$
对比原式多了一个 $\lambda I$ ，所以会一定可逆

(系列三) 线性回归4-正则化-岭回归-贝叶斯角度

正则化的几何解释：

噪声 $\varepsilon \in N(0, \sigma^2)$

贝叶斯角度：
$\sim N(0, \sigma_0^2)$
贝叶斯定理 $y)=\frac{P(y | w) \cdot P(w)}{P(y)}$

最大后验估计MAP
$\hat{w}=\arg \max _{w} P(w | y)=\operatorname{argmax} P(y | w) \cdot P(w)$
因P(y)是一个常量，可做这个变换
由于 $P(w)=\frac{1}{\sqrt{2 \pi} \sigma_{0}} \exp \left\{-\frac{\|w\|^{2}}{2 \sigma_{0}^{2}}\right\}$
$w)=\frac{1}{\sqrt{2 \pi} \sigma} \exp \left\{-\frac{\left(y-w^{2} x\right)^{2}}{2 \sigma^{2}}\right\}$
则 $\cdot p(w)=\frac{1}{\sqrt{2 \pi} \sigma} \frac{1}{\sqrt{2 \pi} \sigma_{0}} \exp \left\{-\frac{\left(y-w^{\top} x\right)^{2}}{2 \sigma^{2}}-\frac{\|w\|^{2}}{2 \sigma_{0}^{2}}\right\}$

即原式为
$=\arg \max _{w} \log [P(y | w) \cdot P(w)]$

$=\arg \max _{w} \log(\frac{1}{\sqrt{2 \pi} \sigma} \frac{1}{\sqrt{2 \pi} \sigma_{0}}) + \log\exp \left\{-\frac{\left(y-w^{\top} x\right)^{2}}{2 \sigma^{2}}-\frac{\|w\|^{2}}{2 \sigma_{0}^{2}}\right\}$
因为前面是一个常数，可删除
$=\arg \min _{w} \frac{\left(y-w^{\top} x\right)^{2}}{2 \sigma^{2}}+\frac{\|w\|^{2}}{2 \sigma_{0}^{2}}$

$=\arg \min _{w}\left(y-w^{\top} x\right)^{2}+\frac{\sigma^{2}}{\sigma_{0}^{2}}\|w\|^{2}$
式子中都省略了 $\sum_{i=1}^N$
即 $\hat{w}_{MAP}=\arg \min _{w}\sum_{i=1}^N \left(y-w^{\top} x\right)^{2}+\frac{\sigma^{2}}{\sigma_{0}^{2}}\|w\|^{2}$
左边是loss函数，右边是惩罚项，其中 $\frac{\sigma^{2}}{\sigma_{0}^{2}}$ 可看作 $\lambda$