机器学习从矩阵和概率的角度解释最小均方误差函数

本文主要是介绍机器学习从矩阵和概率的角度解释最小均方误差函数，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

最小均方误差函数

之前的讲义里，我们提到了最小均方误差函数，给出一组有 $m$ 个样本的训练集，我们希望找到合适的参数 $\boldsymbol{\theta}$ ，使得预测值 $h_\theta(x)$ 与目标值尽可能接近。为了估计参数 $\boldsymbol{\theta}$ ，我们定义如下的 cost function:

J (θ) = 1 2 \sum i = 1 m (h θ (x i) - y i) 2

$\begin{equation} J(\boldsymbol{\theta})=\frac{1}{2}\sum_{i=1}^{m}(h_\theta(\mathbf{x}_i)-y_i)^2 %\label{equ1} \end{equation}$
这个 cost function 就是最小均方误差函数，第一讲里面，我们用梯度下降算法估计参数

θ $\boldsymbol{\theta}$ , 而第二讲里面我们提到了矩阵的基本运算及矩阵的求导，现在就从矩阵的角度求参数

θ $\boldsymbol{\theta}$ 的解析解。

矩阵的解析解

给定一组训练样本， $\mathbf{D}=\{(\mathbf{x}_{i},y_{i})| \mathbf{x}_{i}\in \mathfrak{R}^{n}, y_{i}\in \mathfrak{R}\}_{i=1}^{m}$ , $\mathbf{x}_{i}$ 是维数为 $n$ 的输入特征(默认为列向量)， $y_{i}$ 是连续的实数值， $m$ 表示样本数，则输入特征可以用矩阵表示为：

X = [x 1, x 2, \dots, x m] T

$\begin{equation*} \mathbf{X}={\begin{bmatrix}\mathbf{x}_{1}, & \mathbf{x}_{2}, & \cdots , & \mathbf{x}_{m} \end{bmatrix}}^{T} \end{equation*}$
输出变量可以用一个向量表示为：

y = [y 1, y 2, \dots, y m] T

$\begin{equation*} \mathbf{y}={\begin{bmatrix}{y}_{1}, & {y}_{2}, & \cdots , & {y}_{m} \end{bmatrix}}^{T} \end{equation*}$
而我们从第一讲已经知道，

hθ(xi)=xTiθ $h_\theta(\mathbf{x}_i)=\mathbf{x}_{i}^{T} \boldsymbol{\theta}$ , 则我们可以得到如下的表达式：

X θ - y = ⎡ ⎣ ⎢ ⎢ x T 1 θ ⋮ x T m θ ⎤ ⎦ ⎥ ⎥ - ⎡ ⎣ ⎢ ⎢ y 1 ⋮ y m ⎤ ⎦ ⎥ ⎥ = ⎡ ⎣ ⎢ ⎢ h θ (x 1) - y 1 ⋮ h θ (x m) - y m ⎤ ⎦ ⎥ ⎥

$\begin{equation*} \mathbf{X}\boldsymbol{\theta}-\mathbf{y} = \begin{bmatrix} \mathbf{x}_{1}^{T} \boldsymbol{\theta} \\ \vdots \\ \mathbf{x}_{m}^{T} \boldsymbol{\theta} \\ \end{bmatrix} - {\begin{bmatrix}{y}_{1} \\\vdots \\{y}_{m} \\ \end{bmatrix}} = {\begin{bmatrix}h_\theta(\mathbf{x}_1)-{y}_{1} \\\vdots \\h_\theta(\mathbf{x}_m)-{y}_{m} \\ \end{bmatrix}} \end{equation*}$
则最小均方误差函数可以表示为：

J (θ) = 1 2 \sum i = 1 m (h θ (x i) - y i) 2 = 1 2 (X θ - y) T (X θ - y)

$\begin{equation*} J(\boldsymbol{\theta})=\frac{1}{2}\sum_{i=1}^{m}(h_\theta(\mathbf{x}_i)-y_i)^2=\frac{1}{2} (\mathbf{X}\boldsymbol{\theta}-\mathbf{y})^{T} (\mathbf{X}\boldsymbol{\theta}-\mathbf{y}) \end{equation*}$
利用第二讲的矩阵基本运算将上式展开，可以得到：

J (θ) = 1 2 θ T X T X θ - θ T X T y - y T X θ + y T y

$\begin{equation*} J(\boldsymbol{\theta})=\frac{1}{2} \boldsymbol{\theta}^{T}\mathbf{X}^{T}\mathbf{X}\boldsymbol{\theta}-\boldsymbol{\theta}^{T}\mathbf{X}^{T} \mathbf{y} -\mathbf{y}^{T}\mathbf{X}\boldsymbol{\theta}+\mathbf{y}^{T} \mathbf{y} \end{equation*}$
利用第二讲的矩阵求导，可以得到

J(θ) $J(\boldsymbol{\theta})$ 对

θ $\boldsymbol{\theta}$ 的偏导数为：

\partial J ( θ ) \partial θ = 1 2 (X T X θ + X T X θ - 2 X T y) = X T X θ - X T y

$\begin{equation*} \frac{\partial J(\boldsymbol{\theta})}{\partial \boldsymbol{\theta}}=\frac{1}{2} (\mathbf{X}^{T}\mathbf{X}\boldsymbol{\theta} + \mathbf{X}^{T}\mathbf{X}\boldsymbol{\theta} -2 \mathbf{X}^{T} \mathbf{y})=\mathbf{X}^{T}\mathbf{X}\boldsymbol{\theta}-\mathbf{X}^{T} \mathbf{y} \end{equation*}$
令该偏导数为0，则可以得到：

X T X θ = X T y

$\begin{equation*} \mathbf{X}^{T}\mathbf{X}\boldsymbol{\theta}=\mathbf{X}^{T} \mathbf{y} \end{equation*}$
最终可以得到参数

θ $\boldsymbol{\theta}$ 的解析解为：

θ = (X T X) - 1 X T y

$\begin{equation*} \boldsymbol{\theta}=(\mathbf{X}^{T}\mathbf{X})^{-1}\mathbf{X}^{T} \mathbf{y} \end{equation*}$
如果矩阵

(XTX)−1 $(\mathbf{X}^{T}\mathbf{X})^{-1}$ 可逆，则该解就是全局最优解，有的时候，该矩阵不一定可逆，就是我们常常遇到的样本数远远大于参数的个数即

m≫n $m\gg n$ ,那么参数

θ $\boldsymbol{\theta}$ 就只能得到近似解。

从最大似然估计到最小均方误差

有的时候我们会考虑，在做回归问题的时候，为什么用最小均方误差函数作为 \textbf{cost function}, 为什么不用其它的函数。接下来，我们从概率分布的角度去考虑这个问题，随后我们会发现，最小均方误差函数从某种意义上来说，
是从最大似然估计中演化出来的。
我们先假设目标值与输入变量之间存在以下关系：

y i = θ T x i + ϵ i

$\begin{equation} y_{i}=\boldsymbol{\theta}^{T} \mathbf{x}_{i} + \epsilon_{i} \end{equation}$
其中，

ϵi $\epsilon_{i}$ 是一个误差项，表示由于一些我们没有考虑到的因素导致估计值域目标值之间出现得偏差，我们进一步假设这些误差项是
独立同分布的(independently and identically distributed), 并且是均值为0，方差为

σ2 $\sigma^{2}$ 的高斯分布(这是自然界非常常见的一种分布)。我们可以表示为

ϵi∼N(0,σ2) $\epsilon_{i} \sim N(0,\sigma^{2})$ , 其概率密度函数为：

p (ϵ i) = 1 2 π - - \sqrt σ e x p (- ϵ 2 i 2 σ 2)

$\begin{equation*} p(\epsilon_{i})=\frac{1}{\sqrt{2 \pi}\sigma}exp \left(- \frac{\epsilon_{i}^{2}}{2\sigma^{2}} \right) \end{equation*}$
将式代入，可以得到：

p (y i | x i; θ) = 1 2 π - - \sqrt σ e x p (- ( y i - θ T x i ) 2 2 σ 2)

$\begin{equation*} p(y_{i}|\mathbf{x}_{i}; \boldsymbol{\theta})=\frac{1}{\sqrt{2 \pi}\sigma}exp(- \frac{(y_{i}-\boldsymbol{\theta}^{T} \mathbf{x}_{i})^{2}}{2\sigma^{2}}) \end{equation*}$
这里需要注意，

p(yi|xi;θ) $p(y_{i}|x_{i}; \boldsymbol{\theta})$ 表示的是

yi $y_{i}$ 对

xi $\mathbf{x}_{i}$ 的条件概率，

θ $\boldsymbol{\theta}$ 是参数，

xi $\mathbf{x}_{i}$ 是随机变量，两者之间用

";" $";"$ 隔开，不能用

"," $","$ 隔开。当我们考虑所有的样本时，则所有的输出变量的分布表示为：

p(y|X;θ) $p(\mathbf{y}|\mathbf{X}; \boldsymbol{\theta})$ , 我们可以建立一个关于参数

θ $\boldsymbol{\theta}$ 的似然函数：

L (θ) = L (θ; X, y) = p (y | X; θ)

$\begin{equation*} L(\boldsymbol{\theta})=L(\boldsymbol{\theta};\mathbf{X}, \mathbf{y})=p(\mathbf{y}| \mathbf{X}; \boldsymbol{\theta}) \end{equation*}$
因为

ϵi $\epsilon_{i}$ 是独立同分布的，我们可以得到：

L (θ) = \prod i = 1 m p (y i | x i; θ) = \prod i = 1 m 1 2 π - - \sqrt σ e x p (- ( y i - θ T x i ) 2 2 σ 2)

$\begin{equation*} L(\boldsymbol{\theta})=\prod_{i=1}^{m}p(y_{i}|\mathbf{x}_{i}; \boldsymbol{\theta})=\prod_{i=1}^{m}\frac{1}{\sqrt{2 \pi}\sigma}exp \left( - \frac{(y_{i}-\boldsymbol{\theta}^{T} \mathbf{x}_{i})^{2}}{2\sigma^{2}} \right) \end{equation*}$
最大似然估计原则告诉我们，要选择参数

θ $\boldsymbol{\theta}$ 使得概率要尽可能地高。所以我们可以建立如下的优化函数：

max θ [\prod i = 1 m 1 2 π - - \sqrt σ e x p (- ( y i - θ T x i ) 2 2 σ 2)]

$\begin{equation} \max_{\boldsymbol{\theta}} \left[ \prod_{i=1}^{m}\frac{1}{\sqrt{2 \pi}\sigma}exp \left( - \frac{(y_{i}-\boldsymbol{\theta}^{T} \mathbf{x}_{i})^{2}}{2\sigma^{2}} \right) \right ] \end{equation}$
上式是一个单调函数，根据单调函数的传递性原则，我们可以对上式取对数，则可以得到：

l (θ) = l o g (L (θ)) = log \prod i = 1 m 1 2 π - - \sqrt σ e x p (- ( y i - θ T x i ) 2 2 σ 2) = \sum i = 1 m log 1 2 π - - \sqrt σ e x p (- ( y i - θ T x i ) 2 2 σ 2) = m log 1 2 π - - \sqrt σ - 1 σ 2 \cdot 1 2 \sum i = 1 m (y i - θ T x i) 2

$\begin{equation} \begin{split} \mathfrak {l}(\boldsymbol{\theta}) =log(L(\boldsymbol{\theta})) & = \text{log} \prod_{i=1}^{m}\frac{1}{\sqrt{2 \pi}\sigma}exp \left( - \frac{(y_{i}-\boldsymbol{\theta}^{T} \mathbf{x}_{i})^{2}}{2\sigma^{2}} \right) \\ & = \sum_{i=1}^{m} \text{log} \frac{1}{\sqrt{2 \pi}\sigma}exp \left( - \frac{(y_{i}-\boldsymbol{\theta}^{T} \mathbf{x}_{i})^{2}}{2\sigma^{2}} \right) \\ & = m \text{log} \frac{1}{\sqrt{2 \pi}\sigma}- \frac{1}{\sigma^{2}} \cdot \frac{1}{2} \sum_{i=1}^{m} (y_{i}-\boldsymbol{\theta}^{T} \mathbf{x}_{i})^{2} \end{split} \end{equation}$
因此，要使上式最大化，则只要使其中的二次项最小化，即

min θ 1 2 \sum i = 1 m (h θ (x i) - y i) 2

$\begin{equation*} \min_{\boldsymbol{\theta}}\frac{1}{2}\sum_{i=1}^{m}(h_\theta(\mathbf{x}_i)-y_i)^2 \end{equation*}$
我们可以看到，从概率出发，最小均方误差是最大似然估计非常自然的一种延伸，两者最后可以完美的统一起来。