Coursera 机器学习（by Andrew Ng）课程学习笔记 Week 2—

本文主要是介绍Coursera 机器学习（by Andrew Ng）课程学习笔记 Week 2——多元线性回归和正规方程，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

此系列为 Coursera 网站机器学习课程个人学习笔记（仅供参考）
课程网址：https://www.coursera.org/learn/machine-learning
参考资料：http://blog.csdn.net/SCUT_Arucee/article/details/49448111
http://blog.csdn.net/sinat_30071459/article/details/50721565

一、多元线性回归（Multivariate Linear Regression）

1.1 多元线性回归

在之前的房价预测问题上，我们只考虑了房间面积这一个变量（特征）来预测房屋价格，但是当我们使用房屋面积 $x_{1}$ ，房间数量 $x_{2}$ ，楼层 $x_{3}$ ，使用年限 $x_{4}$ 多个变量来预测房屋价格时，问题就由单变量问题转化为多变量（特征）问题。
我们首先定义几个符号方便之后的讲解：

$n \rightarrow$ 特征的个数（此例中 $n=4$ ）
$x^{(i)} \rightarrow$ 第 $i$ 组训练数据的所有特征，每组特征可用一个列向量表示。
$x_{j}^{(i)} \rightarrow$ 第 $i$ 组训练数据的第 $j$ 个特征的值

此时，我们的假设函数为： $h_{\theta }(x)=\theta _{0}+\theta _{1}x_{1}+\theta _{2}x_{2}+\theta _{3}x_{3}+\theta _{4}x_{4}$ ，我们可以假设 $x_{0}=1$ ，
扩展到 $n$ 个变量，得到多变量线性回归一般的假设函数（hypothesis）：

hθ(x)=θ0x0+θ1x1+θ2x2+θ3x3+⋯θnxn $h_{\theta }(x)=\theta _{0}x_{0}+\theta _{1}x_{1}+\theta _{2}x_{2}+\theta _{3}x_{3}+\cdots \theta _{n}x_{n}$

定义两个 $n+1$ 维向量：

x=⎡⎣⎢⎢⎢⎢⎢⎢⎢x0x1x2⋮xn⎤⎦⎥⎥⎥⎥⎥⎥⎥∈Rn+1 $x=\begin{bmatrix} x_{0}\\ x_{1}\\ x_{2}\\ \vdots \\ x_{n}\\ \end{bmatrix}\in \mathbb{R}^{n+1}$

θ=⎡⎣⎢⎢⎢⎢⎢⎢⎢θ0θ1θ2⋮θn⎤⎦⎥⎥⎥⎥⎥⎥⎥∈Rn+1 $\theta =\begin{bmatrix} \theta_{0}\\ \theta_{1}\\ \theta_{2}\\ \vdots \\ \theta_{n}\\ \end{bmatrix}\in \mathbb{R}^{n+1}$

则假设函数可以表示为： $h_{\theta }(x)=\theta ^{T}x$ 。

代价函数 $J(\theta _{0},\theta _{1},\cdots ,\theta _{n})=\frac{1}{2m}\sum_{i=1}^{m}(h_{\theta }(x^{(i)})-y^{(i)})^{2}$ 也可以用上面定义的向量表示：

J(θ)=12m∑mi=1(hθ(x(i))−y(i))2 $J(\theta)=\frac{1}{2m}\sum_{i=1}^{m}(h_{\theta }(x^{(i)})-y^{(i)})^{2}$

也可以写为：

J(θ)=12m∑mi=1((∑nj=0θjx(i)j)−y(i))2 $J(\theta )=\frac{1}{2m}\sum_{i=1}^{m}((\sum_{j=0}^{n}\theta _{j}x_{j}^{(i)})-y^{(i)})^{2}$

1.2 用梯度下降解决多元线性回归问题

同前面的相同，梯度下降更新公式为：

θ:=θj−α∂∂θjJ(θ) $\theta :=\theta _{j}-\alpha \frac{\partial }{\partial \theta _{j}}J(\theta )$

有 $n$ 个特征：（ $x_{0}^{(i)}=1$ ）

也可以表示为：

同在前面提过的一样，这里之所以会多乘一项 $x_{j}^{(i)}$ ，是因为 $h_{\theta }(x)=\theta _{0}x_{0}+\theta _{1}x_{1}+\theta _{2}x_{2}+\theta _{3}x_{3}+\cdots \theta _{n}x_{n}$ 在对 $\theta_{j}$ 求偏导时，会得到 $\theta_{j}$ 前面的系数 $x_{j}^{(i)}$ 。

1.3 特征缩放（Feature Scaling）

处理多变量问题时，如果使不同的变量取值都在相似的范围内，那么梯度下降收敛的速度会加快。

下面我们将举例说明为什么以及如何处理。

我们假设上述房价问题中房屋面积大小 $x_{1}$ 取值范围为 $0\sim2000$ ，房间数量 $x_{2}$ 取值为 $1\sim5$ ，如果我们画出 $J(\theta)$ 的轮廓图（contours）会发现 $x_{1}$ 、 $x_{2}$ 取值差别很大，与 $\theta_{2}$ 相比， $\theta_{1}$ 变化会很缓慢，画出来的轮廓图（contours）会很高很细。如下图：

在这种情况下，算法很难找到一条捷径快速找到最优解。为了解决这个问题，我们需要进行特征缩放（feature scaling），将特征变量值除以其可以取到的最大值：

x1=房屋面积2000 $x_{1}=\frac{房屋面积}{2000}$

x2=房间数量5 $x_{2}=\frac{房间数量}{5}$

这样可确保让不同特征变量的取值在相近的范围内（具有可比性），轮廓图变得更圆，梯度下降算法收敛更快。
进行特征缩放时，通常让每一个特征取值大概在 $−1⩽x_{i}⩽1$ 的范围，因为 $x_{0}$ 总是等于 $1$ ，它也满足这个范围。但这里的范围界限 $−1$ 和 $1$ 也不是绝对的，只要范围和此范围接近即可，例如 $-0.5$ 、 $0.5$ ，但是最好不要取过大（ $100$ ），或过小（ $0.0001$ ）。

均值归一化（mean normalization）
除了特征缩放（feature scaling），有时还可以进行均值归一化（mean normalization），使特征值的均值近似于0。
即：

xi:=xi−μisi $x_{i}:=\frac{x_{i}-\mu _{i}}{s_{i}}$

$\mu _{i}$ 是训练数据集中 $x_{i}$ 的平均值， $s_{i}$ 是 $x_{i}$ 的取值范围（ $max(x_{i})-min(x_{i})$ ），或者 $s_{i}$ 取 $x_{i}$ 的标准差。（ $x_{0}$ 不进行上述操作）。

均值归一化不需要太精确（即到底取标准差还是取值范围或者纠结于取某个固定值），其目的只是为了让梯度下降算法收敛速度更快。

1.4 梯度下降的两个问题

梯度下降有两个常见的问题：

如何确定梯度下降是正常工作的
如何选择学习率

Debugging gradient descent
对于梯度下降，我们的目的是 $\min_{\theta }J(\theta )$ 。因此，我们可以在梯度下降算法运行的过程中，画出 $J(\theta )$ 随迭代次数增加而变化的曲线图。正常情况下，每一次迭代后，代价函数 $J(\theta )$ 都减小了。如下图，若 $J(\theta )$ 在一定的迭代次数后趋于平坦了，则认为梯度下降收敛了。

在这里，我想先区分一下几个在后面的学习中容易混乱的概念：

batchsize： 批大小，在深度学习中，一般采用SGD训练，即每次训练在训练集中取batchsize个样本训练；
iteration： 1个iteration等于使用batchsize个样本训练一次；
epoch： 1个epoch等于使用训练集中的全部样本训练一次；

需要注意的是，对于不同的问题，梯度下降收敛所需的迭代次数也不同。我们很难确定地说出在第几次迭代算法收敛，因此，我们常常需要 $J(\theta)$ 随迭代次数变化的曲线图帮忙判断。

自动收敛测试（Automatic convergence test）
除了可以根据如上所述的 $J(\theta)$ 随迭代次数变化曲线判断是否收敛外，还可以进行自动收敛测试，即给定一个合适的较小值 $\varepsilon$ ，例如 $10^{-3}$ ，如果在一次迭代后 $J(\theta)$ 减小到小于 $\varepsilon$ ，则认为梯度下降收敛了。
如果选择的学习率 $\alpha$ 足够小，那么每一次迭代， $J(\theta)$ 都会减小。

但这里的 $\varepsilon$ 怎样选取合适并不好定一个规则，故通过判断曲线图是否平坦检测算法是否收敛可能更好。

同时， $J(\theta)$ 曲线图可以在梯度下降没有正常工作的时候给出我们警告：

如上图，如果 $J(\theta)$ 曲线图出现左上现象，是因为学习率 $\alpha$ 太大，每次迭代后 $J(\theta)$ 都冲过了最小值，反而变得更大（如右侧所示），这提示我们要用更小的 $\alpha$ 。

如果 $J(\theta)$ 曲线图出现左下现象，也是因为学习率 $\alpha$ 较大，导致 $J(\theta)$ 可能不会每次迭代都减小，也提示要用更小的 $\alpha$ 。

总结：

若 $\alpha$ 太小，则收敛太慢；
若 $\alpha$ 太大，则 $J(\theta)$ 可能不会每次迭代都减小，可能无法收敛。

实际上,应该尝试一系列的 $\alpha$ 值（例如： $\cdots,0.001,0.003,0.01,0.03,0.1,0.3,1,\cdots$ ），作出 $J(\theta)$ 随迭代次数变化的曲线，找到一个可以使梯度下降较快收敛的学习率 $\alpha$ 的值。

1.5 特征选择与多项式回归

特征选择
我们现在已经了解了多变量线性回归，接下来会了解到如何选择特征和如何得到不同的算法。当我们选择了合适的特征，算法会变得非常有效。

仍然以房价问题为例，假设房价受街道临宽(frontage)和纵向深度(depth)共同影响，则假设函数为：

hθ(x)=θ0+θ1×frontage+θ2×depth $h_{\theta }(x)=\theta _{0}+\theta _{1}\times frontage+\theta _{2}\times depth$

实际上，我们用房屋的面积来预测房价更合适，因此我们可以定义新的特征： $x = frontage \times depth$ ，线性回归假设函数为： $h_{\theta }(x)=\theta _{0}+\theta _{1}\times x$ ，有时候通过新的特征，会得到一个更好的模型。

多项式回归（Polynomial Regression）
多项式回归可以帮助我们利用线性回归的方法拟合非常复杂的函数，甚至是非线性函数。

假设房价只与房屋面积大小有关，我们得到的数据集如下图所示：

我们可以有很多模型可供选择来拟合这些数据。我们可以看出，直线（线性回归）无法很好地拟合这些数据，所以，我们可以如下图右上的二次函数来拟合，但二次函数上升到顶点会下降（如下图蓝线所示），而我们不认为房价会随面积的增加而降低，所以选择右下的三次函数来拟合可能更为合适（如下图绿线所示）。

此时，

hθ(x)=θ0+θ1x+θ2x2+θ3x3 $h_{\theta }(x)=\theta _{0}+\theta _{1}x+\theta _{2}x^{2}+\theta _{3}x^{3}$

联想到之前的多变量线性回归:

hθ(x)=θ0x0+θ1x1+θ2x2+θ3x3 $h_{\theta }(x)=\theta _{0}x_{0}+\theta _{1}x_{1}+\theta _{2}x_{2}+\theta _{3}x_{3}$

我们可以通过设置特征变量：（ $size=x$ ）

x1=(size) $x_{1}=(size)$

x2=(size)2 $x_{2}=(size)^{2}$

x3=(size)3 $x_{3}=(size)^{3}$

将多项式回归和多变量线性回归联系起来。

需要注意的是，如果房屋的大小取值范围是： $0\sim 1000$ ，我们新设置的特征变量取值范围就变成了：

x：0∼1000 $x：0\sim 1000$

x2=0∼106 $x^{2}=0\sim 10^{6}$

x3=0∼109 $x^{3}=0\sim 10^{9}$

不同的特征变量取值范围差异会变得非常大，这时，我们就需要进行前面所说的归一化过程，才能将这些变量的值变得具有可比性。

在上述例子中，除了选择三次函数模型，我们还有其他合理的选择，例如平方根函数：

hθ(x)=θ0+θ1x1+θ2x1−−√ $h_{\theta }(x)=\theta _{0}+\theta _{1}x_{1}+\theta _{2}\sqrt{x_{1}}$

只要能够通过设计不同的特征，取得更好的拟合效果就行。在之后的学习中我们会介绍一些算法可以帮助你自动选择合理有效的特征。

二、正规方程（Normal Equation）

2.1 正规方程（Normal Equation）

在之前所讲的梯度下降算法中，我们通过多次迭代来计算梯度下降，而正规方程提供了一种可以一次性求解最优 $\theta$ 值的解析方法。

首先我们回忆一下微积分是怎样处理最小值问题 $\min_{\theta }J(\theta )$ 的：

1、 $\theta \in \mathbb{R}$ ，假设 $J(\theta)=a \theta ^{2}+b \theta+c$ ，要取得 $J(\theta)$ 的最小值，

令

ddθJ(θ)=0 $\frac{\mathrm{d} }{\mathrm{d} \theta }J(\theta )=0$ ，解出

θ $\theta$ 的值

2、 $\theta \in \mathbb{R}^{n+1}$ ， $J(\theta)=\frac{1}{2m}\sum_{i=1}^{m}(h_{\theta }(x^{(i)})-y^{(i)})^{2}$ ，要取得最小值，对每一个参数 $\theta_{j}$ ，

令

∂∂θjJ(θ)=0 $\frac{\partial }{\partial \theta _{j}}J(\theta)=0$ ，解出

θ0,θ1,⋯,θn $\theta _{0},\theta _{1},\cdots,\theta _{n}$ 的值

然而，这种计算很复杂。下面我们会介绍一种新的方法。
举一个例子，如下图：

我们可以在数据前面补一列 $x_{0}$ 。

接下来，我们要对特征变量 $x$ ，建立一个矩阵 $X$ ， $X\in \mathbb{R}^{m\times (n+1)}$ ，这个矩阵包含了训练样本所有的特征变量。 $X$ 也称为设计矩阵（design matrix）。

其中， $m$ 为样本数量， $n$ 为特征变量数， $n+1$ 是因为加了 $x_{0}$ 这一列。

对 $y$ 进行同样的操作，建立向量 $y$ ， $y\in \mathbb{R}^{m}$

利用刚刚创建的 $X$ 和 $y$ ，正规方程（Normal Equation）给出求解 $\min_{\theta }J(\theta )$ 的公式是：

θ=(XTX)−1XTy $\theta =(X^{T}X)^{-1}X^{T}y$

使用正规方程法时不需要归一化特征变量。

正规方程与梯度下降的对比

对比梯度下降法和正规方程法求解 $\theta$ ，梯度下降法的劣势是需要选择学习率 $\alpha$ ，需要多次迭代，而正规方程法不需要。但这不意味着正规方程法就优于梯度下降，正规方程法需要计算 $(X^{T}X)^{-1}$ ，当特征变量的数目 $n$ 很大时， $(X^{T}X)^{-1}$ 是 $(n+1)\times(n+1)$ 维矩阵，对该矩阵求逆计算量巨大，复杂度大致是 $O(n^{3})$ ，此时用梯度下降发反而更合适。

通常， $n$ 在 $10000$ 以下时，正规方程法会是一个很好的选择，而当 $n>10000$ 时，多考虑用梯度下降法。

2.2 Normal Equation Noninvertibility

在选择正规方程法的时候，我们往往会遇到下面两个问题：

如果 $(X^{T}X)^{-1}$ 不可逆怎么办？
首先，这种情况并不多见；其次，Andrew Ng教授强调了Octave里的pinv()伪逆函数依旧可以求解。
为什么 $(X^{T}X)^{-1}$ 会不可逆？
（联系线性代数的知识）
① 存在多余的特征，即存在特征变量之间是线性相关的。
针对这种情况，可删除一些特征变量直至特征变量之间没有互相线性相关的特征存在。
② 特征变量太多(e.g. $m⩽n$ )
针对这种情况，可删除一些特征变量或使用正则化（regularization）的方法使得即使只有很小的训练集( $m$ 很小)，也能找到适合很多特征的 $\theta$ 值，后面我们会介绍正则化（regularization）。