深度模型中的优化(四)、动量(momentum)和Nesterov动量

本文主要是介绍深度模型中的优化(四)、动量(momentum)和Nesterov动量，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

参考动量(momentum)和Nesterov动量 - 云+社区 - 腾讯云

一、动量

虽然随机梯度下降仍然是非常受欢迎的优化方法，但其学习过程有时会很慢。动量方法旨在加速学习，特别是处理高曲率、小但一致的梯度，或是带噪声的梯度。动量算法积累了之前梯度指数级衰减的移动平均，并且继续沿该方向移动。从形式上看，动量算法引入了变量v充当速度角色------它代表参数在参数空间移动的方向和速率。速度被设为负梯度的指数衰减平均。名称动量来自物理类比，根据牛顿运动定律，负梯度是移动参数空间中粒子的力。动量在物理学上定义为质量乘以速度。在动量学习算法中，我们假设是单位质量，因此速度向量v也可以看作粒子的动量。超参数 $\alpha \in [0,1)$ 决定了之前梯度的贡献衰减得有多快。更新规则如下：

$v\leftarrow \alpha v-\varepsilon \bigtriangledown _{\theta}(\frac{1}{m}\sum^m_{i=1}L(f(x^{(i)};\theta),y^{(i)}))$

速度v积累了梯度元素 $\bigtriangledown _{\theta}(\frac{1}{m}\sum^m_{i=1}L(f(x^{(i)};\theta),y^{(i)}))$ 。相对于 $\varepsilon$ ， $\alpha$ 越大，之前梯度对现在方向的影响也越大。带动量的SGD算法如下所示：

Requires：学习率 $\varepsilon$ ，动量参数 $\alpha$

Requires：初始参数 $\theta$ ，初始速度 $v$

      while 没有达到停止准则 do

      从训练集中采包含m个样本 $\{x^{(1)},...,x^{(m)}\}$ 的小批量，对应目标为 $y^{(i)}$ 。

      计算梯度估计： $\small g\leftarrow \frac{1}{m}\sum^m_{i=1}L(f(x^{(i)};\theta),y^{(i)})$

      计算速度更新： $v\leftarrow \alpha v-\varepsilon g$

      应用更新： $\theta\leftarrow \theta + v$

end while

之前，步长只是梯度范数乘以学习率。现在，步长取决于梯度序列的大小和排列。当许多连续的梯度指向指定相同的方向时，步长最大。如果动量算法总是观测到梯度g，那么它只会在方向-g上不停加速，直到达到最终速度，其中步长大小为：

$\frac{\varepsilon ||g||}{1-\alpha}$

因此将动量的超参数视为 $1/(1-\alpha)$ 有助于理解。例如， $\alpha=0.9$ 对应着最大速度10倍于梯度下降算法。

在实践中， $\alpha$ 的一般取值为0.5、0.9和0.99和学习率一样， $\small \alpha$ 也会随着时间不断调整。一般初初始值是一个较小的值，随后会慢慢变大。随着时间推移调节 $\alpha$ 没有收缩 $\small \varepsilon$ 重要。

我们可以将动量算法视为模拟连续时间下牛顿动力学下的粒子。这种物理类比有助于直觉上理解动量和梯度下降算法是如何表现的。粒子在任意时间点的位置由 $\small \theta(t)$ 给定。粒子会受到净力 $\small f(t)$ 。该力会导致粒子加速：

$\small f(t)=\frac{\partial^2 }{\partial t^2}\theta(t)$

与其将其视为位置的二阶微分方程，我们不如引入表示粒子在时间t处速度的变量v(f)，将牛顿力学重写为一阶微分方程：

$\small v(t)=\frac{\partial }{\partial t}\theta(t)$

$\small f(t)=\frac{\partial }{\partial t}v(t)$

由此，动量算法包括通过数值模拟求解微分方程。求解微分方程的一个简单数值方法是欧拉方法，通过在每个梯度方向上具有有限的步长来简单模拟该等式的动力学。这解释了动量更新的基本形式，但具体什么是力呢？力正比于代价函数的负梯度 $\small -\bigtriangledown _\theta J(\theta)$ 。该力推动粒子沿着代价函数表面下坡方向的方向移动。梯度下降算法基于每个梯度简单地更新一步，而使用动量算法的牛顿方案则使用该力改变粒子的速度。我们可以将粒子视作在冰面上滑行的冰球。每当它沿着表面最陡的部分下降时，它会积累继续在该力方向上滑行的速度，知道其开始向上滑动为止。

另一个力也是必要的。如果代价函数的梯度是唯一的力，那么粒子可能永远不会停下来。想象一下，假设理想情况下冰面没有摩擦，一个冰球从山谷的一端下滑，上升到另一端，永远来回震荡。要解决这个问题，我们添加一个正比于-v(t)的力。在物理术语中，此力对应于粘性阻力，就像例子必须通过一个抵抗介质，如糖浆。这会导致粒子随着时间推移逐渐失去能量，最终收敛到局部极小值点。

为什么要特别适用-v(t)和粘性阻力呢？部分原因是因为-v(t)在数学上的便利------速度的整数幂很容易处理。然而，其他物理系统具有基于速度的其他类型的阻力。例如，颗粒通过空气时会受到正比于速度平方的湍流阻力，而颗粒沿着地面移动时会受到恒定大小的摩擦力，这些选择都不合适。湍流阻力正比于速度的平方，在速度很小时会很弱，不够强到使例子停下来。非零初始值速度的粒子仅收到湍流阻力，会从初始位置永远地移动下去，和初始位置的距离大概正比于O(logt)，因此我们必须使用速度较低幂次的力。如果幂次为零，相当于干摩擦，那么力太大了。当代价函数的梯度表示的力很小但非零时，由过幂次为零，相当于摩擦，那么力太强了。当代建很多户的梯度表示的力很小但非零时，由于摩擦导致的阻力会使得粒子在达到局部极小点之前就停下来。粘性阻力避免了这两个问题。它足够弱，可以使梯度引起的运行直到达到最小，但有足够强，使得梯度不够时可以阻止运动。

二、Nesterov动量

受Nesterov加速度算法提出了动量算法的一个变种。这种情况的更新规则如下：

$\small v\leftarrow \alpha-\varepsilon \bigtriangledown _\theta[\frac{1}{m}\sum^m_{i=1}L(f(x^{(i)};\theta),y^{(i)})]$

$\small \theta \leftarrow \theta + v$

其中参数 $\small \alpha$ 和 $\small \varepsilon$ 发挥了和标准动量方法中类似的作用。Nesterov动量和标准动量之间的区别体现在梯度计算上。Nesterov动量中，梯度计算在施加当前速度后。因此，Nesterov动量可以解释为往标准动量方法中添加了校正因子。完整的Nesterov动量算法如下所示，

Requires：学习率，动量参数 $\small \alpha$

Requires：初始参数 $\small \theta$ ，初始速率 $\small v$

      while 没有达到停止准则 do

      从训练集中采包含 $\tiny m$ 个样本 $\small \{ x^{(1)},...,x^{(m)}\}$ 的小批量，对应目标为 $\small y^{(i)}$ 。

      应用临时更新： $\small \hat{\theta}\leftarrow \alpha v-\varepsilon g$

     应用更新： $\small \theta\leftarrow \theta + v$

end while