SGD，Momentum，AdaGrad，RMSProp，Adam等优化算法发展历程

本文主要是介绍SGD，Momentum，AdaGrad，RMSProp，Adam等优化算法发展历程，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

各种优化算法层出不穷，看的眼花缭乱，如果不能理清楚其中他们的关系及发展历程，必然会记得很混乱及模糊

最开始做神经网络的时候大家更新参数的时候都是把所有数据计算一遍，求所以数据的平均梯度再进行参数调节，后来觉得这样太慢了，干脆就计算一条数据就调节一次，这就叫随机梯度下降了（SGD），随机两字的由来是因为每条数据可能调节的方向都不一样，下降的过程会很震荡。

这都是两个极端，后来就干脆折中一点，MIni batch进行一次调整，就是算出来了一个批次后调整一次，就是批梯度下降了。

然后可以想象一个石头落下山的时候肯定中间会收到阻力，忽而慢、忽而快，在我们这里就好比如，如果前面的批次都是朝着一个方向进行调整，突然有个异常数据方向完全相反或又差异，岂不是一种干扰，辛辛苦苦调整了半天又回去了，这个时候一个大神就想到了物理里面的动量，模拟石头下山的一个过程，一路顺畅则越下越快，有阻碍则减速，这就是动量下降法（Momentum）

但是如果都是一路顺畅，会下降的过快，在达到终点的时候可能会溢出，所以又改进了一点产生了牛顿动量法（Nesterov），其核心思想是：注意到 momentum 方法，如果只看项，那么当前的 θ经过 momentum 的作用会变成。因此可以把这个位置看做是当前优化的一个”展望”位置。所以，可以在处求导, 而不是原始的θ。

在约束完梯度后，就开始对学习率进行改进了

AdaGrad 对于出现频率较低参数采用较大的α更新；相反，对于出现频率较高的参数采用较小的α更新。

随着训练次数的增加会越来越大，到后面会出现学习率为0的问题。为了使学习率下降的慢点，提出了

RMSprop算法 AdaGrad 是学习率除以梯度的平方和开根号，RMs则变为了求梯度平方和的平均数开根号（均方根）

前面是对梯度进行调节，后面是对学习率进行约束，把两者相结合就产生了Adam算法了

其中， $m_t$ ， $n_t$ 分别是对梯度的一阶矩估计和二阶矩估计，可以看作对期望 $E|g_t|$ ， $E|g_t^2|$ 的估计； $\hat{m_t}$ ， $\hat{n_t}$ 是对 $m_t$ ， $n_t$ 的校正，这样可以近似为对期望的无偏估计，为什么要进行这么一个无偏估计呢，是求均值，为什么说是无偏估计呢，本身就是一种估计，估计了很多回以后，它本身也有一个分布，对它求均值，就基本上认为是准确的了，所以叫无偏估计。