本文主要是介绍各类优化方法总结(从SGD到FTRL),希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
目录
- 目录
- 各类优化方法总结
- 1. SGD
- 2. Momentum
- 3. Nesterov
- 4. Adagrad
- 5. Adadelta
- 6. Adam
- 7. FTRL
- 参考资料
各类优化方法总结
为了方便描述,假设第 t t 轮要更新的某参数是, loss l o s s 函数关于 wt w t 的偏导数表示为 gt g t ,即:
1. SGD
可以对一个样本都计算一次梯度并更新一次参数,也可以先对一整个 batch b a t c h 一起计算梯度,再更新参数(称为batch-SGD)。
优点
- 简单
缺点
- 所有的参数使用同样的学习率 η η ,不够灵活
- 容易陷入局部最优
- 需要人工设定 η η
2. Momentum
实际上就是用加权累积的梯度代替本轮梯度,每次的更新方向并不是纯粹的梯度,而是要加上上一次迭代的一部分。可以将第 t t 轮的梯度看成下面这个式子,显然越早期的梯度贡献越小。
此外,将 Δwt Δ w t 展开得到 Δwt=−η⋅mt=−η⋅μ⋅mt−η⋅gt Δ w t = − η ⋅ m t = − η ⋅ μ ⋅ m t − η ⋅ g t ,可以看到momentum不会直接改变当前梯度 gt g t 。
优点
momentum在前后梯度一致时有利于加速收敛,不一致时能做方向纠正,同时减少陷入局部最优。
- 在前后两次梯度方向比较接近时(一般是训练初期),前后两次在相近的方向上叠加,能够加速训练。
- 在前后两次梯度方向相差很远时(训练后期在局部最小附近来回震荡),虽然 gt g t 可能很小,但是有历史梯度的累积在, mt m t 不至于太小,有利于跳出局部最优。
缺点
- 仍然需要人工设定 η η
3. Nesterov
可以看到,Nesterov只是在Momentum的基础上,修改了当前梯度 gt g t ,让历史累积的梯度 mt−1 m t − 1 也影响到当前的梯度 gt g t 。
缺点
- 仍然需要人工设定 η η
4. Adagrad
nt n t 其实是 ∑tig2i ∑ i t g i 2 ,对于稀疏梯度,该平方和一般会比较小,使得参数的学习率偏大,对于非稀疏梯度,该平方和一般比较大,使得参数学习率偏小。因此Adagrad适合用来处理稀疏梯度。
优点
- 每个参数都有自己的学习率。
- 训练初期 gt g t 平方和比较小,学习率较大,能够加速训练
- 训练后期 gt g t 平方和比较大,学习率较小,能够约束梯度
- 适合处理稀疏梯度
缺点
- 仍然需要人工设定 η η
- 训练后期平方和太大,使得梯度 →0 → 0 ,容易导致训练提前结束
5. Adadelta
为了减轻Adagrad梯度衰减过快的问题,Adadelta用历史梯度平方的集权均值代替平方和。
优点
- 具有Adagrad的优点
- 不需要人工设定 η η
- 缓解了Adagrad梯度衰减过快的问题
6. Adam
mt m t 和 nt n t 可以分别看作对历史梯度的一阶和二阶矩估计,即对期望 E[g]t E [ g ] t 和 E[g2]t E [ g 2 ] t 的估计, m̂ t m ^ t 和 n̂ t n ^ t 的处理是校正为无偏估计。
优点
- 实际上只需要保存梯度的均值,所以基本不需要额外的内存
- 不需要人工设定全局学习率 η η
- 有观点认为,RNN使用Adam速度快,效果好
7. FTRL
主要用于CTR预测的在线训练,成千上万维度导致大量稀疏特征。一般希望模型参数更加稀疏,但是简单的L1正则无法真正做到稀疏,一些梯度截断方法(TG)的提出就是为了解决这个问题,在这其中FTRL是兼备精度和稀疏性的在线学习方法。FTRL的基本思想是将接近于0的梯度直接置零,计算时直接跳过以减少计算量。
这里给出工程上的伪代码,里面的四个参数是可调的,具体原理尚且没时间看懂,以后有时间的话研究一下Google那篇论文。
参考资料
- 深度学习最全优化方法总结比较(SGD,Adagrad,Adadelta,Adam,Adamax,Nadam)- ycszen
- tensorflow optimizer 总结 - 跬步达千里
- Google FTRL论文 - Ad Click Prediction: a View from the Trenches
- 梯度下降优化算法综述
- 在线学习算法FTRL详解 - 一寒惊鸿
- 各大公司广泛使用的在线学习算法FTRL详解
- CTR预测算法之FTRL-Proximal
这篇关于各类优化方法总结(从SGD到FTRL)的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!