各类优化方法总结(从SGD到FTRL)

2024-01-20 18:08

本文主要是介绍各类优化方法总结(从SGD到FTRL),希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

目录

  • 目录
  • 各类优化方法总结
    • 1. SGD
    • 2. Momentum
    • 3. Nesterov
    • 4. Adagrad
    • 5. Adadelta
    • 6. Adam
    • 7. FTRL
  • 参考资料


各类优化方法总结

为了方便描述,假设第 t t 轮要更新的某参数是wt loss l o s s 函数关于 wt w t 的偏导数表示为 gt g t ,即:

gt=Lwt g t = ∂ L ∂ w t

1. SGD

wt=wt1ηgt w t = w t − 1 − η ⋅ g t

可以对一个样本都计算一次梯度并更新一次参数,也可以先对一整个 batch b a t c h 一起计算梯度,再更新参数(称为batch-SGD)。

优点

  1. 简单

缺点

  1. 所有的参数使用同样的学习率 η η ,不够灵活
  2. 容易陷入局部最优
  3. 需要人工设定 η η

2. Momentum

mt=μmt1+gtwt=wt1ηmt m t = μ ⋅ m t − 1 + g t w t = w t − 1 − η ⋅ m t

实际上就是用加权累积的梯度代替本轮梯度,每次的更新方向并不是纯粹的梯度,而是要加上上一次迭代的一部分。可以将第 t t 轮的梯度看成下面这个式子,显然越早期的梯度贡献越小。
mt=i=1tμtigi

此外,将 Δwt Δ w t 展开得到 Δwt=ηmt=ημmtηgt Δ w t = − η ⋅ m t = − η ⋅ μ ⋅ m t − η ⋅ g t ,可以看到momentum不会直接改变当前梯度 gt g t

优点
momentum在前后梯度一致时有利于加速收敛,不一致时能做方向纠正,同时减少陷入局部最优。

  1. 在前后两次梯度方向比较接近时(一般是训练初期),前后两次在相近的方向上叠加,能够加速训练。
  2. 在前后两次梯度方向相差很远时(训练后期在局部最小附近来回震荡),虽然 gt g t 可能很小,但是有历史梯度的累积在, mt m t 不至于太小,有利于跳出局部最优。

缺点

  1. 仍然需要人工设定 η η

3. Nesterov

gt=f(wt1ημmt1) g t = ▽ f ( w t − 1 − η ⋅ μ ⋅ m t − 1 )

mt=μmt1+gtwt=wt1ηmt m t = μ ⋅ m t − 1 + g t w t = w t − 1 − η ⋅ m t

可以看到,Nesterov只是在Momentum的基础上,修改了当前梯度 gt g t ,让历史累积的梯度 mt1 m t − 1 也影响到当前的梯度 gt g t

缺点

  1. 仍然需要人工设定 η η

4. Adagrad

nt=nt1+g2twt=wt1ηnt+ϵgt n t = n t − 1 + g t 2 w t = w t − 1 − η n t + ϵ ⋅ g t

nt n t 其实是 tig2i ∑ i t g i 2 ,对于稀疏梯度,该平方和一般会比较小,使得参数的学习率偏大,对于非稀疏梯度,该平方和一般比较大,使得参数学习率偏小。因此Adagrad适合用来处理稀疏梯度。

优点

  1. 每个参数都有自己的学习率。
  2. 训练初期 gt g t 平方和比较小,学习率较大,能够加速训练
  3. 训练后期 gt g t 平方和比较大,学习率较小,能够约束梯度
  4. 适合处理稀疏梯度

缺点

  1. 仍然需要人工设定 η η
  2. 训练后期平方和太大,使得梯度 0 → 0 ,容易导致训练提前结束

5. Adadelta

E[g2]t=vE[g2]t1+(1v)g2t E [ g 2 ] t = v ⋅ E [ g 2 ] t − 1 + ( 1 − v ) ⋅ ⋅ g t 2

wt=wt1t1r=1(wrwr1)E[g2]t+ϵ w t = w t − 1 − ∑ r = 1 t − 1 ( w r − w r − 1 ) E [ g 2 ] t + ϵ

为了减轻Adagrad梯度衰减过快的问题,Adadelta用历史梯度平方的集权均值代替平方和。

优点

  1. 具有Adagrad的优点
  2. 不需要人工设定 η η
  3. 缓解了Adagrad梯度衰减过快的问题

6. Adam

mt=μmt1+(1μ)gtnt=vnt1+(1v)g2t m t = μ ⋅ m t − 1 + ( 1 − μ ) ⋅ g t n t = v ⋅ n t − 1 + ( 1 − v ) ⋅ g t 2

m̂ t=mt1μn̂ t=nt1v m ^ t = m t 1 − μ n ^ t = n t 1 − v

wt=wt1m̂ tn̂ t+ϵ w t = w t − 1 − m ^ t n ^ t + ϵ

mt m t nt n t 可以分别看作对历史梯度的一阶和二阶矩估计,即对期望 E[g]t E [ g ] t E[g2]t E [ g 2 ] t 的估计, m̂ t m ^ t n̂ t n ^ t 的处理是校正为无偏估计。

优点

  1. 实际上只需要保存梯度的均值,所以基本不需要额外的内存
  2. 不需要人工设定全局学习率 η η
  3. 有观点认为,RNN使用Adam速度快,效果好

7. FTRL

wt+1=argminw(g1:tw+12s=1tσs||wws||22+λ1||w||1) w t + 1 = arg ⁡ min w ( g 1 : t ⋅ w + 1 2 ∑ s = 1 t σ s | | w − w s | | 2 2 + λ 1 | | w | | 1 )

主要用于CTR预测的在线训练,成千上万维度导致大量稀疏特征。一般希望模型参数更加稀疏,但是简单的L1正则无法真正做到稀疏,一些梯度截断方法(TG)的提出就是为了解决这个问题,在这其中FTRL是兼备精度和稀疏性的在线学习方法。FTRL的基本思想是将接近于0的梯度直接置零,计算时直接跳过以减少计算量。

这里给出工程上的伪代码,里面的四个参数是可调的,具体原理尚且没时间看懂,以后有时间的话研究一下Google那篇论文。
这里写图片描述


参考资料

  1. 深度学习最全优化方法总结比较(SGD,Adagrad,Adadelta,Adam,Adamax,Nadam)- ycszen
  2. tensorflow optimizer 总结 - 跬步达千里
  3. Google FTRL论文 - Ad Click Prediction: a View from the Trenches
  4. 梯度下降优化算法综述
  5. 在线学习算法FTRL详解 - 一寒惊鸿
  6. 各大公司广泛使用的在线学习算法FTRL详解
  7. CTR预测算法之FTRL-Proximal

这篇关于各类优化方法总结(从SGD到FTRL)的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/626864

相关文章

JAVA中整型数组、字符串数组、整型数和字符串 的创建与转换的方法

《JAVA中整型数组、字符串数组、整型数和字符串的创建与转换的方法》本文介绍了Java中字符串、字符数组和整型数组的创建方法,以及它们之间的转换方法,还详细讲解了字符串中的一些常用方法,如index... 目录一、字符串、字符数组和整型数组的创建1、字符串的创建方法1.1 通过引用字符数组来创建字符串1.2

Java调用Python代码的几种方法小结

《Java调用Python代码的几种方法小结》Python语言有丰富的系统管理、数据处理、统计类软件包,因此从java应用中调用Python代码的需求很常见、实用,本文介绍几种方法从java调用Pyt... 目录引言Java core使用ProcessBuilder使用Java脚本引擎总结引言python

Apache Tomcat服务器版本号隐藏的几种方法

《ApacheTomcat服务器版本号隐藏的几种方法》本文主要介绍了ApacheTomcat服务器版本号隐藏的几种方法,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需... 目录1. 隐藏HTTP响应头中的Server信息编辑 server.XML 文件2. 修China编程改错误

Java中switch-case结构的使用方法举例详解

《Java中switch-case结构的使用方法举例详解》:本文主要介绍Java中switch-case结构使用的相关资料,switch-case结构是Java中处理多个分支条件的一种有效方式,它... 目录前言一、switch-case结构的基本语法二、使用示例三、注意事项四、总结前言对于Java初学者

使用Python实现大文件切片上传及断点续传的方法

《使用Python实现大文件切片上传及断点续传的方法》本文介绍了使用Python实现大文件切片上传及断点续传的方法,包括功能模块划分(获取上传文件接口状态、临时文件夹状态信息、切片上传、切片合并)、整... 目录概要整体架构流程技术细节获取上传文件状态接口获取临时文件夹状态信息接口切片上传功能文件合并功能小

Oracle Expdp按条件导出指定表数据的方法实例

《OracleExpdp按条件导出指定表数据的方法实例》:本文主要介绍Oracle的expdp数据泵方式导出特定机构和时间范围的数据,并通过parfile文件进行条件限制和配置,文中通过代码介绍... 目录1.场景描述 2.方案分析3.实验验证 3.1 parfile文件3.2 expdp命令导出4.总结

更改docker默认数据目录的方法步骤

《更改docker默认数据目录的方法步骤》本文主要介绍了更改docker默认数据目录的方法步骤,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一... 目录1.查看docker是否存在并停止该服务2.挂载镜像并安装rsync便于备份3.取消挂载备份和迁

JavaScript DOM操作与事件处理方法

《JavaScriptDOM操作与事件处理方法》本文通过一系列代码片段,详细介绍了如何使用JavaScript进行DOM操作、事件处理、属性操作、内容操作、尺寸和位置获取,以及实现简单的动画效果,涵... 目录前言1. 类名操作代码片段代码解析2. 属性操作代码片段代码解析3. 内容操作代码片段代码解析4.

Android数据库Room的实际使用过程总结

《Android数据库Room的实际使用过程总结》这篇文章主要给大家介绍了关于Android数据库Room的实际使用过程,详细介绍了如何创建实体类、数据访问对象(DAO)和数据库抽象类,需要的朋友可以... 目录前言一、Room的基本使用1.项目配置2.创建实体类(Entity)3.创建数据访问对象(DAO

SpringBoot3集成swagger文档的使用方法

《SpringBoot3集成swagger文档的使用方法》本文介绍了Swagger的诞生背景、主要功能以及如何在SpringBoot3中集成Swagger文档,Swagger可以帮助自动生成API文档... 目录一、前言1. API 文档自动生成2. 交互式 API 测试3. API 设计和开发协作二、使用