SGD,Momentum,AdaGrad,RMSProp,Adam等优化算法发展历程

2024-06-22 06:58

本文主要是介绍SGD,Momentum,AdaGrad,RMSProp,Adam等优化算法发展历程,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

各种优化算法层出不穷,看的眼花缭乱,如果不能理清楚其中他们的关系及发展历程,必然会记得很混乱及模糊

       最开始做神经网络的时候大家更新参数的时候都是把所有数据计算一遍,求所以数据的平均梯度再进行参数调节,后来觉得这样太慢了,干脆就计算一条数据就调节一次,这就叫随机梯度下降了(SGD),随机两字的由来是因为每条数据可能调节的方向都不一样,下降的过程会很震荡。

       这都是两个极端,后来就干脆折中一点,MIni batch进行一次调整,就是算出来了一个批次后调整一次,就是批梯度下降了。

       然后可以想象一个石头落下山的时候肯定中间会收到阻力,忽而慢、忽而快,在我们这里就好比如,如果前面的批次都是朝着一个方向进行调整,突然有个异常数据方向完全相反或又差异,岂不是一种干扰,辛辛苦苦调整了半天又回去了,这个时候一个大神就想到了物理里面的动量,模拟石头下山的一个过程,一路顺畅则越下越快,有阻碍则减速,这就是动量下降法(Momentum

  

但是如果都是一路顺畅,会下降的过快,在达到终点的时候可能会溢出,所以又改进了一点产生了牛顿动量法(Nesterov),其核心思想是:注意到 momentum 方法,如果只看 项,那么当前的 θ经过 momentum 的作用会变成 。因此可以把这个位置看做是当前优化的一个”展望”位置。所以,可以在 处求导, 而不是原始的θ。

  


在约束完梯度后,就开始对学习率进行改进了

AdaGrad 对于出现频率较低参数采用较大的α更新;相反,对于出现频率较高的参数采用较小的α更新。

 


随着训练次数的增加会越来越大,到后面会出现学习率为0的问题。为了使学习率下降的慢点,提出了

RMSprop算法 AdaGrad 是学习率除以梯度的平方和开根号,RMs则变为了求梯度平方和的平均数开根号(均方根)

 

前面是对梯度进行调节,后面是对学习率进行约束,把两者相结合就产生了Adam算法了

其中,m_tn_t分别是对梯度的一阶矩估计和二阶矩估计,可以看作对期望E|g_t|E|g_t^2|的估计;\hat{m_t}\hat{n_t}是对m_tn_t的校正,这样可以近似为对期望的无偏估计,为什么要进行这么一个无偏估计呢,求均值,为什么说是无偏估计呢,本身就是一种估计,估计了很多回以后,它本身也有一个分布,对它求均值,就基本上认为是准确的了,所以叫无偏估计。



这篇关于SGD,Momentum,AdaGrad,RMSProp,Adam等优化算法发展历程的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1083601

相关文章

Deepseek使用指南与提问优化策略方式

《Deepseek使用指南与提问优化策略方式》本文介绍了DeepSeek语义搜索引擎的核心功能、集成方法及优化提问策略,通过自然语言处理和机器学习提供精准搜索结果,适用于智能客服、知识库检索等领域... 目录序言1. DeepSeek 概述2. DeepSeek 的集成与使用2.1 DeepSeek API

Tomcat高效部署与性能优化方式

《Tomcat高效部署与性能优化方式》本文介绍了如何高效部署Tomcat并进行性能优化,以确保Web应用的稳定运行和高效响应,高效部署包括环境准备、安装Tomcat、配置Tomcat、部署应用和启动T... 目录Tomcat高效部署与性能优化一、引言二、Tomcat高效部署三、Tomcat性能优化总结Tom

解读Redis秒杀优化方案(阻塞队列+基于Stream流的消息队列)

《解读Redis秒杀优化方案(阻塞队列+基于Stream流的消息队列)》该文章介绍了使用Redis的阻塞队列和Stream流的消息队列来优化秒杀系统的方案,通过将秒杀流程拆分为两条流水线,使用Redi... 目录Redis秒杀优化方案(阻塞队列+Stream流的消息队列)什么是消息队列?消费者组的工作方式每

Oracle查询优化之高效实现仅查询前10条记录的方法与实践

《Oracle查询优化之高效实现仅查询前10条记录的方法与实践》:本文主要介绍Oracle查询优化之高效实现仅查询前10条记录的相关资料,包括使用ROWNUM、ROW_NUMBER()函数、FET... 目录1. 使用 ROWNUM 查询2. 使用 ROW_NUMBER() 函数3. 使用 FETCH FI

C#使用HttpClient进行Post请求出现超时问题的解决及优化

《C#使用HttpClient进行Post请求出现超时问题的解决及优化》最近我的控制台程序发现有时候总是出现请求超时等问题,通常好几分钟最多只有3-4个请求,在使用apipost发现并发10个5分钟也... 目录优化结论单例HttpClient连接池耗尽和并发并发异步最终优化后优化结论我直接上优化结论吧,

Java内存泄漏问题的排查、优化与最佳实践

《Java内存泄漏问题的排查、优化与最佳实践》在Java开发中,内存泄漏是一个常见且令人头疼的问题,内存泄漏指的是程序在运行过程中,已经不再使用的对象没有被及时释放,从而导致内存占用不断增加,最终... 目录引言1. 什么是内存泄漏?常见的内存泄漏情况2. 如何排查 Java 中的内存泄漏?2.1 使用 J

Python中的随机森林算法与实战

《Python中的随机森林算法与实战》本文详细介绍了随机森林算法,包括其原理、实现步骤、分类和回归案例,并讨论了其优点和缺点,通过面向对象编程实现了一个简单的随机森林模型,并应用于鸢尾花分类和波士顿房... 目录1、随机森林算法概述2、随机森林的原理3、实现步骤4、分类案例:使用随机森林预测鸢尾花品种4.1

MySQL不使用子查询的原因及优化案例

《MySQL不使用子查询的原因及优化案例》对于mysql,不推荐使用子查询,效率太差,执行子查询时,MYSQL需要创建临时表,查询完毕后再删除这些临时表,所以,子查询的速度会受到一定的影响,本文给大家... 目录不推荐使用子查询和JOIN的原因解决方案优化案例案例1:查询所有有库存的商品信息案例2:使用EX

MySQL中my.ini文件的基础配置和优化配置方式

《MySQL中my.ini文件的基础配置和优化配置方式》文章讨论了数据库异步同步的优化思路,包括三个主要方面:幂等性、时序和延迟,作者还分享了MySQL配置文件的优化经验,并鼓励读者提供支持... 目录mysql my.ini文件的配置和优化配置优化思路MySQL配置文件优化总结MySQL my.ini文件

正则表达式高级应用与性能优化记录

《正则表达式高级应用与性能优化记录》本文介绍了正则表达式的高级应用和性能优化技巧,包括文本拆分、合并、XML/HTML解析、数据分析、以及性能优化方法,通过这些技巧,可以更高效地利用正则表达式进行复杂... 目录第6章:正则表达式的高级应用6.1 模式匹配与文本处理6.1.1 文本拆分6.1.2 文本合并6