Tensorflow入门教程(三十三)优化器算法简介(Momentum、NAG、Adagrad、Adadelta、RMSprop、Adam)

本文主要是介绍Tensorflow入门教程(三十三)优化器算法简介(Momentum、NAG、Adagrad、Adadelta、RMSprop、Adam),希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

#
#作者:韦访
#博客:https://blog.csdn.net/rookie_wei
#微信:1007895847
#添加微信的备注一下是CSDN的
#欢迎大家一起学习
#

------韦访 20181227

1、概述

上一讲中,我们发现,虽然都是梯度下降法,但是不同算法之间还是有区别的,所以,这一讲,我们就来看看它们有什么不同。

2、梯度下降常用的三种方法

为了博客的完整性,这里再来重复的说一下什么是梯度下降法,简单说,就是寻找一个参数θ,使得函数J(θ)最小。《机器学习入门(四)回归算法》(链接:https://blog.csdn.net/rookie_wei/article/details/83117493)中,我们简单的提了梯度下降常用的三种方法:批量梯度下降法(Batch gradient descent,BGD)、随机梯度下降法(Stochastic gradient descent,SGD)、小批量梯度下降法(mini-batch gradient descent,MBGD)。

批量梯度下降法:

每次迭代都考虑所有样本,这样做容易得到最优解,但是速度很慢。

参数θ的迭代训练如上式,其中,表示学习率,函数J(θ)的梯度,

随机梯度下降:

每次随机找一个样本,这样迭代的速度很快,但是不一定每次都朝着收敛方法,效果比较差。

上式中,表示学习率,表示随机选中的样本。

SGD经常进行高方差更新,导致目标函数上图所示剧烈波动。

小批量梯度下降法: 每次迭代选择一小部分数据来算,这样就达到了一个速度和效果的平衡,

上式中,表示学习率,表示小批量选中的样本。

我们在TensorFlow中训练就是每次一个batch数据,一般来说,batch大一点,效果会比较好,但是实际应用中也要考虑内存和效率,一般设置为50~256。

3、梯度下降法的挑战

1)学习率的选择不好确定。从上面的三个式子可以看出,不管用什么方法,都得设置一个学习率。学习率决定了每次更新的速度,而学习率的设置是很难的,如果幅度过大,可能导致参数在极优值两侧来回移动,如果幅度过小,就会大大降低优化速度。

2)如果采用在训练期间调整学习率的方法,比如,根据预先定义的计划或者当两个epochs之间的目标的变化低于某个阈值时降低学习率,但是这些计划和阈值也得提前定义。

3)此外,相同的学习率适用于所有参数的更新,如果我们的数据是稀疏的,并且我们的特性具有非常不同的频率,我们可能不希望将它们全部更新到相同的程度,而是对出现频率低的特性进行更大的更新。

4)对于非凸误差函数的另一个关键挑战是避免陷入其众多的次优局部极小处。困难实际上不是来自局部极小值,而是来自鞍点,即一个维度向上倾斜,另一个维度向下倾斜的点。这些鞍点通常周围的error是一样的,这使得SGD很难逃脱,因为梯度在所有维度上都接近于零。

一个光滑函数的鞍点如上图所示,x轴向上曲,y轴向下曲。

4、Momentum

SGD很容易被困在沟壑(ravine)中,沟壑即在一个维度上的曲线比另一个维度上的曲线陡得多的区域。在这种情况下,SGD在沟壑的斜坡上震荡,同时仅在底部时朝着局部最优状态缓慢前行,如下图所示,

 Momentum是一种有助于SGD在收敛方向上加速并且抑制震荡的方法。它通过将上一步的更新向量添加到当前更新向量来实现的。这么说可能有点懵逼,上公式就明白了,

其中,一般设置为0.9,对比批量梯度下降的公式,

就像我们把球推下山坡,当球向下滚动时,会积累动量,在途中变得越来越快。

在参数更新上类似的,对于梯度指向相同方向的维度,动量项会增加,而对梯度方向改变的维度,动量项会减少更新,所以,我们得到了更快的收敛和减少震荡。

如下图所示,

缺点:这种算法下,“小球”是一个盲目的沿着斜坡滚下山的“笨球”,我们想要一个更聪明的球,一个知道它想去哪的球,这样它就知道在再次上坡之前减速。下一个算法就是解决这个缺点的。

5、Nesterov accelerated gradient(NAG)

NAG就是一个能让动量项具有“先见之明”的方法。Momentum每下降一步是由前面下降方向的累积和当前点的梯度方向组合而成,而NAG是按照前面一小步位置的“超前梯度”和当前梯度进行组合,也就是说,小球先往前走一步,然后再按照那个位置来修正当前这一步的梯度方向,根据前一步“往回看”。根据下面的图来对比Momentum和NAG这两个算法的工作原理,

如上图所示,Momentum首先计算当前梯度(蓝色小矢量),然后在更新的累积梯度(蓝色大矢量)的方向上进行一次大跳跃。而NAG则首先在先前的累积梯度(棕色矢量)方向上进行一次大跳跃,再测量梯度,然后进行校正(红色矢量),绿色矢量就是NAG的更新结果。这种预期的更新防止了我们走得太快,并使响应能力提高,这显著提高了RNN在许多任务上的性能。

参数更新公式如下,

当学习率η=0.01, 衰减率 γ=0.9γ=0.9时,对比一下Momentum和NAG的收敛速度如下图所示,

可以看到,NAG震荡幅度小于Momentum,收敛速度要快于Momentum。

 

6、Adagrad

自适应梯度算法(Adaptive gradient algorithm,Adagrad)可以对低频的参数做较大更新,对高频的参数做较小的更新,因此,该算法对于稀疏数据的表现很好,极大的提高了SGD的健壮性。

下面,我们用表示t时刻下参数的梯度,

SGD更新每个参数的式子如下,

上式中,每个参数使用相同的学习率,而Adagrad根据为计算参数的过去梯度,修改每个参数的每个时刻t的学习率。式子如下, 

 

其中,是一个对角矩阵,(i,i)元素是t时刻,参数的梯度平方和,Ɛ是一个避免被零除的平滑项。

缺点:Adagrad的主要缺点是它在分母中平方梯度的累积,累积在训练中不断增加,这就导致了学习率不断收缩,最终变得无穷小,导致模型几乎无法再训练。接下来的Adadelta算法就是解决这个问题的。

7、Adadelta

Adadelta是Adagrad的扩展,Adadelta不会累积过去所有的平方梯度,而是过去所有的平方梯度的衰减平均值,时刻t的平均值仅取决于之前的平均值和当前梯度,如下式所示。

 一般设为0.9,则Adadelta的参数更新式子如下,

 由于分母相当于梯度的均方根(RMS),所以,可以用RMS简写上式如下,

论文作者认为,更新应该具有与参数相同的假设单位,所以他们首先定义另一个指数衰减平均值,这次,不是平方梯度,而是平方参数更新,如下式,

所以,参数更新的均方根误差为,

 由于是未知的,我们用上一时刻的参数更新的RMS近似它,所以我们用来替换学习率η,最终得到Adadelta更新规则如下,

 由上式可知,我们甚至到不需要设置默认的学习率η,因为学习率η已经在更新规则中消除了。

8、RMSprop

RMSprop和Adadelta算法一样,都是为了解决Adagrad算法急剧下降的学习率的算法,RMSprop与Adadelta的第一种形式相同,这两个算法是同一时间独立开发的,英雄所见略同,公式如下,

 一般设置为0.9,学习率η设置为0.001 。

9、Adam

自适应矩估计(Adaptive Moment Estimation,Adam)是另一种参数自适应学习率的方法,有点相当于RMSprop+Momentum,Adam除了像RMSprop存储过去梯度的平方的指数衰减平均值(如Adadelta和RMSprop) ,还像Momentum一样保留过去梯度的指数衰减平均值,的式子如下,

 当初始化为0的向量时,Adam的作者发现它们会偏向于0,特别是在初始时间步骤,特别是当衰变率很小时(即接近1)。可以通过计算偏差校正后的来抵消这些偏差,

 然后,使用这些来更新参数,式子如下,

一般情况下,设置为0.9,设置为0.999,Ɛ设置为

10、各算法的动态效果图

11、如何选择优化器

1)如果训练的数据是稀疏的,则选择一个自适应学习率的算法(Adagrad、Adadelta、RMSprop、Adam)。

2)RMSprop是Adagrad一个扩展,它处理的是急剧下降的学习率。

3)Adam则为RMSprop添加了偏差校正和动量,随着梯度变得越来越稀疏,Adam在优化结束时略优于RMSprop。Adam可能是上述算法中最好的选择。

4)Adadelta、RMSprop、Adam三个算法非常相似,在类似的情况下,效果都不错。

 

总结:

优化器算法不止这几个,还有比如AdaMax、Nadam、AMSGrad等,这里就不讲了。

参考博客:

http://ruder.io/optimizing-gradient-descent/index.html

 

如果您感觉本篇博客对您有帮助,请打开支付宝,领个红包支持一下,祝您扫到99元,谢谢~~

这篇关于Tensorflow入门教程(三十三)优化器算法简介(Momentum、NAG、Adagrad、Adadelta、RMSprop、Adam)的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/214306

相关文章

Rust中的Option枚举快速入门教程

《Rust中的Option枚举快速入门教程》Rust中的Option枚举用于表示可能不存在的值,提供了多种方法来处理这些值,避免了空指针异常,文章介绍了Option的定义、常见方法、使用场景以及注意事... 目录引言Option介绍Option的常见方法Option使用场景场景一:函数返回可能不存在的值场景

正则表达式高级应用与性能优化记录

《正则表达式高级应用与性能优化记录》本文介绍了正则表达式的高级应用和性能优化技巧,包括文本拆分、合并、XML/HTML解析、数据分析、以及性能优化方法,通过这些技巧,可以更高效地利用正则表达式进行复杂... 目录第6章:正则表达式的高级应用6.1 模式匹配与文本处理6.1.1 文本拆分6.1.2 文本合并6

Vue3 的 shallowRef 和 shallowReactive:优化性能

大家对 Vue3 的 ref 和 reactive 都很熟悉,那么对 shallowRef 和 shallowReactive 是否了解呢? 在编程和数据结构中,“shallow”(浅层)通常指对数据结构的最外层进行操作,而不递归地处理其内部或嵌套的数据。这种处理方式关注的是数据结构的第一层属性或元素,而忽略更深层次的嵌套内容。 1. 浅层与深层的对比 1.1 浅层(Shallow) 定义

不懂推荐算法也能设计推荐系统

本文以商业化应用推荐为例,告诉我们不懂推荐算法的产品,也能从产品侧出发, 设计出一款不错的推荐系统。 相信很多新手产品,看到算法二字,多是懵圈的。 什么排序算法、最短路径等都是相对传统的算法(注:传统是指科班出身的产品都会接触过)。但对于推荐算法,多数产品对着网上搜到的资源,都会无从下手。特别当某些推荐算法 和 “AI”扯上关系后,更是加大了理解的难度。 但,不了解推荐算法,就无法做推荐系

HDFS—存储优化(纠删码)

纠删码原理 HDFS 默认情况下,一个文件有3个副本,这样提高了数据的可靠性,但也带来了2倍的冗余开销。 Hadoop3.x 引入了纠删码,采用计算的方式,可以节省约50%左右的存储空间。 此种方式节约了空间,但是会增加 cpu 的计算。 纠删码策略是给具体一个路径设置。所有往此路径下存储的文件,都会执行此策略。 默认只开启对 RS-6-3-1024k

康拓展开(hash算法中会用到)

康拓展开是一个全排列到一个自然数的双射(也就是某个全排列与某个自然数一一对应) 公式: X=a[n]*(n-1)!+a[n-1]*(n-2)!+...+a[i]*(i-1)!+...+a[1]*0! 其中,a[i]为整数,并且0<=a[i]<i,1<=i<=n。(a[i]在不同应用中的含义不同); 典型应用: 计算当前排列在所有由小到大全排列中的顺序,也就是说求当前排列是第

使用opencv优化图片(画面变清晰)

文章目录 需求影响照片清晰度的因素 实现降噪测试代码 锐化空间锐化Unsharp Masking频率域锐化对比测试 对比度增强常用算法对比测试 需求 对图像进行优化,使其看起来更清晰,同时保持尺寸不变,通常涉及到图像处理技术如锐化、降噪、对比度增强等 影响照片清晰度的因素 影响照片清晰度的因素有很多,主要可以从以下几个方面来分析 1. 拍摄设备 相机传感器:相机传

csu 1446 Problem J Modified LCS (扩展欧几里得算法的简单应用)

这是一道扩展欧几里得算法的简单应用题,这题是在湖南多校训练赛中队友ac的一道题,在比赛之后请教了队友,然后自己把它a掉 这也是自己独自做扩展欧几里得算法的题目 题意:把题意转变下就变成了:求d1*x - d2*y = f2 - f1的解,很明显用exgcd来解 下面介绍一下exgcd的一些知识点:求ax + by = c的解 一、首先求ax + by = gcd(a,b)的解 这个

综合安防管理平台LntonAIServer视频监控汇聚抖动检测算法优势

LntonAIServer视频质量诊断功能中的抖动检测是一个专门针对视频稳定性进行分析的功能。抖动通常是指视频帧之间的不必要运动,这种运动可能是由于摄像机的移动、传输中的错误或编解码问题导致的。抖动检测对于确保视频内容的平滑性和观看体验至关重要。 优势 1. 提高图像质量 - 清晰度提升:减少抖动,提高图像的清晰度和细节表现力,使得监控画面更加真实可信。 - 细节增强:在低光条件下,抖

【数据结构】——原来排序算法搞懂这些就行,轻松拿捏

前言:快速排序的实现最重要的是找基准值,下面让我们来了解如何实现找基准值 基准值的注释:在快排的过程中,每一次我们要取一个元素作为枢纽值,以这个数字来将序列划分为两部分。 在此我们采用三数取中法,也就是取左端、中间、右端三个数,然后进行排序,将中间数作为枢纽值。 快速排序实现主框架: //快速排序 void QuickSort(int* arr, int left, int rig