SGD BGD Adadelta等优化算法比较

2023-10-21 06:30

本文主要是介绍SGD BGD Adadelta等优化算法比较,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

在腾讯的笔试题中,作者遇到了这样一道题:

下面哪种方法对超参数不敏感:

1、SGD
2、BGD
3、Adadelta
4、Momentum


神经网络经典五大超参数:
学习率(Learning Rate)、权值初始化(Weight Initialization)、网络层数(Layers)
单层神经元数(Units)、正则惩罚项(Regularizer|Normalization)

显然在这里超参数指的是事先指定的learningrate,而对超参数不敏感的梯度算法是Adadelta,牛顿法。

现在开始具体讨论一下几种常见的梯度优化算法。


1、BGD批量梯度下降法:

是指每一次反向传播中都将全部的样本进行处理计算梯度,更新权重。缺点是这样的方法造成处理数据量大,收敛慢;另外在数据量很大的时候,内存的要求很高。

我们假设损失函数J(θ)的计算方法是最小二乘法,变量为θ(θ即在机器学习训练中的权值w,通过不断对其的更新修改使得最后求得的损失极小),在样本为xi时,目标值为yi,经过计算求得的目标值为hθ(xi),则J(θ)的表达式可以写为:


为了得到J(θ)的最小值,对其求以θ为变量的偏导:


该值即为梯度值,已知梯度,θ值即可以更新为:


这里的γ值则表示向梯度下降的方向前进多少,即学习速率。

可以看出,每次求解梯度值对θ进行更新时,都需要对每个样本进行计算,这样的计算量大,计算速度也很慢。

故梯度下降算法可以简单表示:



2、 SGD最速下降法(随机梯度下降法):

是指采用随机采用的方法,每次使用一个样本数据进行计算梯度。优点是,开始收敛速度快;缺点是一个样本往往不会一直向着整体样本的梯度方向,这样算法后期会有变慢。

随机梯度下降法可以解决批量梯度下降法的计算量过大的问题,每次求梯度只随机取一个样本进行计算。

仍旧假设使用最小二乘法来求损失函数,那么有:


继续对θ求偏导来求梯度值:


根据梯度值更新θ的值:


这样采用一个样本的梯度来作为整体梯度值的方法虽然速度比较快,但是一个样本的梯度不一定会和整体的收敛方向一致,会有误差的发生。

为了解决这个问题,可以每次采用少量的样本(如10个)来进行梯度求解,这样迭代速度既快,又不至于梯度与整体的收敛方向差别太大,这样的方法叫做小批量梯度下降法。



3、Adadelta自适应学习率调整:

在介绍Adadelta之前需要先了解Adagrad,

Adadelta的特点是在下降初期,梯度比较小,这时学习率会比较大,而到了中后期,接近最低点时,梯度较大,这时学习率也会相对减小,放慢速度,以便可以迭代到最低点。

假设梯度为gt,那么在使用Adagrad时并非直接减去gt*γ,而是先对学习率进行一个处理:


即把所有的梯度的平方根,作为一个正则化约束项,加上ε的作用是为了避免分母为0。

缺点:

由公式可以看出,仍依赖于人工设置一个全局学习率

\eta设置过大的话,会使regularizer过于敏感,对梯度的调节太大

中后期,分母上梯度平方的累加将会越来越大,使gradient\to0,使得训练提前结束


Adadelta是对Adagrad的扩展,最初方案依然是对学习率进行自适应约束,但是进行了计算上的简化。Adagrad会累加之前所有的梯度平方,而Adadelta只累加固定大小的项,并且也不直接存储这些项,仅仅是近似计算对应的平均值。即:

n_t=\nu*n_{t-1}+(1-\nu)*g_t^2

\Delta{\theta_t} = -\frac{\eta}{\sqrt{n_t+\epsilon}}*g_t

在此处Adadelta其实还是依赖于全局学习率的,但是做了一定处理后,经过近似牛顿迭代法之后:

E|g^2|_t=\rho*E|g^2|_{t-1}+(1-\rho)*g_t^2

\Delta{x_t}=-\frac{\sqrt{\sum_{r=1}^{t-1}\Delta{x_r}}}{\sqrt{E|g^2|_t+\epsilon}}

其中,E代表求期望。

此时,可以看出Adadelta已经不用依赖于全局学习率了。

特点:

训练初中期,加速效果不错,很快

训练后期,反复在局部最小值附近抖动


4、Momentum冲量法:

梯度下降法在求解时的难题主要在于解决极小值和鞍点的问题,为了解决这个问题,可以模拟在现实中的惯性。物体有一个初始动量,在平缓的区域或者小的坑里也能继续向前运动试图滚出小坑,在动量变为0的时候停止,表示已经达到最低点。

简单表示冲量法对梯度的作用,设初始点为,以及初始的动量为


在简单的梯度下降算法的基础上,代表上一时刻的动量的项v被加入进来,并且每一次都会乘上一个衰减系数,该系数可以类比于物理运动中摩擦的存在,前一次的迭代位置方向可以影响到下一次迭代。直到动量小于某个值,或者梯度小于一个值,或者迭代到了一定的次数。


5、NGA算法:

NGA算法是一个对冲量算法的改进算法,其求梯度并非求解当前位置的梯度,而是应该 求解下一个时刻的梯度:


相当于一般的冲量算法是根据当前的梯度决定运动方向。而NGA算法则相当于看一下前方的梯度,再决定运动方向。


6、牛顿法:

之前有写过牛顿法,但是在这里再简单总结一下,以方便和其他几种方法作比较。

在介绍牛顿法之前,先介绍一点用于数值计算的牛顿-拉普森算法(NR):

NR算法是用来寻找实值方程的近似解的一种数值算法,已知初始点为,方程f(x),简单表示为:


也就是说,牛顿法其实就是给函数在当前位置做一个一阶展开,即每次迭代的x的变化量都为当前位置的斜率。


牛顿法:

对于凸函数(下图左),凸函数的导数曲线如下(右),找到其极值的位置就相当于找到其的所在位置,此时凸函数的斜率为0,已经达到极小值。


这时将牛顿-拉普森算法套用到上即可。故可以将牛顿法简单表示为:

这种方法是求解一维的极值,扩展到高维的情况下的算法如下:


其中为二阶偏导矩阵,又称海森矩阵

Hf(x)=             

这篇关于SGD BGD Adadelta等优化算法比较的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/252558

相关文章

SpringBoot3实现Gzip压缩优化的技术指南

《SpringBoot3实现Gzip压缩优化的技术指南》随着Web应用的用户量和数据量增加,网络带宽和页面加载速度逐渐成为瓶颈,为了减少数据传输量,提高用户体验,我们可以使用Gzip压缩HTTP响应,... 目录1、简述2、配置2.1 添加依赖2.2 配置 Gzip 压缩3、服务端应用4、前端应用4.1 N

Spring Boot + MyBatis Plus 高效开发实战从入门到进阶优化(推荐)

《SpringBoot+MyBatisPlus高效开发实战从入门到进阶优化(推荐)》本文将详细介绍SpringBoot+MyBatisPlus的完整开发流程,并深入剖析分页查询、批量操作、动... 目录Spring Boot + MyBATis Plus 高效开发实战:从入门到进阶优化1. MyBatis

MyBatis 动态 SQL 优化之标签的实战与技巧(常见用法)

《MyBatis动态SQL优化之标签的实战与技巧(常见用法)》本文通过详细的示例和实际应用场景,介绍了如何有效利用这些标签来优化MyBatis配置,提升开发效率,确保SQL的高效执行和安全性,感... 目录动态SQL详解一、动态SQL的核心概念1.1 什么是动态SQL?1.2 动态SQL的优点1.3 动态S

Python如何使用__slots__实现节省内存和性能优化

《Python如何使用__slots__实现节省内存和性能优化》你有想过,一个小小的__slots__能让你的Python类内存消耗直接减半吗,没错,今天咱们要聊的就是这个让人眼前一亮的技巧,感兴趣的... 目录背景:内存吃得满满的类__slots__:你的内存管理小助手举个大概的例子:看看效果如何?1.

一文详解SpringBoot响应压缩功能的配置与优化

《一文详解SpringBoot响应压缩功能的配置与优化》SpringBoot的响应压缩功能基于智能协商机制,需同时满足很多条件,本文主要为大家详细介绍了SpringBoot响应压缩功能的配置与优化,需... 目录一、核心工作机制1.1 自动协商触发条件1.2 压缩处理流程二、配置方案详解2.1 基础YAML

SpringBoot实现MD5加盐算法的示例代码

《SpringBoot实现MD5加盐算法的示例代码》加盐算法是一种用于增强密码安全性的技术,本文主要介绍了SpringBoot实现MD5加盐算法的示例代码,文中通过示例代码介绍的非常详细,对大家的学习... 目录一、什么是加盐算法二、如何实现加盐算法2.1 加盐算法代码实现2.2 注册页面中进行密码加盐2.

Java时间轮调度算法的代码实现

《Java时间轮调度算法的代码实现》时间轮是一种高效的定时调度算法,主要用于管理延时任务或周期性任务,它通过一个环形数组(时间轮)和指针来实现,将大量定时任务分摊到固定的时间槽中,极大地降低了时间复杂... 目录1、简述2、时间轮的原理3. 时间轮的实现步骤3.1 定义时间槽3.2 定义时间轮3.3 使用时

MySQL中慢SQL优化的不同方式介绍

《MySQL中慢SQL优化的不同方式介绍》慢SQL的优化,主要从两个方面考虑,SQL语句本身的优化,以及数据库设计的优化,下面小编就来给大家介绍一下有哪些方式可以优化慢SQL吧... 目录避免不必要的列分页优化索引优化JOIN 的优化排序优化UNION 优化慢 SQL 的优化,主要从两个方面考虑,SQL 语

MySQL中慢SQL优化方法的完整指南

《MySQL中慢SQL优化方法的完整指南》当数据库响应时间超过500ms时,系统将面临三大灾难链式反应,所以本文将为大家介绍一下MySQL中慢SQL优化的常用方法,有需要的小伙伴可以了解下... 目录一、慢SQL的致命影响二、精准定位问题SQL1. 启用慢查询日志2. 诊断黄金三件套三、六大核心优化方案方案

Redis中高并发读写性能的深度解析与优化

《Redis中高并发读写性能的深度解析与优化》Redis作为一款高性能的内存数据库,广泛应用于缓存、消息队列、实时统计等场景,本文将深入探讨Redis的读写并发能力,感兴趣的小伙伴可以了解下... 目录引言一、Redis 并发能力概述1.1 Redis 的读写性能1.2 影响 Redis 并发能力的因素二、