序列建模之循环和递归网络 - 优化长期依赖篇

2024-08-23 07:28

本文主要是介绍序列建模之循环和递归网络 - 优化长期依赖篇,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

序言

在序列建模领域,循环神经网络( RNN \text{RNN} RNN)及其变体,如长短期记忆网络( LSTM \text{LSTM} LSTM)和递归神经网络( Recursive Neural Network \text{Recursive Neural Network} Recursive Neural Network),凭借其捕捉序列数据时间依赖性的能力,成为处理复杂序列数据的关键工具。然而,尽管这些网络在处理短期依赖方面表现出色,但在处理长期依赖时却面临严峻挑战。长期依赖问题主要源于梯度在反向传播过程中的消失或爆炸现象,这限制了 RNN \text{RNN} RNN在处理需要长期记忆的任务(如自然语言处理中的长文本理解)时的性能。

优化长期依赖

  • 神经网络优化中的挑战篇 - 长期依赖长期依赖的挑战篇已经描述过在许多时间步上优化RNN时发生的梯度消失和爆炸的问题。
  • Martens and Sutskever (2011) \text{Martens and Sutskever (2011)} Martens and Sutskever (2011) 提出了一个有趣的想法是,二阶导数可能在一阶导数消失的同时消失。
    • 二阶优化算法可以大致被理解为将一阶导数除以二阶导数(在更高维数,由梯度乘以 Hessian \text{Hessian} Hessian的逆)。
    • 如果二阶导数与一阶导数以类似的速率收缩,那么一阶和二阶导数的比率可保持相对恒定。
    • 不幸的是,二阶方法有许多缺点,包括高的计算成本、需要一个大的 minibatch \text{minibatch} minibatch、并且倾向于被吸引到鞍点。
    • Martens and Sutskever (2011) \text{Martens and Sutskever (2011)} Martens and Sutskever (2011) 发现采用二阶方法的不错结果。
    • 之后, Sutskever et al. (2013) \text{Sutskever et al. (2013)} Sutskever et al. (2013)发现使用较简单的方法可以达到类似的结果,例如细心初始化的 Nesterov \text{Nesterov} Nesterov动量法。
    • 更详细的内容参考 Sutskever (2012) \text{Sutskever (2012)} Sutskever (2012)
    • 应用于 LSTM \text{LSTM} LSTM时,这两种方法在很大程度上会被单纯的 SGD \text{SGD} SGD(甚至没有动量)取代。
    • 这是机器学习中一个延续的主题,设计一个易于优化模型通常比设计出更加强大的优化算法更容易。

截断梯度

  • 如在神经网络优化中的挑战篇 - 悬崖和梯度爆炸中讨论,强非线性函数(如由许多时间步计算的循环网络)往往倾向于非常大或非常小幅度的梯度。如神经网络优化中的挑战篇中 - 图例3图例1所示,我们可以看到,目标函数(作为参数的函数)存在一个伴随 ‘‘悬崖’’ 的 ‘‘地形’’:宽且相当平坦区域被目标函数变化快的小区域隔开,形成了一种悬崖。
  • 这导致的困难是,当参数梯度非常大时,梯度下降的参数更新可以将参数抛出很远,进入目标函数较大的区域,到达当前解所作的努力变成了无用功。
    • 梯度告诉我们,围绕当前参数的无穷小区域内最速下降的方向。
    • 这个无穷小区域之外,代价函数可能开始沿曲线背面而上。
    • 更新必须被选择为足够小,以避免过分穿越向上的曲面。
    • 我们通常使用衰减速度足够慢的学习率,使连续的步骤具有大致相同的学习率。
    • 适合于一个相对线性的地形部分的步长经常在下一步进入地形中更加弯曲的部分时变得不适合,会导致上坡运动。
  • 一个简单的解决方案也被从业者使用多年:截断梯度 clipping the gradient \text{clipping the gradient} clipping the gradient)此想法有不同实例 ( Mikolov, 2012; Pascanu et al., 2013a \text{Mikolov, 2012; Pascanu et al., 2013a} Mikolov, 2012; Pascanu et al., 2013a)。
    • 一种选择是在参数更新之前,逐元素地截断 minibatch \text{minibatch} minibatch产生的参数梯度( Mikolov, 2012 \text{Mikolov, 2012} Mikolov, 2012)。
    • 另一种是在参数更新之前截断梯度 g \boldsymbol{g} g 的范数 ∥ g ∥ \Vert\boldsymbol{g}\Vert g( Pascanu et al., 2013a \text{Pascanu et al., 2013a} Pascanu et al., 2013a):
      { if ∥ g ∥ > v — 公式1 g ← g v ∥ g ∥ — 公式2 \begin{cases}\begin{aligned}\text{if} \Vert\boldsymbol{g}\Vert&>v &\quad\textbf{---\footnotesize{公式1}}\\ \boldsymbol{g}&\gets\frac{\boldsymbol{g}v}{\Vert g\Vert}&\quad\textbf{---\footnotesize{公式2}} \end{aligned}\end{cases} ifgg>vggv公式1公式2
      • 其中 v v v 是范数上界, g \boldsymbol{g} g 用来更新参数。
      • 因为所有参数(包括不同的参数组,如权重和偏置)的梯度被单个缩放因子联合重整化,所以后一方法具有的优点是保证了每个步骤仍然是在梯度方向上的,但实验表明两种形式类似。
    • 虽然参数更新与真实梯度具有相同的方向梯度,经过梯度范数截断,参数更新的向量范数现在变得有界。
    • 这种有界梯度能避免执行梯度爆炸时的有害一步。
    • 事实上,当梯度大小高于阈值时,即使是采取简单的随机步骤往往工作得几乎一样好。
    • 如果爆炸非常严重,梯度数值上为 Inf \text{Inf} Inf Nan \text{Nan} Nan(无穷大或不是一个数字),则可以采取大小为 v v v 的随机一步,通常会离开数值不稳定的状态。
    • 截断每 minibatch \text{minibatch} minibatch梯度范数不会改变单个 minibatch \text{minibatch} minibatch的梯度方向。
    • 然而,许多 minibatch \text{minibatch} minibatch使用范数截断梯度后的平均值不等同于截断真实梯度(使用所有的实例所形成的梯度)的范数。
    • 大导数范数的样本,和像这样的出现在同一 minibatch \text{minibatch} minibatch的样本,其对最终方向的贡献将消失。
    • 不像传统 minibatch \text{minibatch} minibatch梯度下降,其中真实梯度的方向是等于所有 minibatch \text{minibatch} minibatch梯度的平均。
    • 换句话说,传统的随机梯度下降使用梯度的无偏估计,而与使用范数截断的梯度下降引入了经验上是有用的启发式偏置。
    • 通过逐元素截断,更新的方向与真实梯度或 minibatch \text{minibatch} minibatch的梯度不再对齐,但是它仍然是一个下降方向。
    • 还有学者提出 ( Graves, 2013 \text{Graves, 2013} Graves, 2013)(相对于隐藏单元)截断反向传播梯度,但没有发布与这些变种之间的比较; 我们推测,所有这些方法表现类似。

引导信息流的正则化


  • 图例1:梯度截断在有两个参数 w \boldsymbol{w} w b \boldsymbol{b} b 的循环网络中的效果示例。
    • 梯度截断在有两个参数 w \boldsymbol{w} w b \boldsymbol{b} b 的循环网络中的效果示例。
      在这里插入图片描述

    • 说明:

      • 梯度截断可以使梯度下降在极陡峭的悬崖附近更合理地执行。
      • 这些陡峭的悬崖通常发生在循环网络中,位于循环网络近似线性的附近。
      • 悬崖在时间步的数量上呈指数地陡峭,因为对于每个时间步,权重矩阵都自乘一次。
      • 左图:
        • 没有梯度截断的梯度下降超过这个小峡谷的底部,然后从悬崖面接收非常大的梯度。
        • 大梯度灾难性地将参数推到图的轴外。
      • 右图:
        • 使用梯度截断的梯度下降对悬崖的反应更温和。
        • 当它上升到悬崖面时,步长受到限制,使得它不会被推出靠近解的陡峭区域。
        • Pascanu et al. (2013a) \text{Pascanu et al. (2013a)} Pascanu et al. (2013a) 许可改编此图。

总结

  • 为了优化循环和递归网络中的长期依赖问题,研究者们提出了多种解决方案。其中, LSTM \text{LSTM} LSTM通过引入遗忘门、输入门和输出门等机制,有效缓解了梯度消失和爆炸问题,显著提升了模型处理长序列数据的能力。
  • 此外,深度循环网络( DRNN \text{DRNN} DRNN)通过堆叠多个 RNN \text{RNN} RNN层,增强了模型对序列数据的非线性变换能力,进一步提升了捕捉长期依赖关系的能力。尽管这些改进在一定程度上解决了长期依赖问题,但未来的研究仍需不断探索更有效的方法,以进一步提升循环和递归网络在序列建模任务中的性能。随着深度学习技术的不断发展,我们有理由相信,这些网络将在更多领域发挥重要作用,推动人工智能技术的持续进步与发展。

往期内容回顾

深度模型中的优化 - 神经网络优化中的挑战篇
序列建模之循环和递归网络 - 长期依赖的挑战篇
序列建模之循环和递归网络 - 长短期记忆和其他门控RNN篇

这篇关于序列建模之循环和递归网络 - 优化长期依赖篇的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1098729

相关文章

如何通过海康威视设备网络SDK进行Java二次开发摄像头车牌识别详解

《如何通过海康威视设备网络SDK进行Java二次开发摄像头车牌识别详解》:本文主要介绍如何通过海康威视设备网络SDK进行Java二次开发摄像头车牌识别的相关资料,描述了如何使用海康威视设备网络SD... 目录前言开发流程问题和解决方案dll库加载不到的问题老旧版本sdk不兼容的问题关键实现流程总结前言作为

Python中顺序结构和循环结构示例代码

《Python中顺序结构和循环结构示例代码》:本文主要介绍Python中的条件语句和循环语句,条件语句用于根据条件执行不同的代码块,循环语句用于重复执行一段代码,文章还详细说明了range函数的使... 目录一、条件语句(1)条件语句的定义(2)条件语句的语法(a)单分支 if(b)双分支 if-else(

最长公共子序列问题的深度分析与Java实现方式

《最长公共子序列问题的深度分析与Java实现方式》本文详细介绍了最长公共子序列(LCS)问题,包括其概念、暴力解法、动态规划解法,并提供了Java代码实现,暴力解法虽然简单,但在大数据处理中效率较低,... 目录最长公共子序列问题概述问题理解与示例分析暴力解法思路与示例代码动态规划解法DP 表的构建与意义动

关于最长递增子序列问题概述

《关于最长递增子序列问题概述》本文详细介绍了最长递增子序列问题的定义及两种优化解法:贪心+二分查找和动态规划+状态压缩,贪心+二分查找时间复杂度为O(nlogn),通过维护一个有序的“尾巴”数组来高效... 一、最长递增子序列问题概述1. 问题定义给定一个整数序列,例如 nums = [10, 9, 2

Spring AI Alibaba接入大模型时的依赖问题小结

《SpringAIAlibaba接入大模型时的依赖问题小结》文章介绍了如何在pom.xml文件中配置SpringAIAlibaba依赖,并提供了一个示例pom.xml文件,同时,建议将Maven仓... 目录(一)pom.XML文件:(二)application.yml配置文件(一)pom.xml文件:首

Deepseek使用指南与提问优化策略方式

《Deepseek使用指南与提问优化策略方式》本文介绍了DeepSeek语义搜索引擎的核心功能、集成方法及优化提问策略,通过自然语言处理和机器学习提供精准搜索结果,适用于智能客服、知识库检索等领域... 目录序言1. DeepSeek 概述2. DeepSeek 的集成与使用2.1 DeepSeek API

Tomcat高效部署与性能优化方式

《Tomcat高效部署与性能优化方式》本文介绍了如何高效部署Tomcat并进行性能优化,以确保Web应用的稳定运行和高效响应,高效部署包括环境准备、安装Tomcat、配置Tomcat、部署应用和启动T... 目录Tomcat高效部署与性能优化一、引言二、Tomcat高效部署三、Tomcat性能优化总结Tom

使用maven依赖详解

《使用maven依赖详解》本文主要介绍了Maven的基础知识,包括Maven的简介、仓库类型、常用命令、场景举例、指令总结、依赖范围、settings.xml说明等,同时,还详细讲解了Maven依赖的... 目录1. maven基础1.1 简介1.2 仓库类型1.3 常用命令1.4 场景举例1.5 指令总结

解读Redis秒杀优化方案(阻塞队列+基于Stream流的消息队列)

《解读Redis秒杀优化方案(阻塞队列+基于Stream流的消息队列)》该文章介绍了使用Redis的阻塞队列和Stream流的消息队列来优化秒杀系统的方案,通过将秒杀流程拆分为两条流水线,使用Redi... 目录Redis秒杀优化方案(阻塞队列+Stream流的消息队列)什么是消息队列?消费者组的工作方式每

Python判断for循环最后一次的6种方法

《Python判断for循环最后一次的6种方法》在Python中,通常我们不会直接判断for循环是否正在执行最后一次迭代,因为Python的for循环是基于可迭代对象的,它不知道也不关心迭代的内部状态... 目录1.使用enuhttp://www.chinasem.cnmerate()和len()来判断for