序列建模之循环和递归网络 - 优化长期依赖篇

2024-08-23 07:28

本文主要是介绍序列建模之循环和递归网络 - 优化长期依赖篇,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

序言

在序列建模领域,循环神经网络( RNN \text{RNN} RNN)及其变体,如长短期记忆网络( LSTM \text{LSTM} LSTM)和递归神经网络( Recursive Neural Network \text{Recursive Neural Network} Recursive Neural Network),凭借其捕捉序列数据时间依赖性的能力,成为处理复杂序列数据的关键工具。然而,尽管这些网络在处理短期依赖方面表现出色,但在处理长期依赖时却面临严峻挑战。长期依赖问题主要源于梯度在反向传播过程中的消失或爆炸现象,这限制了 RNN \text{RNN} RNN在处理需要长期记忆的任务(如自然语言处理中的长文本理解)时的性能。

优化长期依赖

  • 神经网络优化中的挑战篇 - 长期依赖长期依赖的挑战篇已经描述过在许多时间步上优化RNN时发生的梯度消失和爆炸的问题。
  • Martens and Sutskever (2011) \text{Martens and Sutskever (2011)} Martens and Sutskever (2011) 提出了一个有趣的想法是,二阶导数可能在一阶导数消失的同时消失。
    • 二阶优化算法可以大致被理解为将一阶导数除以二阶导数(在更高维数,由梯度乘以 Hessian \text{Hessian} Hessian的逆)。
    • 如果二阶导数与一阶导数以类似的速率收缩,那么一阶和二阶导数的比率可保持相对恒定。
    • 不幸的是,二阶方法有许多缺点,包括高的计算成本、需要一个大的 minibatch \text{minibatch} minibatch、并且倾向于被吸引到鞍点。
    • Martens and Sutskever (2011) \text{Martens and Sutskever (2011)} Martens and Sutskever (2011) 发现采用二阶方法的不错结果。
    • 之后, Sutskever et al. (2013) \text{Sutskever et al. (2013)} Sutskever et al. (2013)发现使用较简单的方法可以达到类似的结果,例如细心初始化的 Nesterov \text{Nesterov} Nesterov动量法。
    • 更详细的内容参考 Sutskever (2012) \text{Sutskever (2012)} Sutskever (2012)
    • 应用于 LSTM \text{LSTM} LSTM时,这两种方法在很大程度上会被单纯的 SGD \text{SGD} SGD(甚至没有动量)取代。
    • 这是机器学习中一个延续的主题,设计一个易于优化模型通常比设计出更加强大的优化算法更容易。

截断梯度

  • 如在神经网络优化中的挑战篇 - 悬崖和梯度爆炸中讨论,强非线性函数(如由许多时间步计算的循环网络)往往倾向于非常大或非常小幅度的梯度。如神经网络优化中的挑战篇中 - 图例3图例1所示,我们可以看到,目标函数(作为参数的函数)存在一个伴随 ‘‘悬崖’’ 的 ‘‘地形’’:宽且相当平坦区域被目标函数变化快的小区域隔开,形成了一种悬崖。
  • 这导致的困难是,当参数梯度非常大时,梯度下降的参数更新可以将参数抛出很远,进入目标函数较大的区域,到达当前解所作的努力变成了无用功。
    • 梯度告诉我们,围绕当前参数的无穷小区域内最速下降的方向。
    • 这个无穷小区域之外,代价函数可能开始沿曲线背面而上。
    • 更新必须被选择为足够小,以避免过分穿越向上的曲面。
    • 我们通常使用衰减速度足够慢的学习率,使连续的步骤具有大致相同的学习率。
    • 适合于一个相对线性的地形部分的步长经常在下一步进入地形中更加弯曲的部分时变得不适合,会导致上坡运动。
  • 一个简单的解决方案也被从业者使用多年:截断梯度 clipping the gradient \text{clipping the gradient} clipping the gradient)此想法有不同实例 ( Mikolov, 2012; Pascanu et al., 2013a \text{Mikolov, 2012; Pascanu et al., 2013a} Mikolov, 2012; Pascanu et al., 2013a)。
    • 一种选择是在参数更新之前,逐元素地截断 minibatch \text{minibatch} minibatch产生的参数梯度( Mikolov, 2012 \text{Mikolov, 2012} Mikolov, 2012)。
    • 另一种是在参数更新之前截断梯度 g \boldsymbol{g} g 的范数 ∥ g ∥ \Vert\boldsymbol{g}\Vert g( Pascanu et al., 2013a \text{Pascanu et al., 2013a} Pascanu et al., 2013a):
      { if ∥ g ∥ > v — 公式1 g ← g v ∥ g ∥ — 公式2 \begin{cases}\begin{aligned}\text{if} \Vert\boldsymbol{g}\Vert&>v &\quad\textbf{---\footnotesize{公式1}}\\ \boldsymbol{g}&\gets\frac{\boldsymbol{g}v}{\Vert g\Vert}&\quad\textbf{---\footnotesize{公式2}} \end{aligned}\end{cases} ifgg>vggv公式1公式2
      • 其中 v v v 是范数上界, g \boldsymbol{g} g 用来更新参数。
      • 因为所有参数(包括不同的参数组,如权重和偏置)的梯度被单个缩放因子联合重整化,所以后一方法具有的优点是保证了每个步骤仍然是在梯度方向上的,但实验表明两种形式类似。
    • 虽然参数更新与真实梯度具有相同的方向梯度,经过梯度范数截断,参数更新的向量范数现在变得有界。
    • 这种有界梯度能避免执行梯度爆炸时的有害一步。
    • 事实上,当梯度大小高于阈值时,即使是采取简单的随机步骤往往工作得几乎一样好。
    • 如果爆炸非常严重,梯度数值上为 Inf \text{Inf} Inf Nan \text{Nan} Nan(无穷大或不是一个数字),则可以采取大小为 v v v 的随机一步,通常会离开数值不稳定的状态。
    • 截断每 minibatch \text{minibatch} minibatch梯度范数不会改变单个 minibatch \text{minibatch} minibatch的梯度方向。
    • 然而,许多 minibatch \text{minibatch} minibatch使用范数截断梯度后的平均值不等同于截断真实梯度(使用所有的实例所形成的梯度)的范数。
    • 大导数范数的样本,和像这样的出现在同一 minibatch \text{minibatch} minibatch的样本,其对最终方向的贡献将消失。
    • 不像传统 minibatch \text{minibatch} minibatch梯度下降,其中真实梯度的方向是等于所有 minibatch \text{minibatch} minibatch梯度的平均。
    • 换句话说,传统的随机梯度下降使用梯度的无偏估计,而与使用范数截断的梯度下降引入了经验上是有用的启发式偏置。
    • 通过逐元素截断,更新的方向与真实梯度或 minibatch \text{minibatch} minibatch的梯度不再对齐,但是它仍然是一个下降方向。
    • 还有学者提出 ( Graves, 2013 \text{Graves, 2013} Graves, 2013)(相对于隐藏单元)截断反向传播梯度,但没有发布与这些变种之间的比较; 我们推测,所有这些方法表现类似。

引导信息流的正则化


  • 图例1:梯度截断在有两个参数 w \boldsymbol{w} w b \boldsymbol{b} b 的循环网络中的效果示例。
    • 梯度截断在有两个参数 w \boldsymbol{w} w b \boldsymbol{b} b 的循环网络中的效果示例。
      在这里插入图片描述

    • 说明:

      • 梯度截断可以使梯度下降在极陡峭的悬崖附近更合理地执行。
      • 这些陡峭的悬崖通常发生在循环网络中,位于循环网络近似线性的附近。
      • 悬崖在时间步的数量上呈指数地陡峭,因为对于每个时间步,权重矩阵都自乘一次。
      • 左图:
        • 没有梯度截断的梯度下降超过这个小峡谷的底部,然后从悬崖面接收非常大的梯度。
        • 大梯度灾难性地将参数推到图的轴外。
      • 右图:
        • 使用梯度截断的梯度下降对悬崖的反应更温和。
        • 当它上升到悬崖面时,步长受到限制,使得它不会被推出靠近解的陡峭区域。
        • Pascanu et al. (2013a) \text{Pascanu et al. (2013a)} Pascanu et al. (2013a) 许可改编此图。

总结

  • 为了优化循环和递归网络中的长期依赖问题,研究者们提出了多种解决方案。其中, LSTM \text{LSTM} LSTM通过引入遗忘门、输入门和输出门等机制,有效缓解了梯度消失和爆炸问题,显著提升了模型处理长序列数据的能力。
  • 此外,深度循环网络( DRNN \text{DRNN} DRNN)通过堆叠多个 RNN \text{RNN} RNN层,增强了模型对序列数据的非线性变换能力,进一步提升了捕捉长期依赖关系的能力。尽管这些改进在一定程度上解决了长期依赖问题,但未来的研究仍需不断探索更有效的方法,以进一步提升循环和递归网络在序列建模任务中的性能。随着深度学习技术的不断发展,我们有理由相信,这些网络将在更多领域发挥重要作用,推动人工智能技术的持续进步与发展。

往期内容回顾

深度模型中的优化 - 神经网络优化中的挑战篇
序列建模之循环和递归网络 - 长期依赖的挑战篇
序列建模之循环和递归网络 - 长短期记忆和其他门控RNN篇

这篇关于序列建模之循环和递归网络 - 优化长期依赖篇的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1098729

相关文章

Docker多阶段镜像构建与缓存利用性能优化实践指南

《Docker多阶段镜像构建与缓存利用性能优化实践指南》这篇文章将从原理层面深入解析Docker多阶段构建与缓存机制,结合实际项目示例,说明如何有效利用构建缓存,组织镜像层次,最大化提升构建速度并减少... 目录一、技术背景与应用场景二、核心原理深入分析三、关键 dockerfile 解读3.1 Docke

Python的Darts库实现时间序列预测

《Python的Darts库实现时间序列预测》Darts一个集统计、机器学习与深度学习模型于一体的Python时间序列预测库,本文主要介绍了Python的Darts库实现时间序列预测,感兴趣的可以了解... 目录目录一、什么是 Darts?二、安装与基本配置安装 Darts导入基础模块三、时间序列数据结构与

javacv依赖太大导致jar包也大的解决办法

《javacv依赖太大导致jar包也大的解决办法》随着项目的复杂度和依赖关系的增加,打包后的JAR包可能会变得很大,:本文主要介绍javacv依赖太大导致jar包也大的解决办法,文中通过代码介绍的... 目录前言1.检查依赖2.更改依赖3.检查副依赖总结 前言最近在写项目时,用到了Javacv里的获取视频

深度解析Python中递归下降解析器的原理与实现

《深度解析Python中递归下降解析器的原理与实现》在编译器设计、配置文件处理和数据转换领域,递归下降解析器是最常用且最直观的解析技术,本文将详细介绍递归下降解析器的原理与实现,感兴趣的小伙伴可以跟随... 目录引言:解析器的核心价值一、递归下降解析器基础1.1 核心概念解析1.2 基本架构二、简单算术表达

Debian 13升级后网络转发等功能异常怎么办? 并非错误而是管理机制变更

《Debian13升级后网络转发等功能异常怎么办?并非错误而是管理机制变更》很多朋友反馈,更新到Debian13后网络转发等功能异常,这并非BUG而是Debian13Trixie调整... 日前 Debian 13 Trixie 发布后已经有众多网友升级到新版本,只不过升级后发现某些功能存在异常,例如网络转

Spring 依赖注入与循环依赖总结

《Spring依赖注入与循环依赖总结》这篇文章给大家介绍Spring依赖注入与循环依赖总结篇,本文通过实例代码给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的朋友参考下吧... 目录1. Spring 三级缓存解决循环依赖1. 创建UserService原始对象2. 将原始对象包装成工

从原理到实战解析Java Stream 的并行流性能优化

《从原理到实战解析JavaStream的并行流性能优化》本文给大家介绍JavaStream的并行流性能优化:从原理到实战的全攻略,本文通过实例代码给大家介绍的非常详细,对大家的学习或工作具有一定的... 目录一、并行流的核心原理与适用场景二、性能优化的核心策略1. 合理设置并行度:打破默认阈值2. 避免装箱

C# LiteDB处理时间序列数据的高性能解决方案

《C#LiteDB处理时间序列数据的高性能解决方案》LiteDB作为.NET生态下的轻量级嵌入式NoSQL数据库,一直是时间序列处理的优选方案,本文将为大家大家简单介绍一下LiteDB处理时间序列数... 目录为什么选择LiteDB处理时间序列数据第一章:LiteDB时间序列数据模型设计1.1 核心设计原则

Python实战之SEO优化自动化工具开发指南

《Python实战之SEO优化自动化工具开发指南》在数字化营销时代,搜索引擎优化(SEO)已成为网站获取流量的重要手段,本文将带您使用Python开发一套完整的SEO自动化工具,需要的可以了解下... 目录前言项目概述技术栈选择核心模块实现1. 关键词研究模块2. 网站技术seo检测模块3. 内容优化分析模

Java实现复杂查询优化的7个技巧小结

《Java实现复杂查询优化的7个技巧小结》在Java项目中,复杂查询是开发者面临的“硬骨头”,本文将通过7个实战技巧,结合代码示例和性能对比,手把手教你如何让复杂查询变得优雅,大家可以根据需求进行选择... 目录一、复杂查询的痛点:为何你的代码“又臭又长”1.1冗余变量与中间状态1.2重复查询与性能陷阱1.