本文主要是介绍序列建模之循环和递归网络 - 优化长期依赖篇,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
序言
在序列建模领域,循环神经网络( RNN \text{RNN} RNN)及其变体,如长短期记忆网络( LSTM \text{LSTM} LSTM)和递归神经网络( Recursive Neural Network \text{Recursive Neural Network} Recursive Neural Network),凭借其捕捉序列数据时间依赖性的能力,成为处理复杂序列数据的关键工具。然而,尽管这些网络在处理短期依赖方面表现出色,但在处理长期依赖时却面临严峻挑战。长期依赖问题主要源于梯度在反向传播过程中的消失或爆炸现象,这限制了 RNN \text{RNN} RNN在处理需要长期记忆的任务(如自然语言处理中的长文本理解)时的性能。
优化长期依赖
神经网络优化中的挑战篇 - 长期依赖
和长期依赖的挑战篇
已经描述过在许多时间步上优化RNN时发生的梯度消失和爆炸的问题。- 由 Martens and Sutskever (2011) \text{Martens and Sutskever (2011)} Martens and Sutskever (2011) 提出了一个有趣的想法是,二阶导数可能在一阶导数消失的同时消失。
- 二阶优化算法可以大致被理解为将一阶导数除以二阶导数(在更高维数,由梯度乘以 Hessian \text{Hessian} Hessian的逆)。
- 如果二阶导数与一阶导数以类似的速率收缩,那么一阶和二阶导数的比率可保持相对恒定。
- 不幸的是,二阶方法有许多缺点,包括高的计算成本、需要一个大的 minibatch \text{minibatch} minibatch、并且倾向于被吸引到鞍点。
- Martens and Sutskever (2011) \text{Martens and Sutskever (2011)} Martens and Sutskever (2011) 发现采用二阶方法的不错结果。
- 之后, Sutskever et al. (2013) \text{Sutskever et al. (2013)} Sutskever et al. (2013)发现使用较简单的方法可以达到类似的结果,例如细心初始化的 Nesterov \text{Nesterov} Nesterov动量法。
- 更详细的内容参考 Sutskever (2012) \text{Sutskever (2012)} Sutskever (2012)。
- 应用于 LSTM \text{LSTM} LSTM时,这两种方法在很大程度上会被单纯的 SGD \text{SGD} SGD(甚至没有动量)取代。
- 这是机器学习中一个延续的主题,设计一个易于优化模型通常比设计出更加强大的优化算法更容易。
截断梯度
- 如在
神经网络优化中的挑战篇 - 悬崖和梯度爆炸
中讨论,强非线性函数(如由许多时间步计算的循环网络)往往倾向于非常大或非常小幅度的梯度。如神经网络优化中的挑战篇中 - 图例3
和图例1
所示,我们可以看到,目标函数(作为参数的函数)存在一个伴随 ‘‘悬崖’’ 的 ‘‘地形’’:宽且相当平坦区域被目标函数变化快的小区域隔开,形成了一种悬崖。 - 这导致的困难是,当参数梯度非常大时,梯度下降的参数更新可以将参数抛出很远,进入目标函数较大的区域,到达当前解所作的努力变成了无用功。
- 梯度告诉我们,围绕当前参数的无穷小区域内最速下降的方向。
- 这个无穷小区域之外,代价函数可能开始沿曲线背面而上。
- 更新必须被选择为足够小,以避免过分穿越向上的曲面。
- 我们通常使用衰减速度足够慢的学习率,使连续的步骤具有大致相同的学习率。
- 适合于一个相对线性的地形部分的步长经常在下一步进入地形中更加弯曲的部分时变得不适合,会导致上坡运动。
- 一个简单的解决方案也被从业者使用多年:截断梯度( clipping the gradient \text{clipping the gradient} clipping the gradient)此想法有不同实例 ( Mikolov, 2012; Pascanu et al., 2013a \text{Mikolov, 2012; Pascanu et al., 2013a} Mikolov, 2012; Pascanu et al., 2013a)。
- 一种选择是在参数更新之前,逐元素地截断 minibatch \text{minibatch} minibatch产生的参数梯度( Mikolov, 2012 \text{Mikolov, 2012} Mikolov, 2012)。
- 另一种是在参数更新之前截断梯度 g \boldsymbol{g} g 的范数 ∥ g ∥ \Vert\boldsymbol{g}\Vert ∥g∥( Pascanu et al., 2013a \text{Pascanu et al., 2013a} Pascanu et al., 2013a):
{ if ∥ g ∥ > v — 公式1 g ← g v ∥ g ∥ — 公式2 \begin{cases}\begin{aligned}\text{if} \Vert\boldsymbol{g}\Vert&>v &\quad\textbf{---\footnotesize{公式1}}\\ \boldsymbol{g}&\gets\frac{\boldsymbol{g}v}{\Vert g\Vert}&\quad\textbf{---\footnotesize{公式2}} \end{aligned}\end{cases} ⎩ ⎨ ⎧if∥g∥g>v←∥g∥gv—公式1—公式2- 其中 v v v 是范数上界, g \boldsymbol{g} g 用来更新参数。
- 因为所有参数(包括不同的参数组,如权重和偏置)的梯度被单个缩放因子联合重整化,所以后一方法具有的优点是保证了每个步骤仍然是在梯度方向上的,但实验表明两种形式类似。
- 虽然参数更新与真实梯度具有相同的方向梯度,经过梯度范数截断,参数更新的向量范数现在变得有界。
- 这种有界梯度能避免执行梯度爆炸时的有害一步。
- 事实上,当梯度大小高于阈值时,即使是采取简单的随机步骤往往工作得几乎一样好。
- 如果爆炸非常严重,梯度数值上为 Inf \text{Inf} Inf 或 Nan \text{Nan} Nan(无穷大或不是一个数字),则可以采取大小为 v v v 的随机一步,通常会离开数值不稳定的状态。
- 截断每 minibatch \text{minibatch} minibatch梯度范数不会改变单个 minibatch \text{minibatch} minibatch的梯度方向。
- 然而,许多 minibatch \text{minibatch} minibatch使用范数截断梯度后的平均值不等同于截断真实梯度(使用所有的实例所形成的梯度)的范数。
- 大导数范数的样本,和像这样的出现在同一 minibatch \text{minibatch} minibatch的样本,其对最终方向的贡献将消失。
- 不像传统 minibatch \text{minibatch} minibatch梯度下降,其中真实梯度的方向是等于所有 minibatch \text{minibatch} minibatch梯度的平均。
- 换句话说,传统的随机梯度下降使用梯度的无偏估计,而与使用范数截断的梯度下降引入了经验上是有用的启发式偏置。
- 通过逐元素截断,更新的方向与真实梯度或 minibatch \text{minibatch} minibatch的梯度不再对齐,但是它仍然是一个下降方向。
- 还有学者提出 ( Graves, 2013 \text{Graves, 2013} Graves, 2013)(相对于隐藏单元)截断反向传播梯度,但没有发布与这些变种之间的比较; 我们推测,所有这些方法表现类似。
引导信息流的正则化
- 梯度截断有助于处理爆炸的梯度,但它无助于消失的梯度。
- 为了解决消失的梯度和更好地捕获长期依赖,我们讨论了在展开循环架构的计算图,沿着与弧度相关联的梯度乘积接近 1 1 1 的部分创建路径的想法。
- 在
长短期记忆和其他门控RNN篇
中已经讨论过,实现这一点的一种方法是使用 LSTM \text{LSTM} LSTM以及其他自循环和门控机制。 - 另一个想法是正则化或约束参数,以引导 ‘‘信息流’’。
- 特别是即使损失函数只对序列末尾的输出作惩罚,我们也希望梯度向量 ∇ h ( t ) L \nabla_{\boldsymbol{h}^{(t)}}L ∇h(t)L 在反向传播时能维持其幅度。
- 形式上,我们要使
( ∇ h ( t ) L ) ∂ h ( t ) ∂ h ( t − 1 ) (\nabla_{\boldsymbol{h}^{(t)}}L)\displaystyle\frac{\partial \boldsymbol{h}^{(t)}}{\partial \boldsymbol{h}^{(t-1)}} (∇h(t)L)∂h(t−1)∂h(t) — 公式3 \quad\textbf{---\footnotesize{公式3}} —公式3
与
∇ h ( t ) L \nabla_{\boldsymbol{h}^{(t)}}L ∇h(t)L — 公式4 \quad\textbf{---\footnotesize{公式4}} —公式4
一样大。在这个目标下, Pascanu et al. (2013a) \text{Pascanu et al. (2013a)} Pascanu et al. (2013a) 提出以下正则项:
Ω = ∑ ( ∥ ( ∇ h ( t ) L ) ∂ h ( t ) ∂ h ( t − 1 ) ∥ ∥ ∇ h ( t ) L ∥ − 1 ) 2 \Omega=\sum\left(\displaystyle\frac{\left\Vert(\nabla_{\boldsymbol{h}^{(t)}}L)\frac{\partial \boldsymbol{h}^{(t)}}{\partial \boldsymbol{h}^{(t-1)}}\right\Vert}{\left\Vert\nabla_{\boldsymbol{h}^{(t)}}L\right\Vert}-1\right)^2 Ω=∑ ∥∇h(t)L∥ (∇h(t)L)∂h(t−1)∂h(t) −1 2 — 公式5 \quad\textbf{---\footnotesize{公式5}} —公式5
- 计算这一梯度的正则项可能会出现困难,但 Pascanu et al. (2013a) \text{Pascanu et al. (2013a)} Pascanu et al. (2013a) 提出可以将后向传播向量 ( ∇ h ( t ) L ) (\nabla_{\boldsymbol{h}^{(t)}}L) (∇h(t)L) 考虑为近乎恒定的近似(为了计算正则化的目的,没有必要通过它们向后传播)。
- 使用该正则项的实验表明,如果与标准的启发式截断(处理梯度爆炸)相结合,该正则项可以显著地增加 RNN \text{RNN} RNN可以学习的依赖跨度。
- 梯度截断特别重要,因为它保持了爆炸梯度边缘的 RNN \text{RNN} RNN动态。
- 如果没有梯度截断,梯度爆炸将阻碍成功学习。
- 这种方法的一个主要弱点是,在处理数据冗余的任务时如语言模型,它并不像 LSTM \text{LSTM} LSTM一样有效的。
- 图例1:梯度截断在有两个参数 w \boldsymbol{w} w 和 b \boldsymbol{b} b 的循环网络中的效果示例。
-
梯度截断在有两个参数 w \boldsymbol{w} w 和 b \boldsymbol{b} b 的循环网络中的效果示例。
-
说明:
- 梯度截断可以使梯度下降在极陡峭的悬崖附近更合理地执行。
- 这些陡峭的悬崖通常发生在循环网络中,位于循环网络近似线性的附近。
- 悬崖在时间步的数量上呈指数地陡峭,因为对于每个时间步,权重矩阵都自乘一次。
- 左图:
- 没有梯度截断的梯度下降超过这个小峡谷的底部,然后从悬崖面接收非常大的梯度。
- 大梯度灾难性地将参数推到图的轴外。
- 右图:
- 使用梯度截断的梯度下降对悬崖的反应更温和。
- 当它上升到悬崖面时,步长受到限制,使得它不会被推出靠近解的陡峭区域。
- 经 Pascanu et al. (2013a) \text{Pascanu et al. (2013a)} Pascanu et al. (2013a) 许可改编此图。
-
总结
- 为了优化循环和递归网络中的长期依赖问题,研究者们提出了多种解决方案。其中, LSTM \text{LSTM} LSTM通过引入遗忘门、输入门和输出门等机制,有效缓解了梯度消失和爆炸问题,显著提升了模型处理长序列数据的能力。
- 此外,深度循环网络( DRNN \text{DRNN} DRNN)通过堆叠多个 RNN \text{RNN} RNN层,增强了模型对序列数据的非线性变换能力,进一步提升了捕捉长期依赖关系的能力。尽管这些改进在一定程度上解决了长期依赖问题,但未来的研究仍需不断探索更有效的方法,以进一步提升循环和递归网络在序列建模任务中的性能。随着深度学习技术的不断发展,我们有理由相信,这些网络将在更多领域发挥重要作用,推动人工智能技术的持续进步与发展。
往期内容回顾
深度模型中的优化 - 神经网络优化中的挑战篇
序列建模之循环和递归网络 - 长期依赖的挑战篇
序列建模之循环和递归网络 - 长短期记忆和其他门控RNN篇
这篇关于序列建模之循环和递归网络 - 优化长期依赖篇的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!