ZONEOUT: REGULARIZING RNNS BY RANDOMLY PRESERVING HIDDEN ACTIVATIONS翻译

本文主要是介绍ZONEOUT: REGULARIZING RNNS BY RANDOMLY PRESERVING HIDDEN ACTIVATIONS翻译,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

实验代码github:https://github.com/teganmaharaj/zoneout

摘要

我们提出了zoneout,这是一种用于正则化RNN的新方法。 在每个时刻,zoneout随机地令某些隐藏单元保持其上一时刻的值。像dropout一样,zoneout使用随机噪声来训练伪集合,从而改善泛化。并且,通过保留而不是丢弃隐藏单元,梯度信息和状态信息更容易通过时间传播,如在前馈随机深度网络中那样。我们对各种RNN的正则化器进行了实证研究,发现zoneout可以在各个任务中显着提高性能。我们在Penn Treebank和Text8数据集上的字符和单词级语言建模中,使用相对简单的模型达到了较好的结果,并结合循环批量标准化(Cooijmans等,2016),在排列顺序MNIST上产生了最好的结果。

1.介绍

正则化神经网络可以显着提高性能,正如早期正则化方法(如dropout及其循环的变种)的广泛使用所表明的那样。在本文中,我们用一种叫做zoneout的新方法解决了循环神经网络(RNNs)中的正则化问题。
  RNN通过使用依赖于输入的转换操作将新的输入映射到其隐藏状态,顺序地构造任意长度序列的固定长度表示。然而,在序列的不同时刻重复应用相同的转换操作,会使得动态RNN对隐藏状态中的微小扰动敏感;这种动态转换可以指数地放大这些扰动的成分。Zoneout旨在提高RNN对隐藏状态扰动的鲁棒性,从而正则化这种动态转换过程。
  像dropout一样,zoneout会在训练期间注入噪音。但是,在dropout时,zoneout不是将某些单位的激活设置为0,而是随后将某些单位的激活替换为上一时刻的激活。与dropout一样,我们在测试时使用随机噪声的期望。这导致了一种简单的正则化方法,可以通过时间应用于任何RNN架构,并且在理论上可以扩展到其状态随时间变化的任何模型。
  与dropout相比,zoneout很有吸引力,因为它可以保留通过网络前向和后向的信息流。正如我们在实验中观察到的那样,这有助于消除梯度消失问题。
  我们还使用排列顺序MNIST数据集,使用Penn Treebank和Text8数据集进行语言建模,根据经验评估分类上的zoneout,展示跨任务的竞争或最好的性能。特别地,我们表明zoneout与其他提出的RNN正则化方法更好地发挥作用,包括最近提出的dropout变体。

2.相关工作

2.1 与Dropout的关系

Zoneout可以看作是对修改后的计算图中某些节点的dropout的选择性应用,如图1所示。在zoneout中,不是丢弃(设置为0),而是设置隐藏态单元区域为它们之前的 价值( h t = h t − 1 h_{t} = h_{t-1} ht=ht1)并输出。像dropout一样,Zoneout可以被视为训练伪合奏的一种方式,其使用随机“identity-masking”而不是zero-mask来注入噪声。我们推测identity-masking更适合RNN,因为它使网络更容易保留前一个时刻的信息,并且有助于而不是阻碍梯度信息向后流动,正如我们通过实验证明的那样。
在这里插入图片描述

2.2 RNNs中的Dropout

最初dropout在RNN中的成功应用仅将dropout应用于前馈连接(“向上堆叠”),而不是循环连接(“通过时间向前传递”), 但是最近的一些工作提出了不受这种方式限制的方法。Bayer等人成功地将fast dropout应用于RNN,这是一种对dropout的确定性近似。
  Semeniuta等将recurrent dropout应用于LSTM记忆单元(或GRU状态)的更新,即它们丢弃LSTM/GRU中的输入/更新门。像zoneout一样,他们的方法可以防止在GRU / LSTMS的状态/单元中丢失长期记忆,但是zoneout通过精确保留单元的激活来实现这一点。当zoneout LSTM的隐藏状态(不是记忆单元)时,这种差异是最显著的,因为在recurrent dropout中没有与之相似的操作。尽管饱和输出门或输出非线性会导致recurrent dropout遭受梯度消失,但在这种情况下,zoneout单元仍能有效地传播梯度。此外,虽然recurrent dropout方法在LSTM和GRU中的应用不同,但zoneout通用于任何依次建立其输入的分布式表示的模型,包括vanilla RNN
  为了防止记忆的丢失,Moon等人提出了rnnDrop。这种技术相当于在每个时刻使用相同的dropout mask,作者在实验中表现出改进的语音识别性能。然而,Semeniuta等表明,在rnnDrop测试时采取期望时,过去隐藏状态的影响力随着dropout概率的降低而呈指数下降;这对于涉及长期依赖性的任务来说是有问题的。
  Gal(2015)提出了另一种在每个时刻使用相同mask的技术。在变分推理的推动下,它们会丢弃输入和输出嵌入和LSTM门中的权重矩阵行,而不是丢弃单元的激活。所提出的变分RNN技术在Penn Treebank的单词级语言建模上实现了73.4的单模型最新测试困惑度。

2.3 与STOCHASTIC DEPTH的关系

Zoneout也可以被视为stochastic depth的单位版本,stochastic depth随机丢弃整个前馈残差网络层(ResNets),这相当于同时Zoneout出层的所有单元。在典型的RNN中,每个时刻都有一个新的输入,导致stochastic depth的初始实现问题。在RNN中Zoneout整个层意味着完全忽略相应时刻的输入,而Zoneout出单个单元允许RNN考虑其输入序列的每个元素。我们还发现在循环网络中使用残差连接导致不稳定,可能是由于RNN中的参数共享。与我们的工作同时,Singh等人为ResNets提出zoneout,称之为SkipForward。在他们的实验中,zoneout的表现优于stochastic depth,dropout和他们提出的Swapout技术(该技术随机地丢弃一个或两个恒等或残差连接)。与Singh等人不同,我们对RNN应用zoneout,发现它优于stochastic depth和循环dropout。

2.4 有选择更新隐藏单元

像zoneout一样,clockwork RNNs(Koutnik等,2014)和hierarchical RNNs(Hihi&Bengio,1996)在每个时刻都只更新一些单位的激活,但它们的更新是周期性的,而zoneout是随机的。受clockwork RNNs的启发,我们尝试了针对不同单元使用不同更新速率或计划的zoneout变体,但未发现任何性能优势。 Hierarchical multiscale LSTMs(Chung et al。,2016)使用直接估计器学习不同单元的更新概率,并结合最近提出的层归一化(Ba et al) al。,2016),在各种任务中取得较好结果。正如作者所指出的,他们的方法可以被解释为自适应zoneout的依赖于输入的形式。
  在最近的工作中,Ha等人使用超网络动态缩放主LSTM网络的行权重,当在一个双层网络中进行层归一化时,在字符级Penn Treebank上实现最好的1.21 BPC。这种缩放可以被视为变分LSTM的自适应可微分版本(Gal,2015),并且可以类似地用于创建自适应的,可微分的版本的zoneout。 最近的工作条件是区域出现的概率(衡量预测状态和实际状态之间的差异),并在enwik8上设定了新的技术水平(Rocki等,2016)。

3 ZONEOUT和措施

我们现在详细解释zoneout,并与RNNs中的其他形式的dropout进行比较。我们首先回顾一下循环神经网络(RNNs)。

3.1 循环神经网络

循环神经网络顺序地处理数据 x 1 , x 2 , . . . , x T x_1,x_2,...,x_T x1,x2,...,xT,构造相应的表示序列, h 1 , h 2 , . . . . , h T h_1,h_2,....,h_T h1,h2,....,hT。每个隐藏状态都被训练(隐式)以记住和强调前面输入的所有任务相关方面,并通过转换运算符 τ \tau τ合并新输入,转换运算符 τ \tau τ将上一时刻隐藏状态和当前输入转换为新隐藏状态: h t = τ ( h t − 1 , x t ) h_t = \tau(h_{t-1},x_t) ht=τ(ht1,xt)根据伯努利masks的矢量 d t d_t dt,Zoneout通过将原始转换运算符 τ ~ \tilde{\tau} τ~与恒等运算符(与dropout中使用的空运算符相对)混合来修改这些动态
Z o n e o u t : τ = d t ⊙ τ ~ + ( 1 − d t ) ⊙ 1 d r o p o u t : τ = d t ⊙ τ ~ + ( 1 − d t ) ⊙ 0 Zoneout:\qquad\tau=d_t \odot \tilde{\tau}+(1-d_t)\odot1 \\ dropout:\qquad \tau=d_t \odot \tilde{\tau}+(1-d_t)\odot0 Zoneout:τ=dtτ~+(1dt)1dropout:τ=dtτ~+(1dt)0
其中, 1 1 1 0 0 0为两个向量

3.2 长短期记忆

在长短期记忆RNNs(LSTMs)中,隐藏状态被分为用于内部存储长期记忆的记忆单元 c t c_t ct和用作时刻 t t t状态表示的隐藏状态 h t h_t ht。在最广泛使用的LSTM公式中, c t c_t ct h t h_t ht是通过四个“门”计算的,包括遗忘门 f t f_t ft,它通过按元素元素相乘,直接将 c t c_t ct连接到前一个时刻的记忆单元 c t − 1 c_{t-1} ct1。遗忘门使得记忆单元记住其先前值的大部分(不是全部)。其他门控制单元的( i t , g t i_t,g_t it,gt)和 o u t ( o t ) out(o_t) out(ot)中的信息流。每个门都有一个权重矩阵和偏置向量; 例如,遗忘门具有 W x f W_{xf} Wxf W h f W_{hf} Whf b f b_f bf。为简洁起见,我们将这些写为 W x W_x Wx W h W_h Wh b b b
  一个LSTM被定义如下:
i t , f t , o t = σ ( W x x t + W h h t − 1 + b ) g t = t a n h ( W x g x t + W h g h t − 1 + b g ) c t = f t ⊙ c t − 1 + i t ⊙ g t h t = o t ⊙ t a n h ( c t ) i_t,f_t,o_t = σ(W_xx_t + W_hh_{t−1}+b)\\ g_t = tanh(W_{xg}x_t + W_{hg}h_{t−1}+b_g)\\ c_t = f_t\odot c_{t−1}+i_t\odot g_t \\ h_t = o_t\odot tanh(c_t) it,ft,ot=σ(Wxxt+Whht1+b)gt=tanh(Wxgxt+Whght1+bg)ct=ftct1+itgtht=ottanh(ct)
  LSTM中的dropout的一个简单应用是将零屏蔽(zero-mask)用于记忆单元和隐藏状态中的一个或两个,而不改变门的计算 ( i , f , o , g ) (i,f,o,g) (i,f,o,g)。例如,丢弃记忆单元,改变 c t c_t ct的计算,如下所示:
c t = d t ⊙ ( f t ⊙ c t − 1 + i t ⊙ g t ) c_t=d_t\odot (f_t\odot c_{t−1}+it\odot gt) ct=dt(ftct1+itgt)
  然而,备选方案比比皆是。零屏蔽可以应用于门,单元和状态的任何子集。例如,Semeniuta等人对输入门进行零屏蔽:
c t = ( f t ⊙ c t − 1 + d t ⊙ i t ⊙ g t ) c_t=(f_t\odot c_{t−1}+d_t\odot i_t\odot g_t) ct=(ftct1+dtitgt)
  当像这样屏蔽输入门时,没有来自输入 x t x_t xt或隐藏状态 h t − 1 h_{t-1} ht1附加贡献,并且记忆单元的值根据遗忘门简单地衰减。
在这里插入图片描述
  在zoneout中,隐藏状态和记忆单元的值随机地要么保持其先前的值,要么像往常一样更新。这后续时刻之间引入了随机恒等连接:
c t = d t c ⊙ c t − 1 + ( 1 − d t c ) ⊙ ( f t ⊙ c t − 1 + i t ⊙ g t ) h t = d t h ⊙ h t − 1 + ( 1 − d t h ) ⊙ ( o t ⊙ t a n h ( f t ⊙ c t − 1 + i t ⊙ g t ) ) c_t =d^c_t\odot c_{t−1}+(1−d^c_t)\odot (f_t\odot c_{t−1} + i_t\odot g_t)\\ h_t=d^h_t\odot h_{t−1}+(1−d^h_t)\odot (o_t\odot tanh(f_t\odot c_{t−1}+i_t\odot g_t)) ct=dtcct1+(1dtc)(ftct1+itgt)ht=dthht1+(1dth)(ottanh(ftct1+itgt))
  我们通常对记忆单元和隐藏态使用不同的zoneout屏蔽。我们还尝试了一种循环dropout的变体,它重复使用输入dropout屏蔽来zoneout对应的输出门:
c t = ( f t ⊙ c t − 1 + d t ⊙ i t ⊙ g t ) h t = ( ( 1 − d t ) ⊙ o t + d t ⊙ o t − 1 ) ⊙ t a n h ( c t ) c_t = (f_t\odot c_{t−1}+d_t\odot it\odot g_t)\\ h_t = ((1−d_t)\odot o_t+d_t\odot o_{t−1})\odot tanh(c_t) ct=(ftct1+dtitgt)ht=((1dt)ot+dtot1)tanh(ct)
  此变体的动机是防止网络被(通过输出门)强制暴露未更新的记忆单元,因此可能包含误导性信息。

这篇关于ZONEOUT: REGULARIZING RNNS BY RANDOMLY PRESERVING HIDDEN ACTIVATIONS翻译的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/228467

相关文章

论文翻译:arxiv-2024 Benchmark Data Contamination of Large Language Models: A Survey

Benchmark Data Contamination of Large Language Models: A Survey https://arxiv.org/abs/2406.04244 大规模语言模型的基准数据污染:一项综述 文章目录 大规模语言模型的基准数据污染:一项综述摘要1 引言 摘要 大规模语言模型(LLMs),如GPT-4、Claude-3和Gemini的快

论文翻译:ICLR-2024 PROVING TEST SET CONTAMINATION IN BLACK BOX LANGUAGE MODELS

PROVING TEST SET CONTAMINATION IN BLACK BOX LANGUAGE MODELS https://openreview.net/forum?id=KS8mIvetg2 验证测试集污染在黑盒语言模型中 文章目录 验证测试集污染在黑盒语言模型中摘要1 引言 摘要 大型语言模型是在大量互联网数据上训练的,这引发了人们的担忧和猜测,即它们可能已

excel翻译软件有哪些?如何高效提翻译?

你是否曾在面对满屏的英文Excel表格时感到头疼?项目报告、数据分析、财务报表... 当这些重要的信息被语言壁垒阻挡时,效率和理解度都会大打折扣。别担心,只需3分钟,我将带你轻松解锁excel翻译成中文的秘籍。 无论是职场新人还是老手,这一技巧都将是你的得力助手,让你在信息的海洋中畅游无阻。 方法一:使用同声传译王软件 同声传译王是一款专业的翻译软件,它支持多种语言翻译,可以excel

MonoHuman: Animatable Human Neural Field from Monocular Video 翻译

MonoHuman:来自单目视频的可动画人类神经场 摘要。利用自由视图控制来动画化虚拟化身对于诸如虚拟现实和数字娱乐之类的各种应用来说是至关重要的。已有的研究试图利用神经辐射场(NeRF)的表征能力从单目视频中重建人体。最近的工作提出将变形网络移植到NeRF中,以进一步模拟人类神经场的动力学,从而动画化逼真的人类运动。然而,这种流水线要么依赖于姿态相关的表示,要么由于帧无关的优化而缺乏运动一致性

linux dlopen手册翻译

名称 dlclose, dlopen, dlmopen 打开和关闭一个共享对象 简介 #include <dlfcn.h>void *dlopen(const char*filename, int flags);int dlclose(void *handle);#define _GNU_SOURCE#include <dlfcn.h>void *dlmoopen(Lmid_t lm

从计组中从重温C中浮点数表示及C程序翻译过程

目录 移码​编辑  传统浮点表示格式 浮点数的存储(ieee 754)->修炼内功 例子:   ​编辑 浮点数取的过程   C程序翻译过程 移码  传统浮点表示格式 浮点数的存储(ieee 754)->修炼内功 根据国际标准IEEE(电⽓和电⼦⼯程协会)  32位 例子:    64位    IEEE754对有效数字M和

HumanNeRF:Free-viewpoint Rendering of Moving People from Monocular Video 翻译

HumanNeRF:单目视频中运动人物的自由视点绘制 引言。我们介绍了一种自由视点渲染方法- HumanNeRF -它适用于一个给定的单眼视频ofa人类执行复杂的身体运动,例如,从YouTube的视频。我们的方法可以在任何帧暂停视频,并从任意新的摄像机视点或甚至针对该特定帧和身体姿势的完整360度摄像机路径渲染主体。这项任务特别具有挑战性,因为它需要合成身体的照片级真实感细节,如从输入视频中可能

深度评测热门翻译工具,携手你的翻译得力助手

随着互联网技术的飞速发展,全球化交流日益频繁,跨语言沟通的需求也随之激增。对于外语水平有限的朋友来说,翻译器是一个必不可少的工具。今天我就分享几款我用的翻译器吧。 1.福晰在线翻译  链接直达>>https://fanyi.pdf365.cn/doc  该网站以其高度的专业性著称,专为翻译需求而精心打造。它不仅支持用户粘贴部分文字进行即时翻译,更贴心地提供了整份PDF文档的导入翻译功能,极大

idea中配置Translation插件完成翻译功能

文章目录 idea下载插件配置有道云阿里云百度翻译开放平台 idea下载插件 idea中安装Translation插件 使用方法:右下角选择翻译引擎,鼠标选中想翻译的部分,右键翻译即可 之前一直用的微软的翻译,不需要配置,但是最近微软服务器总是抽风,无法使用,故打算配置一下国内的翻译服务。 配置 有道云 只有初始的一点额度,用完就要收费了,不推荐

Nodejs Serialport文档翻译

想象一个世界,你可以在那写javascript来控制搅拌机,灯,安全系统或者甚至是机器人。是的,我说的是机器人。那个世界就是这儿,现在使用node serialport。它提供一个非常简单的接口所需要的串口程序代码Arduino 单片机, X10 无线通信模块, 或者甚至是上升到 Z-Wave 和Zigbee . 在这个物理世界,你可以随心所欲(The physical world is yo