深度学习-神经网络：AWD-LSTM

本文主要是介绍深度学习-神经网络：AWD-LSTM，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

语言模型可以说是NLP中最基本的任务，无论是词向量，预训练模型，文本生成等任务中都带有语言模型的影子。

语言模型本质上是对一个自然世界中存在的句子建模，描述一个句子发生的概率，因此语言模型也是一个自回归的任务。

语言模型是一个上下文强依赖的任务，不仅需要捕获长距离的信息，还需要学到词之间的位置关系，从目前的技术来看，RNN系的模型在语言模型任务上的表现要优于transformer，主要原因还是因为Transformer在学习词位置关系时的能力弱于RNN，毕竟RNN是严格的从前到后循环依赖的。

一、AWD-LSTM简介

RNN在语言模型任务中的表现是非常优秀的，而且RNN的结构和语言模型的任务特性也很好的切合。

但RNN的循环连接容易过拟合。

本片论文就是围绕这一点展开的研究，提出了很多中解决RNN过拟合的技术，这一类技术不仅可以用在语言模型中，也可以用在其他RNN建模的任务中。

LSTM作为RNN系列中最优秀的代表变体，论文就是在不改变LSTM的原有结构上，引入各种正则化技术，提升模型的泛化能力，改善语言模型的性能。

二、正则化方法优化LSTM

1、weighte-dropped LSTM

2、Variable length backpropagation sequences

3、Variational dropout

4、Embedding dropout

5、Weight tying

6、Independent embedding size and hidden size

7、Activation Regularization (AR) and Temporal Activation Regularization (TAR)

三、NT-ASGD

研究发现，对于特定的语言建模任务，SGD的效果要优于带动量的，或者自适应学习速率的优化算法，如动量法，Adagrad，RMSProp，Adam等优化算法。作者在这里没有直接使用SGD，而是调研了ASGD（averaged SGD），发现ASGD的有着更好的效果。ASGD中有这么一项，即对过去的权重求均值，ASGD中用过去的参数的均值替换上一步的参数：

参考资料：
语言模型系列（一）——AWD-LSTM
AWD-LSTM为什么这么棒？
语言建模的王者：AWD-LSTM指南

这篇关于深度学习-神经网络：AWD-LSTM的文章就介绍到这儿，希望我们推荐的文章对编程师们有所帮助！