2021-08-24面向自然语言处理的预训练技术研究综述 -知网论文

本文主要是介绍2021-08-24面向自然语言处理的预训练技术研究综述 -知网论文，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

摘要

近年来，随着深度学习的快速发展，面向自然语言处理领域的预训练技术获得了长足的进步。早期的自然语言处理领域长期使用Ｗｏｒｄ２Ｖｅｃ等词向量方法对文本进行编码，这些词向量方法也可看作静态的预训练技术。然而，这种上下文无关的文本表示给其后的自然语言处理任务带来的提升非常有限，并且无法解决一词多义问题（+OOV）。ＥＬＭｏ提出了一种上下文相关的文本表示方法，可有效处理多义词问题。其后，ＧＰＴ和ＢＥＲＴ等预训练语言模型相继被提出，其中ＢＥＲＴ模型在多个典型下游任务上有了显著的效果提升，极大地推动了自然语言处理领域的技术发展，自此便进入了动态预训练技术的时代。此后，基于ＢＥＲＴ的改进模型、ＸＬＮｅｔ等大量预训练语言模型不断涌现，预训练技术已成为自然语言处理领域不可或缺的主流技术。文中首先概述预训练技术及其发展历史，并详细介绍自然语言处理领域的经典预训练技术，包括早期的静态预训练技术和经典的动态预训练技术；然后简要梳理一系列新式的有启发意义的预训练技术，包括基于ＢＥＲＴ的改进模型和ＸＬＮｅｔ；在此基础上，分析目前预训练技术研究所面临的问题；最后对预训练技术的未来发展趋势进行展望。

在自然语言处理领域的背景下，预训练技术通过使用大规模无标注的文本语料来训练深层网络结构，从而得到一组模型参数，这种深层网络结构通常被称为“预训练模型”；将预训练好的模型参数应用到后续的其他特定任务上，这些特定任务通常被称为“下游任务”。通常来说，大多数基于深度学习的自然语言处理任务可以分为以下３个模块：数据处理、文本表征和特定任务模型。其中，数据处理模块和特定任务模型模块需要根据具体任务的不同做相应设计，而文本表征模块则可以作为一个相对通用的模块来使用。类似于计算机视觉领域中基于Ｉｍａｇｅ－Ｎｅｔ［１］预训练模型的做法，自然语言处理领域也可以预训练一个通用的文本表征模块，这种通用的文本表征模块对于文本的迁移学习具有重要意义。以Ｗｏｒｄ２Ｖｅｃ［２－３］为代表的词向量技术是自然语言处理领域一直以来最常用的文本表征方法，但这种方法仅学习了文本的浅层表征，并且这种浅层表征是上下文无关的文本表示，对于后续任务的效果提升非常有限［４－６］。直到ＥＬＭｏ［７］提出了一种上下文相关的文本表示方法，并在多个典型下游任务上表现惊艳，才使得预训练一个通用的文本表征模块成为可能。随后，ＧＰＴ［８］和ＢＥＲＴ［９］等预训练语言模型相继被提出，自此便进入了动态预训练技术的时代。其中，ＢＥＲＴ在击败１１个典型下游任务的Ｓｔａｔｅ－ｏｆ－ｔｈｅ－ａｒｔ结果之后，成为了自然语言处理领域预训练技术的重要里程碑，极大地推动了自然语言处理领域的发展。此后，基于ＢＥＲＴ的改进模型、ＸＬ－Ｎｅｔ［１０］等大量预训练语言模型涌出，预训练技术逐渐发展成了自然语言处理领域不可或缺的主流技术。预训练技术取得的巨大成功，很大程度上归功于其实现了迁移学习［１１］的概念。迁移学习本质上是在一个数据集上训练基础模型，通过微调等方式，使得模型可以在其他不同的数据集上处理不同的任务。预训练的过程如上文所述，是将预训练好的模型的相应结构和权重直接应用到下游任务上，从而实现“迁移学习”［１２－１５］的概念，即将预训练模型“迁移”到下游任务。本文主要概述面向自然语言处理领域的预训练技术。按照时间顺序，预训练技术大致可分为３个阶段：早期的静态预训练技术、经典的动态预训练技术和最新发布的新式预训练技术。第２节简要概述预训练技术的整个发展历史；第３节详细介绍自然语言处理领域早期的静态预训练技术和经典的动态预训练技术；第４节主要梳理近期发布的有启发意义的新式预训练技术；第５节分析目前预训练技术研究所面临的问题；第６节对自然语言处理领域的预训练技术的未来发展趋势进行展望。

预训练语言模型的核心在于关键范式的转变：从只初始化模型的第一层，转向了预训练一个多层网络结构。传统的词向量方法只使用预训练好的静态文本表示，初始化下游任务模型的第一层，而下游任务模型的其余网络结构仍然需要从头开始训练。这是一种以效率优先而牺牲表达力的浅层方法，无法捕捉到那些也许更有用的深层信息［３４－３６］；更重要的是，其本质上是一种静态的方式，无法消除词语歧义。而预训练语言模型是预训练一个多层网络结构，用以初始化下游任务模型的多层网络结构，可以同时学到浅层信息和深层信息。此外，预训练语言模型是一种动态的文本表示方法，会根据当前上下文对文本表征进行动态调整，经过调整后的文本表征更能表达词语在该上下文中的具体含义，能有效处理一词多义的问题。

３．１静态预训练技术

２００３年Ｂｅｎｇｉｏ提出的ＮＮＬＭ是早期使用神经网络实现语言模型的经典模型。２０１３年，Ｗｏｒｄ２Ｖｅｃ借鉴ＮＮＬＭ的思想，提出用语言模型得到词向量。随后，ＧｌｏＶｅ和ＦａｓｔＴｅｘｔ相继被提出，这种静态的预训练技术逐渐成为了最常用的文本表征技术。３．１．１ＮＮＬＭ模型ＮＮＬＭ使用神经网络来搭建语言模型，并且优化后的模型的副产品就是词向量。语言模型能够量化一个句子近似人类自然表达的概率，如果文本序列Ｓ用（ｗ０，ｗ１，…，ｗｔ－１）来表示，那么语言模型即计算：Ｐ（Ｓ）＝Ｐ（ｗ０）Ｐ（ｗ１｜ｗ０）…Ｐ（ｗｔ－１｜ｗ０，ｗ１，…，ｗｔ－２）（１）但式（１）的计算过于复杂。早期基于统计的语言模型一般会引入马尔可夫假设：假定一个句子中的词只与它前面的ｎ个词相关，并且用词频来估计语言模型中的条件概率，这使得语言模型的计算变得可行。然而，这种基于统计的语言模型无法把ｎ取得很大，否则会带来参数过多的问题，因而无法建模语言中上下文较长的依赖关系，具有很大的局限性。２００３年，Ｂｅｎｇｉｏ将深度学习的思想融入语言模型中，并发现将训练得到的ＮＮＬＭ模型的第一层参数当作词语的文本表征时，能够很好地获取词语之间的相似度［２６］。ＮＮＬＭ模型的结构如图１所示，

分为３个部分：词到词向量的映射；词向量到隐藏层的映射；隐藏层到输出层的映射。其损失函数如下：

Ｌ＝１Ｔ∑ｔｌｏｇＰ（ｗｔ｜ｗｔ－１，…，ｗｔ－ｎ＋１；θ）＋Ｒ（θ）（２）

其中，Ｒ（θ）为正则化项。由损失函数可以看出，ＮＮＬＭ本质上是一个Ｎ－Ｇｒａｍ的语言模型。此外，ＮＮＬＭ的参数个数是窗口大小为ｎ的线性函数，此时的取值不再受模型参数量的限制，因此能对更长的依赖关系进行建模。

ＧｌｏＶｅ其实是没有网络结构的，整个算法都是基于矩阵分解的做法来获取词向量，本质上与ＬＳＡ［４２］这种基于ＳＶＤ［４３］的矩阵分解方法类似。

３．２．１ＥＬＭｏ模型

静态的词向量方法存在一个重要缺陷，即无法较好地处理一词多义问题（+OOV）；而ＥＬＭｏ通过使用针对语言模型训练好的双向ＬＳＴＭ来构建文本表示，由此捕捉上下文相关的词义信息，因而可以更好地处理一词多义问题。为了使用大规模无监督语料，ＥＬＭｏ使用两层带残差的双向ＬＳＴＭ来训练语言模型，如图２所示。

此外，ＥＬＭｏ借鉴了Ｊｏｚｅｆｏｗｉｃｚ等［４５］的做法，针对英文形态学上的特点，在预训练模型的输入层和输出层使用了字符级的ＣＮＮ结构。这种结构大幅减小了词表的规模，很好地解决了未登录词的问题；卷积操作也可以捕获一些英文中的形态学信息；同时，训练双向的ＬＳＴＭ，不仅考虑了上文信息，也融合了下文信息。

从预训练模型的迁移方式来看，ＥＬＭｏ是一种特征抽取式的预训练模型。对于第ｋ个词来说，ＥＬＭｏ有３层的文本表示可以利用：输入层ＣＮＮ的输出ｈｋ，０、第一层双向ＬＳＴＭ的输出ｈｋ，１和第二层双向ＬＳＴＭ的输出ｈｋ，２。设３层文本表示如下：

Ｒｋ＝｛ｈｋ，ｊ｝（ｊ＝０，１，２）（５）

则第ｋ个词经过预训练模型得到的文本表示为：

其中，γｔａｓｋ是一个缩放因子，用以将ＥＬＭｏ输出的向量与下游任务的向量拉到同一分布；ｓｔａｓｋｊ是针对每一层的输出向量设置的不同权值参数，用以组合不同层次的语义信息。ＥＬＭｏ模型不仅简单，而且表现出众，在自然语言处理领域的６个典型下游任务的数据集上全面刷新了最优成绩，尤其在阅读理解任务上提高了４．７个点［１２］。其主要贡献是提供了一种新的文本表征的思路：在大规模无监督数据上训练预训练语言模型，并将其迁移到下游特定任务中使用。

Ｍａｓｋｅｄ－ＬＭ预训练类似于一种完形填空的任务，即在预训练时，随机遮盖输入文本序列的部分词语，在输出层获得该位置的概率分布，进而极大化似然概率来调整模型参数。文献［９］实际随机选择文本序列中１５％的词用于后续替换，但这些词也并非全部被替换为［ＭＡＳＫ］，其中１０％替换为随机词，１０％保持不变。这种操作可以理解为通过引入噪声来增强模型的鲁棒性。与此同时，为了更好地处理多个句子之间的关系，ＢＥＲＴ还利用和借鉴了Ｓｋｉｐ－ｔｈｏｕｇｈｔｓ［２６］中预测下一句的任务来学习句子级别的语义关系。具体做法是：按照ＧＰＴ提出的组合方式将两个句子组合成一个序列，模型预测后面句子是否为前面句子的下文，也就是建模预测下一句的任务。因此，ＢＥＲＴ的预训练过程实质上是一个多任务学习的过程，同时完成训练Ｍａｓｋｅｄ－ＬＭ和预测下一句这两个任务，损失函数也由这两个任务的损失组成。在预训练细节上，ＢＥＲＴ借鉴了ＵＬＭＦｉＴ的一系列策略，使模型更易于训练。在如何迁移到下游任务方面，ＢＥＲＴ主要借鉴了ＧＰＴ的迁移学习框架的思想，并设计了更通用的输入层和输出层。此外，在预训练数据、预训练模型参数量和计算资源上，ＢＥＲＴ也远多于早期的ＥＬＭｏ和ＧＰＴ。ＢＥＲＴ的表现是里程碑式的，在自然语言处理领域的１１项基本任务中获得了显著的效果提升。而自然语言处理领域的许多后续研究一般也以ＢＥＲＴ模型为基础进行改进，学界普遍认为，从ＢＥＲＴ模型开始，自然语言处理领域终于找到了一种方法可以像计算机视觉那样进行迁移学习。总而言之，ＢＥＲＴ的出现是建立在前期很多重要工作之上的，包括ＥＬＭｏ，ＵＬＭＦｉＴ，ＧＰＴ，Ｔｒａｎｓｆｏｒｍｅｒ以及Ｓｋｉｐ－ｔｈｏｕｇｈｔｓ等，是一个集大成者。ＢＥＲＴ的出现极大地推动了自然语言处理领域的发展，凡需要构建自然语言处理模型者，均可将这个强大的预训练模型作为现成的组件使用，从而节省了从头开始训练模型所需的时间、精力、知识和资源。