通过NMT训练的通用语境词向量:NLP中的预训练模型?

2024-03-24 15:40

本文主要是介绍通过NMT训练的通用语境词向量:NLP中的预训练模型?,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

转载请注明出处:乐投网-通过NMT训练的通用语境词向量:NLP中的预训练模型?

自然语言处理(NLP)这个领域目前并没有找到合适的初始化方法,它不能像计算机视觉那样可以使用预训练模型获得图像的基本信息,我们在自然语言处理领域更常用的还是随机初始化词向量。本文希望通过 MT-LSTM 先学习一个词向量,该词向量可以表征词汇的基本信息,然后再利用该词向量辅助其它自然语言处理任务以提升性能。本文先描述了如何训练一个带注意力机制的神经机器翻译,其次描述了如何抽取该模型的通用词向量与将其应用于其它任务的性能。

对于自然语言处理中的大多数问题而言,理解语境是很有必要的。为了生成一句英文的德语翻译,翻译模型需要理解英文句子中的单词是如何组织在一起的。为了知道哪些单词是最重要的,文本摘要模型也需要语境。执行语义情感分析的模型需要理解如何挑选出能够改变一句话的情感的关键词。问答模型依赖于对「问题中的词汇分布如何改变答案中的词汇分布」的理解。因为这些模型都需要理解语境是如何影响一个单词的意思的,所以,只要能够与一个学会了如何将单词语境化的模型相结合,上述每个模型都能够从中获益。

在自然语言处理(NLP)中模仿 IMAGENET-CNN 模式

机器视觉在寻求可重用的表征方面比自然语言处理更加成功。在大型图像分类数据集 ImageNet 上训练的深度卷积神经网络(CNN)经常被用作其他模型的组成部分。为了将图像分类做得更好,卷积神经网络通过逐渐构建一个更加复杂模型,而去理解像素是如何与其他像素关联的。模型可以在这些表征的基础上去解决看图说话问题、人脸识别问题以及目标检测问题,而不是一切都从零开始。自然语言处理也应该做一些类似的表征去解决单词和语境之间的关联。

为了教会神经网络理解单词在语境中的含义,我们首先教它如何将英文翻译成德语。然后,我们展示了可以重用该翻译任务的神经网络就像模仿机器视觉中在 ImageNet 上训练卷积神经网络的方式那样。我们是这样来做的:通过将神经网络的输出(也就是我们所说的语境向量(CoVe))作为其它自然语言处理任务的神经网络的新输入。在我们的实验中,给这些网络提供 CoVe 的情况总会改善模型的性能,这十分令我们振奋,所以所以我们公布了这个能够生成 CoVe 的可训练神经网络,以进一步探索自然语言处理中的可重用表征。

词向量

今天大多数用于自然语言处理的深度学习模型都依赖词向量来代表单个单词的含义。对于不太熟悉这领域的人而言,可以这样简单的理解:我们把每一种语言中的每一个单词都与一串被叫做向量的数字联系起来了。

图 1. 深度学习中将单词表示成向量是很普遍的情况。深度学习模型以词向量序列的形式读取序列化的单词,而不是以文本的形式。

预训练的词向量

有时候在为特定任务训练模型之前,词向量会被初始化成随机数,但是,也有其他很常见的方式,例如,使用 word2vec、GloVe 或者 FastText 等方法来初始化词向量。前两个方法会逐渐和这一假设结合起来:至少一个单词的部分含义是和它的用法有关的。

Word2Vec 会训练出能够预测局部语境窗(local context window)的模型;这个模型在发现一个单词之后就会去预测它附近的单词。

图 2. 像 word2vec 和 GloVe 一样的算法能够生成一些相互关联的词向量,这些词向量在自然语言中通常也是相关的。就像像图中描述的一样,「Word vectors are lists of numbers」这句话中,「vector」的向量就在「lists」、「of」「numbers」这三个词的周围。

GloVe 采用了相似的方法,它还显式地附加了每个单词和其他单词一起出现的统计信息。在这两种方法中,每个单词都由一个对应的词向量来表示,训练过程会将词向量之间的关联与单词在自然语言中的使用方式联系起来。

预训练的词向量的天然特性

将这些词向量看作空间中的点,我们就会发现一些非常有趣的关联,它可以让人回想起自然语言中单词之间的语义关联。

图 3. 男性-女性词对在向量分布的不同(Pennington 等人 2014)

图 4. a-b,c:d 这种关系指的是:c+(a-b) 会生成一个距离 d 最近的向量(Mikolov 等人,2013)

图 5. 比较级和最高级之间的向量的差别

显而易见,对于目标任务,使用由 word2vec 或者 GloVe 的中间结果作为预训练词向量去初始化任务,会给目标任务的模型带来一些优势。由此,由 word2vec 或者 GloVe 生成的词向量也就找到了在很多自然语言处理任务中进行广泛实验的方式。

隐向量

这些预训练的词向量表现出了很有趣的性质,并且相对随机初始化的词向量而言,有着显著的性能提升。但是正如之前提及的,单词很少独立出现。使用预训练词向量的模型必须学习如何去使用它们。在该项工作中,我们通过训练中间任务获得环境词向量,该环境词向量是通过截断寻找比随机初始化方法更好的向量而得出。

编码器

将词向量语境化的一个常用方法就是使用循环神经网络(RNN)。循环神经网络是能够处理可变长度向量序列的深度学习模型。这一特性使得它们很适合来处理词向量序列。为了更好地处理长序列,我们使用了一种特定种类的 RNN,即长短期记忆(LSTM)网络。在处理过程的每一步中,LSTM 输入一个词向量,输出一个被称作隐向量的新向量。这个过程常常被称之为对序列的编码,完成编码过程的神经网络就被称为编码器。

图 6. LSTM 将词向量序列作为输入,输出一个新的隐向量

双向编码器

隐向量并不包含出现在当前输入序列之后的单词的信息,但是这个很容易被改进。我们可以反向运行一个 LSTM 以得到一些反向的输出向量。我们将这一对前向-反向 LSTM 看做一个单元,通常被称作双向 LSTM。它以一个词向量序列作为输入,运行了前向和反向 LSTM,并将每个 LSTM 对应的输出连接成一个输出,然后返回最终得到的隐向量。

图 7. 包含每个单词之前和之后信息的双向编码器。

我们将两个双向 LSTM 堆叠在一起作为一个编码器。第一个双向 LSTM 处理整个序列,然后将输出作为作为第二个双向 LSTM 的输入。

机器翻译中的隐向量

因为结果证明预训练的词向量对于很多自然语言处理任务来说都是很有用的表征,所以我们要预训练我们的编码器,这样的话,它就能够输出普遍有用的隐向量。为了预训练,我们选择机器翻译作为我们的第一个任务。较之于其他的自然语言处理任务,机器翻译拥有更大的数据集。并且,对于训练通用的语境向量而言,翻译任务的本质看上去更加吸引人。例如,与其他的类似于文本分类的任务相比,翻译貌似更需要那种能够理解语言的语感。

解码器

我们通过教编码器如何将英文翻译成德文来教它生成有用的隐向量。解码器生成了针对英文句子的隐向量,另一个叫做解码器的神经网络就会在生成德语句子的时候参考这些隐向量。

正因为 LSTM 是我们编码器的基础,所以 LSTM 也在解码器中起着非常重要的作用。与编码器一样,我们在解码器中也使用两层的 LSTM。用编码器的最终状态来初始化解码器,读入一个德语词向量来启动解码器,然后就会生成解码状态向量。

图 8. 解码器使用一个单向的 LSTM 来从输入词向量创建解码器状态。

注意力机制

为了决定下一步翻译英语句子中的哪一部分,注意力机制需要从隐向量向前回溯。它使用状态向量来判别每一个隐向量的重要性,为了记录它的观察值,注意力机制会生成一个新的向量,我们可以称之为语境调整状态(context-sdjusted state)。

图 9. 注意力机制使用隐状态和解码状态来生成语境调整状态

生成模型

然后,生成器会根据语境调整状态来决定要生成哪个德语单词,接下来语境调整状态会回传到解码器中,让解码器对其翻译的结果有一个准确的感知。解码器一直重复这个过程,直至它完成所有翻译。这就是一个标准的基于注意力机制的编码器-解码器结构,它被用来学习像机器翻译一样的序列到序列任务。

图 10. 生成器使用语境调整状态来选择一个输出单词

预训练的机器翻译--长短期记忆网络(MT-LSTM)中的语境向量

当训练过程结束之后,我们可以将我们训练好的 LSTM 提取出来作为编码器用于机器翻译。我们将这个预训练的 LSTM 称作机器翻译 LSTM(MT-LSTM),并使用它生成新句子的隐向量。当我们把这些机器翻译隐向量用于其它的自然语言处理模型时,我们就把它们称作语境向量(CoVe)。

图 11. 两种通用架构:a). 我们如何训练一个编码器;b). 我们如何将训练好的编码器用在新的特定任务的模型上

使用 CoVe 进行的实验

我们的实验探索了在文本分类和问答模型中使用预训练的 MT-LSTM 生成语境向量(CoVe)的优点,但是 CoVe 可以被用在任何将向量序列作为输入的模型中。

文本分类

图 12. 双注意力机制(biattention)的分类网络

我们在两种不同种类的文本分类任务上做了实验。第一种是任务使用单一输入,它包括情感分析和问答分类。第二种拥有两个输入,但它仅包括蕴含分类。在两种任务上我们都使用双注意力分类网络(BCN)。如果仅有一个输入,我们会将其进行复制,以呈现出双输入的形式,但是同时要让模型知道避免做一些冗余的计算。不需要理解 BCN 的细节,我们就可以理解 CoVe 以及使用它的好处。

问答实验

在问答实验中我们使用了动态协同注意力网络(DCN)。而在分析机器翻译(MT)数据集对其他模型的性能影响时,我们使用了轻度修正的 DCN,然而在测试 CoVe 以及 CoVe 结合字符向量时的全局效果时,我们使用了修正的 DCN+。

表 1: 我们实验中所有的数据集和任务

Glove+CoVe

对于每一个任务,我们都用表征输入序列的不同方式进行实验。我们可以使用随机初始化的词向量,也可以使用 Glove,或者使用 Glove 和 CoVe 联合得出的词向量。在最后一种情况下,我们通过一个预训练的 MT-LSTM 来运行它,以得到 CoVe 序列,我们用对应的 Glove 序列来扩展每一个 CoVe 序列。MT-LSTM 和 Glove 都没有作为分类任务或者问答模型训练过程的一部分。

实验结果表明:包括 CoVe 和 Glove 的情况总是比随机初始化的词向量和单独使用 Glove 的情况具有更好的性能。

图 13. 结合 Glove 和 CoVe 能够改善验证性能。

更多的机器翻译-->更好的语境向量

改变训练 MT-LSTM 时所用的数据量表明:更大规模的数据集会得到更高质量的 MT-LSTM,这里的更高质量的模型意味着用它生成的 CoVe 通常会在分类任务和问答任务上产生更好的性能。

结果表明,在较小的机器翻译数据集上使用 CoVe 训练得到的 MT-LSTM 带来的性能提升是较小的。在一些情况中,使用小规模的机器翻译数据集训练的到的 MT-LSTM 会生成有损于模型性能的 CoVe。这也许意味着使用 CoVe 得到的性能提升是来自于强劲的 MT-LSTM 模型。这也意味着机器翻译训练集所在的领域会影响到最终 MT-LSTM 给其它任务带来性能提升。

图 14. 训练 MT-LSTM 的数据集规模会对使用 CoVe 的模型的验证性能产生明显地影响。在这里,MT-Small 是 2016 年的 WMT 多模数据集,MT-Medium 是 2016 IWSLT 训练集,MT-Large 是 2017 年的 WMT 新闻追踪数据集

语境向量和字符向量

在这些实验中,我们尝试着在 Glove 和 CoVe 中添加字符向量。结果表明,对于一些任务,字符向量会和 Glove 以及 CoVe 一起产生更好的性能。这意味着 CoVe 给字符级别以及单词级别的信息带来了补充信息。

图 15. CoVe 与字符级别以及单词级别的信息是互补的

测试性能

我们最好的模型都使用了 Glove、CoVe 以及字符级别的向量。我们对每种任务中验证性能最高的模型在测试集上做了测试。上图表明添加 CoVe 总能够从起点开始就提升性能,下表表明,我们的模型足以在 7 个任务测试集中的 3 个上达到目前最高水平。

表 2. 在测试的时候(2017.7.12),我们的模型与其他机器学习方法的性能对比

有一个有趣之处值得注意,就像我们使用机器翻译数据来改善我们的模型一样,SST-2 和 IMDb 任务的目前最先进水平的模型也使用外部的监督训练集来改善模型。对于 SST-2 任务,最好的模型使用了 8200 万条无标签的亚马逊评论,IMDb 任务的最好模型使用了 50000 条无标签的 IMD 评论,以及 22500 条监督训练样本。这两种方法都用了比机器翻译数据集更加相似的数据来扩展数据。这些模型的优点可能会突出附加数据的种类和有益额外数据之间的联系。

结论

我们展示了如何训练神经网络来实现机器翻译,如何让模型去学习语境中单词的表征,我们还展示了能够使用一部分网络(MT-LSTM)去帮助网络学习其他的自然语言处理任务。MT-LSTM 给分类任务和问答模型提供的语境向量(也就是 CoVe),并令它们得到了性能提升。我们在训练 MT-LSTM 时使用的数据越多,模型性能的提升就越大,这或许和使用其他形式的预训练向量表征带来的性能提升是互补的。通过结合来自于 Glove、CoVe、字符向量的信息,我们能够在很多自然语言处理任务上提升基准模型的性能。

代码发布

我们希望我们最好的 MT-LSTM 模型(就是那个我们用来生成 CoVe 的最佳模型)能够进一步激发对自然语言处理中可重用表征的探索。代码包括在 PyTorch 上如何生成 CoVe 的例子(代码请参见原文链接)。

原文链接:https://einstein.ai/research/learned-in-translation-contextualized-word-vectors

这篇关于通过NMT训练的通用语境词向量:NLP中的预训练模型?的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/842031

相关文章

Python基于火山引擎豆包大模型搭建QQ机器人详细教程(2024年最新)

《Python基于火山引擎豆包大模型搭建QQ机器人详细教程(2024年最新)》:本文主要介绍Python基于火山引擎豆包大模型搭建QQ机器人详细的相关资料,包括开通模型、配置APIKEY鉴权和SD... 目录豆包大模型概述开通模型付费安装 SDK 环境配置 API KEY 鉴权Ark 模型接口Prompt

详解Python中通用工具类与异常处理

《详解Python中通用工具类与异常处理》在Python开发中,编写可重用的工具类和通用的异常处理机制是提高代码质量和开发效率的关键,本文将介绍如何将特定的异常类改写为更通用的ValidationEx... 目录1. 通用异常类:ValidationException2. 通用工具类:Utils3. 示例文

大模型研发全揭秘:客服工单数据标注的完整攻略

在人工智能(AI)领域,数据标注是模型训练过程中至关重要的一步。无论你是新手还是有经验的从业者,掌握数据标注的技术细节和常见问题的解决方案都能为你的AI项目增添不少价值。在电信运营商的客服系统中,工单数据是客户问题和解决方案的重要记录。通过对这些工单数据进行有效标注,不仅能够帮助提升客服自动化系统的智能化水平,还能优化客户服务流程,提高客户满意度。本文将详细介绍如何在电信运营商客服工单的背景下进行

Andrej Karpathy最新采访:认知核心模型10亿参数就够了,AI会打破教育不公的僵局

夕小瑶科技说 原创  作者 | 海野 AI圈子的红人,AI大神Andrej Karpathy,曾是OpenAI联合创始人之一,特斯拉AI总监。上一次的动态是官宣创办一家名为 Eureka Labs 的人工智能+教育公司 ,宣布将长期致力于AI原生教育。 近日,Andrej Karpathy接受了No Priors(投资博客)的采访,与硅谷知名投资人 Sara Guo 和 Elad G

【Prometheus】PromQL向量匹配实现不同标签的向量数据进行运算

✨✨ 欢迎大家来到景天科技苑✨✨ 🎈🎈 养成好习惯,先赞后看哦~🎈🎈 🏆 作者简介:景天科技苑 🏆《头衔》:大厂架构师,华为云开发者社区专家博主,阿里云开发者社区专家博主,CSDN全栈领域优质创作者,掘金优秀博主,51CTO博客专家等。 🏆《博客》:Python全栈,前后端开发,小程序开发,人工智能,js逆向,App逆向,网络系统安全,数据分析,Django,fastapi

Retrieval-based-Voice-Conversion-WebUI模型构建指南

一、模型介绍 Retrieval-based-Voice-Conversion-WebUI(简称 RVC)模型是一个基于 VITS(Variational Inference with adversarial learning for end-to-end Text-to-Speech)的简单易用的语音转换框架。 具有以下特点 简单易用:RVC 模型通过简单易用的网页界面,使得用户无需深入了

透彻!驯服大型语言模型(LLMs)的五种方法,及具体方法选择思路

引言 随着时间的发展,大型语言模型不再停留在演示阶段而是逐步面向生产系统的应用,随着人们期望的不断增加,目标也发生了巨大的变化。在短短的几个月的时间里,人们对大模型的认识已经从对其zero-shot能力感到惊讶,转变为考虑改进模型质量、提高模型可用性。 「大语言模型(LLMs)其实就是利用高容量的模型架构(例如Transformer)对海量的、多种多样的数据分布进行建模得到,它包含了大量的先验

图神经网络模型介绍(1)

我们将图神经网络分为基于谱域的模型和基于空域的模型,并按照发展顺序详解每个类别中的重要模型。 1.1基于谱域的图神经网络         谱域上的图卷积在图学习迈向深度学习的发展历程中起到了关键的作用。本节主要介绍三个具有代表性的谱域图神经网络:谱图卷积网络、切比雪夫网络和图卷积网络。 (1)谱图卷积网络 卷积定理:函数卷积的傅里叶变换是函数傅里叶变换的乘积,即F{f*g}

秋招最新大模型算法面试,熬夜都要肝完它

💥大家在面试大模型LLM这个板块的时候,不知道面试完会不会复盘、总结,做笔记的习惯,这份大模型算法岗面试八股笔记也帮助不少人拿到过offer ✨对于面试大模型算法工程师会有一定的帮助,都附有完整答案,熬夜也要看完,祝大家一臂之力 这份《大模型算法工程师面试题》已经上传CSDN,还有完整版的大模型 AI 学习资料,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

【生成模型系列(初级)】嵌入(Embedding)方程——自然语言处理的数学灵魂【通俗理解】

【通俗理解】嵌入(Embedding)方程——自然语言处理的数学灵魂 关键词提炼 #嵌入方程 #自然语言处理 #词向量 #机器学习 #神经网络 #向量空间模型 #Siri #Google翻译 #AlexNet 第一节:嵌入方程的类比与核心概念【尽可能通俗】 嵌入方程可以被看作是自然语言处理中的“翻译机”,它将文本中的单词或短语转换成计算机能够理解的数学形式,即向量。 正如翻译机将一种语言