【王树森】RNN模型与NLP应用(7/9):机器翻译与Seq2Seq模型(个人向笔记)

2024-08-31 10:52

本文主要是介绍【王树森】RNN模型与NLP应用(7/9):机器翻译与Seq2Seq模型(个人向笔记),希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

Machine Translation Data

  • 做机器学习任务的第一步都是处理数据,我们首先需要准备机器翻译的数据。
  • 由于我们是学习用途,因此拿一个小规模数据集即可:http://www.manythings.org/anki/
  • 下面的数据集中:一个英语句子对应多个德语句子,如果翻译的时候能命中其中的一个则算作完全正确。
    在这里插入图片描述

1. Preprocessing

  • 将大写全部转化为小写
  • 去掉标点符号
    在这里插入图片描述

2. Tokenization & Build Dictionary

  • 我们分别需要两个Tokenizer,一个英语Tokenizer和一个德语Tokenizer
  • 英语的text最后经过英语Tokenizer转化为 input_tokens
  • 德语的text经过德语Tokenizer转化为target_tokens
  • 在Tokenization后需要建立两个字典,一个英语字典和一个德语字典
  • Tokenization既可以是char-level的,也可以是word-level的
    在这里插入图片描述
  • 本节课使用的是char-level的Tokenization
  • 但是实际的机器翻译都是用word-level的,因为它们的数据集足够大
    在这里插入图片描述
    Question:为什么要用两个不同的Tokenizer?
    答案是在char-level中,语言有不同的char,如下图所示:英语和德语的char总数并不相同,希腊语也类似:
    在这里插入图片描述
    而在word-level的情况下则更需要两个了,原因是:①词汇完全不一样。②分词方法不同。
  • 下面是经过Tokenizaion后的字典:其中 \t 是起始符,\n是终止符。选用其他的字符也行,只要不和已有的冲突即可。
    在这里插入图片描述

3. One-Hot Encoding

  • 经过上面的Tokenize后,我们可以将一段text通过字典转化为一个个数
    在这里插入图片描述在这里插入图片描述
  • 接下来我们把每一个数字用一个One-Hot向量表示如下:
    在这里插入图片描述

Training the Seq2Seq Model

  • LSTM Encode用于提取输入英文文本的信息,它将这句话的最后状态信息作为输入传到LSTM Decoder
  • LSTM Decoder用于生成德语,这其实就是上节课讲到的文本生成器,只不过区别在于这里的文本生成器的初始向量为LSTM Encoder,接受了输入的英语文本的特征作为初始状态,Decoder通过被输入的这个状态来指导这句英语是 go away
  • LSTM Decoder作为一个文本翻译器,那么它需要每次接受一个输入,然后输出对下一个字符的预测。
  • LSTM Decoder第一个输入必须是起始符,这也是为什么需要定义一个起始符的原因
  • 起始符后面预测的字母为m,我们对m作One-Hot Encoding,作为标签y和预测的概率p一起传入交叉熵损失函数,我们希望p尽量接近y,所以损失越小越好。这样我们就可以利用反向传播计算梯度,梯度会传到Decoder,然后顺着Decoder传到Encoder,利用梯度下降即可更新Decoder和Encoder的参数。
  • 我们不断重复这个过程,直到这句德语被预测完

在这里插入图片描述

Seq2Seq Model in Keras

最后对Dense作反向传播的时候可以顺着这张图的链路一直传到Encoder和Decoder
在这里插入图片描述


Inference

  • 在预测时,我们用LSTM Encoder把go away转化为状态向量指导Decoder进行翻译。
    在这里插入图片描述

  • 而Decoder则是从 \t(起始符)开始对整句德语进行预测,过程和上节课讲到的文本生成器一致,直到遇到终止符 \n。
    在这里插入图片描述
    在这里插入图片描述在这里插入图片描述


Summary

在这里插入图片描述


How to Improve

1. Bi-LSTM instead of LSTM(Encoder only!)

  • Encoder对一个句子只取最后的那个状态向量,最后的状态向量包含句子的所有信息
  • 如果句子很长的话就会导致遗忘,导致传入的英语文本信息不全导致遗漏
  • 可以想到用双向LSTM来增加LSTM的记忆力
  • 注意Decoder不能用双向,由于文本生成任务的原因,Decoder只能单向
    在这里插入图片描述

2. Word-level Tokenization

  • 本节课用的时char-level比较方便,但是会导致一个句子比较长,容易导致LSTM的遗忘
  • 如果用word-level的话,token的长度会缩短四到五倍,比较容易避免遗忘
  • 但是这样的话需要一个额外的Embedding层,这样就需要大量的数据来对Embedding层的参数进行训练
  • 若训练数据不够而Embedding层的参数又过多就会导致过拟合,这样就还可能需要额外的预训练
    在这里插入图片描述

3. Multi-Task Learning

  • 在任务里多加一个训练从英语到英语的任务,这样在数据量不变的情况下,可训练的数据就多了一倍,这样Encoder会被训练得更好
    在这里插入图片描述
  • 还可以增加更多的任务,比如训练英语到其他语言的翻译,虽然增加了更多Decoder,而且德语Decoder没有改进,但是Encoder只有一个,这样可以更好的训练Encoder。翻译效果还是会提升。
    在这里插入图片描述
    在这里插入图片描述

4. Attention

下节课!

这篇关于【王树森】RNN模型与NLP应用(7/9):机器翻译与Seq2Seq模型(个人向笔记)的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1123702

相关文章

如何在本地部署 DeepSeek Janus Pro 文生图大模型

《如何在本地部署DeepSeekJanusPro文生图大模型》DeepSeekJanusPro模型在本地成功部署,支持图片理解和文生图功能,通过Gradio界面进行交互,展示了其强大的多模态处... 目录什么是 Janus Pro1. 安装 conda2. 创建 python 虚拟环境3. 克隆 janus

本地私有化部署DeepSeek模型的详细教程

《本地私有化部署DeepSeek模型的详细教程》DeepSeek模型是一种强大的语言模型,本地私有化部署可以让用户在自己的环境中安全、高效地使用该模型,避免数据传输到外部带来的安全风险,同时也能根据自... 目录一、引言二、环境准备(一)硬件要求(二)软件要求(三)创建虚拟环境三、安装依赖库四、获取 Dee

DeepSeek模型本地部署的详细教程

《DeepSeek模型本地部署的详细教程》DeepSeek作为一款开源且性能强大的大语言模型,提供了灵活的本地部署方案,让用户能够在本地环境中高效运行模型,同时保护数据隐私,在本地成功部署DeepSe... 目录一、环境准备(一)硬件需求(二)软件依赖二、安装Ollama三、下载并部署DeepSeek模型选

5分钟获取deepseek api并搭建简易问答应用

《5分钟获取deepseekapi并搭建简易问答应用》本文主要介绍了5分钟获取deepseekapi并搭建简易问答应用,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需... 目录1、获取api2、获取base_url和chat_model3、配置模型参数方法一:终端中临时将加

JavaScript中的isTrusted属性及其应用场景详解

《JavaScript中的isTrusted属性及其应用场景详解》在现代Web开发中,JavaScript是构建交互式应用的核心语言,随着前端技术的不断发展,开发者需要处理越来越多的复杂场景,例如事件... 目录引言一、问题背景二、isTrusted 属性的来源与作用1. isTrusted 的定义2. 为

Python调用另一个py文件并传递参数常见的方法及其应用场景

《Python调用另一个py文件并传递参数常见的方法及其应用场景》:本文主要介绍在Python中调用另一个py文件并传递参数的几种常见方法,包括使用import语句、exec函数、subproce... 目录前言1. 使用import语句1.1 基本用法1.2 导入特定函数1.3 处理文件路径2. 使用ex

Golang的CSP模型简介(最新推荐)

《Golang的CSP模型简介(最新推荐)》Golang采用了CSP(CommunicatingSequentialProcesses,通信顺序进程)并发模型,通过goroutine和channe... 目录前言一、介绍1. 什么是 CSP 模型2. Goroutine3. Channel4. Channe

将Python应用部署到生产环境的小技巧分享

《将Python应用部署到生产环境的小技巧分享》文章主要讲述了在将Python应用程序部署到生产环境之前,需要进行的准备工作和最佳实践,包括心态调整、代码审查、测试覆盖率提升、配置文件优化、日志记录完... 目录部署前夜:从开发到生产的心理准备与检查清单环境搭建:打造稳固的应用运行平台自动化流水线:让部署像

Python实现NLP的完整流程介绍

《Python实现NLP的完整流程介绍》这篇文章主要为大家详细介绍了Python实现NLP的完整流程,文中的示例代码讲解详细,具有一定的借鉴价值,感兴趣的小伙伴可以跟随小编一起学习一下... 目录1. 编程安装和导入必要的库2. 文本数据准备3. 文本预处理3.1 小写化3.2 分词(Tokenizatio

Linux中Curl参数详解实践应用

《Linux中Curl参数详解实践应用》在现代网络开发和运维工作中,curl命令是一个不可或缺的工具,它是一个利用URL语法在命令行下工作的文件传输工具,支持多种协议,如HTTP、HTTPS、FTP等... 目录引言一、基础请求参数1. -X 或 --request2. -d 或 --data3. -H 或