【王树森】RNN模型与NLP应用(7/9)：机器翻译与Seq2Seq模型（个人向笔记）

2024-08-31 10:52

文章标签 应用笔记模型个人 nlp rnn seq2seq 机器翻译王树森

本文主要是介绍【王树森】RNN模型与NLP应用(7/9)：机器翻译与Seq2Seq模型（个人向笔记），希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

Machine Translation Data

做机器学习任务的第一步都是处理数据，我们首先需要准备机器翻译的数据。
由于我们是学习用途，因此拿一个小规模数据集即可：http://www.manythings.org/anki/
下面的数据集中：一个英语句子对应多个德语句子，如果翻译的时候能命中其中的一个则算作完全正确。

1. Preprocessing

将大写全部转化为小写
去掉标点符号

2. Tokenization & Build Dictionary

我们分别需要两个Tokenizer，一个英语Tokenizer和一个德语Tokenizer
英语的text最后经过英语Tokenizer转化为 input_tokens
德语的text经过德语Tokenizer转化为target_tokens
在Tokenization后需要建立两个字典，一个英语字典和一个德语字典
Tokenization既可以是char-level的，也可以是word-level的
本节课使用的是char-level的Tokenization
但是实际的机器翻译都是用word-level的，因为它们的数据集足够大

Question:为什么要用两个不同的Tokenizer？
答案是在char-level中，语言有不同的char，如下图所示：英语和德语的char总数并不相同，希腊语也类似：

而在word-level的情况下则更需要两个了，原因是：①词汇完全不一样。②分词方法不同。
下面是经过Tokenizaion后的字典：其中 \t 是起始符，\n是终止符。选用其他的字符也行，只要不和已有的冲突即可。

3. One-Hot Encoding

经过上面的Tokenize后，我们可以将一段text通过字典转化为一个个数
接下来我们把每一个数字用一个One-Hot向量表示如下：

Training the Seq2Seq Model

LSTM Encode用于提取输入英文文本的信息，它将这句话的最后状态信息作为输入传到LSTM Decoder
LSTM Decoder用于生成德语，这其实就是上节课讲到的文本生成器，只不过区别在于这里的文本生成器的初始向量为LSTM Encoder，接受了输入的英语文本的特征作为初始状态，Decoder通过被输入的这个状态来指导这句英语是 go away
LSTM Decoder作为一个文本翻译器，那么它需要每次接受一个输入，然后输出对下一个字符的预测。
LSTM Decoder第一个输入必须是起始符，这也是为什么需要定义一个起始符的原因
起始符后面预测的字母为m，我们对m作One-Hot Encoding，作为标签y和预测的概率p一起传入交叉熵损失函数，我们希望p尽量接近y，所以损失越小越好。这样我们就可以利用反向传播计算梯度，梯度会传到Decoder，然后顺着Decoder传到Encoder，利用梯度下降即可更新Decoder和Encoder的参数。
我们不断重复这个过程，直到这句德语被预测完

在这里插入图片描述

Seq2Seq Model in Keras

最后对Dense作反向传播的时候可以顺着这张图的链路一直传到Encoder和Decoder
在这里插入图片描述

Inference

在预测时，我们用LSTM Encoder把go away转化为状态向量指导Decoder进行翻译。
而Decoder则是从 \t（起始符）开始对整句德语进行预测，过程和上节课讲到的文本生成器一致，直到遇到终止符 \n。

Summary

在这里插入图片描述

How to Improve

1. Bi-LSTM instead of LSTM(Encoder only!)

Encoder对一个句子只取最后的那个状态向量，最后的状态向量包含句子的所有信息
如果句子很长的话就会导致遗忘，导致传入的英语文本信息不全导致遗漏
可以想到用双向LSTM来增加LSTM的记忆力
注意Decoder不能用双向，由于文本生成任务的原因，Decoder只能单向

2. Word-level Tokenization

本节课用的时char-level比较方便，但是会导致一个句子比较长，容易导致LSTM的遗忘
如果用word-level的话，token的长度会缩短四到五倍，比较容易避免遗忘
但是这样的话需要一个额外的Embedding层，这样就需要大量的数据来对Embedding层的参数进行训练
若训练数据不够而Embedding层的参数又过多就会导致过拟合，这样就还可能需要额外的预训练

3. Multi-Task Learning

在任务里多加一个训练从英语到英语的任务，这样在数据量不变的情况下，可训练的数据就多了一倍，这样Encoder会被训练得更好
还可以增加更多的任务，比如训练英语到其他语言的翻译，虽然增加了更多Decoder，而且德语Decoder没有改进，但是Encoder只有一个，这样可以更好的训练Encoder。翻译效果还是会提升。

4. Attention

下节课！

这篇关于【王树森】RNN模型与NLP应用(7/9)：机器翻译与Seq2Seq模型（个人向笔记）的文章就介绍到这儿，希望我们推荐的文章对编程师们有所帮助！

http://www.chinasem.cn/article/1123702。 23002807@qq.com

相关文章

Redis中Stream详解及应用小结

Redis中Stream详解及应用小结

《Redis中Stream详解及应用小结》RedisStreams是Redis5.0引入的新功能,提供了一种类似于传统消息队列的机制,但具有更高的灵活性和可扩展性,本文给大家介绍Redis中Strea... 目录1. Redis Stream 概述2. Redis Stream 的基本操作2.1. XADD

阅读更多...

JSONArray在Java中的应用操作实例

JSONArray在Java中的应用操作实例

《JSONArray在Java中的应用操作实例》JSONArray是org.json库用于处理JSON数组的类,可将Java对象（Map/List）转换为JSON格式,提供增删改查等操作,适用于前后端... 目录1. jsONArray定义与功能1.1 JSONArray概念阐释1.1.1 什么是JSONA

阅读更多...

nginx -t、nginx -s stop 和 nginx -s reload 命令的详细解析(结合应用场景)

nginx -t、nginx -s stop 和 nginx -s reload 命令的详细解析(结合应用场景)

《nginx-t、nginx-sstop和nginx-sreload命令的详细解析(结合应用场景)》本文解析Nginx的-t、-sstop、-sreload命令,分别用于配置语法检... 以下是关于 nginx -t、nginx -s stop 和 nginx -s reload 命令的详细解析，结合实际应

阅读更多...

PostgreSQL的扩展dict_int应用案例解析

PostgreSQL的扩展dict_int应用案例解析

《PostgreSQL的扩展dict_int应用案例解析》dict_int扩展为PostgreSQL提供了专业的整数文本处理能力,特别适合需要精确处理数字内容的搜索场景,本文给大家介绍PostgreS... 目录PostgreSQL的扩展dict_int一、扩展概述二、核心功能三、安装与启用四、字典配置方法

阅读更多...

Python中re模块结合正则表达式的实际应用案例

Python中re模块结合正则表达式的实际应用案例

《Python中re模块结合正则表达式的实际应用案例》Python中的re模块是用于处理正则表达式的强大工具,正则表达式是一种用来匹配字符串的模式,它可以在文本中搜索和匹配特定的字符串模式,这篇文章主... 目录前言re模块常用函数一、查看文本中是否包含 A 或 B 字符串二、替换多个关键词为统一格式三、提

阅读更多...

Java MQTT实战应用

Java MQTT实战应用

《JavaMQTT实战应用》本文详解MQTT协议,涵盖其发布/订阅机制、低功耗高效特性、三种服务质量等级（QoS0/1/2）,以及客户端、代理、主题的核心概念,最后提供Linux部署教程、Sprin... 目录一、MQTT协议二、MQTT优点三、三种服务质量等级四、客户端、代理、主题1. 客户端（Clien

阅读更多...

CSS中的Static、Relative、Absolute、Fixed、Sticky的应用与详细对比

CSS中的Static、Relative、Absolute、Fixed、Sticky的应用与详细对比

《CSS中的Static、Relative、Absolute、Fixed、Sticky的应用与详细对比》CSS中的position属性用于控制元素的定位方式，不同的定位方式会影响元素在页面中的布... css 中的 position 属性用于控制元素的定位方式，不同的定位方式会影响元素在页面中的布局和层叠关

阅读更多...

SpringBoot3应用中集成和使用Spring Retry的实践记录

SpringBoot3应用中集成和使用Spring Retry的实践记录

《SpringBoot3应用中集成和使用SpringRetry的实践记录》SpringRetry为SpringBoot3提供重试机制,支持注解和编程式两种方式,可配置重试策略与监听器,适用于临时性故... 目录1. 简介2. 环境准备3. 使用方式3.1 注解方式基础使用自定义重试策略失败恢复机制注意事项

阅读更多...

Python使用Tkinter打造一个完整的桌面应用

Python使用Tkinter打造一个完整的桌面应用

《Python使用Tkinter打造一个完整的桌面应用》在Python生态中,Tkinter就像一把瑞士军刀,它没有花哨的特效,却能快速搭建出实用的图形界面,作为Python自带的标准库,无需安装即可... 目录一、界面搭建：像搭积木一样组合控件二、菜单系统：给应用装上“控制中枢”三、事件驱动：让界面“活”

阅读更多...

详解如何使用Python从零开始构建文本统计模型

详解如何使用Python从零开始构建文本统计模型

《详解如何使用Python从零开始构建文本统计模型》在自然语言处理领域,词汇表构建是文本预处理的关键环节,本文通过Python代码实践,演示如何从原始文本中提取多尺度特征,并通过动态调整机制构建更精确... 目录一、项目背景与核心思想二、核心代码解析1. 数据加载与预处理2. 多尺度字符统计3. 统计结果可

阅读更多...