李沐第十八课《seq2seq》

2024-05-27 04:08
文章标签 李沐 seq2seq 第十八

本文主要是介绍李沐第十八课《seq2seq》,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

这节课主要讲了两个东西,一个是seq2seq(编码器-解码器),一个是attention机制

seq2seq
当输入和输出都不是定长的时候,比如翻译等,我们可以采用编码器-解码器机制,编码器对应输入序列,解码器对应输出序列。
1,编码器的作用是将一个不定长的输入序列转换为一个定长的背景向量c
2,编码器最终输出的背景向量c,这个背景向量c编码了输入序列X1,X2,X3..XT的信息,
3,解码器的作用具体如下图
这里写图片描述


如上的解码器工作时,主要用到的都是相同的背景向量c,但是我们会希望解码器在解码时能用到不同的背景向量c,因此这就引入了attention知识。同时我们应该要知道,在解码时我们的除了用到背景向量c外,还有在t时刻的隐层变量St,以及t-1时刻的输出Yt-1.这是我们引入attention时计算所需要的变量,如下图

这篇关于李沐第十八课《seq2seq》的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1006472

相关文章

第十八题:四数之和

题目描述 给定一个包含 n 个整数的数组 nums 和一个目标值 target,找出 nums 中的四个整数,使得它们的和等于 target。你可以假设每个输入都只有一个解决方案,并且不能使用同一个元素多次。 实现思路 采用排序加双指针的方法来解决这个问题。首先对数组进行排序,然后遍历数组,对于每一个元素,设定一个新的目标值为原目标值减去这个元素的值,再利用三数之和的解法找到剩下的三个数。为

VBA字典与数组第十八讲:VBA中静态数组的定义及创建

《VBA数组与字典方案》教程(10144533)是我推出的第三套教程,目前已经是第二版修订了。这套教程定位于中级,字典是VBA的精华,我要求学员必学。7.1.3.9教程和手册掌握后,可以解决大多数工作中遇到的实际问题。 这套字典教程共两册,一共八十四讲,今后一段时间会给大家陆续推出修订后的教程内容。今日的内容是:VBA字典与数组第十八讲:VBA中静态数组的定义及创建 【分享成果,随喜正能量

深度学习100问50:seq2seq的原理是什么

嘿,朋友!让我用超有趣的方式给你讲讲 seq2seq 的原理吧!   想象一下,seq2seq 就像是一个神奇的翻译官团队。这个团队有两个重要成员:编码器和解码器。   一、编码器——信息收集小能手   把输入的序列(比如一段话)想象成一本神秘的魔法书。编码器就像是一个勤奋的魔法师,他一页一页地翻阅这本魔法书。每翻一页,他就会根据书上的内容更新自己的魔法状态。等他把整本书都翻完了,他就把这本书里

NLP-生成模型-2014:Seq2Seq【缺点:①解码器无法对齐编码器(Attention机制);②编码器端信息过使用或欠使用(Coverage机制);③解码器无法解决OOV(Pointer机制)】

《原始论文:Sequence to Sequence Learning with Neural Networks》 Seq2Seq模型是将一个序列信号,通过“编码&解码”生成一个新的序列信号,通常用于机器翻译、语音识别、自动对话等任务。 Seq2Seq(多层LSTM-多层LSTM)+Attention架构是Transformer提出之前最好的序列生成模型。 我们之前遇到的较为熟悉的序列问题,

人工智能-机器学习-深度学习-自然语言处理(NLP)-生成模型:Seq2Seq模型(Encoder-Decoder框架、Attention机制)

我们之前遇到的较为熟悉的序列问题,主要是利用一系列输入序列构建模型,预测某一种情况下的对应取值或者标签,在数学上的表述也就是通过一系列形如 X i = ( x 1 , x 2 , . . . , x n ) \textbf{X}_i=(x_1,x_2,...,x_n) Xi​=(x1​,x2​,...,xn​) 的向量序列来预测 Y Y Y 值,这类的问题的共同特点是,输入可以是一个定长或者不

自然语言处理-应用场景-聊天机器人(二):Seq2Seq【CHAT/闲聊机器人】--> BeamSearch算法预测【替代 “维特比算法” 预测、替代 “贪心算法” 预测】

在项目准备阶段我们知道,用户说了一句话后,会判断其意图,如果是想进行闲聊,那么就会调用闲聊模型返回结果。 目前市面上的常见闲聊机器人有微软小冰这种类型的模型,很久之前还有小黄鸡这种体验更差的模型 常见的闲聊模型都是一种seq2seq的结构。 一、准备训练数据 单轮次的聊天数据非常不好获取,所以这里我们从github上使用一些开放的数据集来训练我们的闲聊模型 数据地址:https://gi

自然语言处理-应用场景-文本生成:Seq2Seq --> 看图说话【将一张图片转为一段文本】

人工智能-自然语言处理(NLP)-应用场景-Seq2Seq:看图说话【将一张图片转为一段文本】

李沐讲座:大语言模型的实践经验和未来预测 | 上海交大

本文简介 本博客记录了李沐关于语言模型与职业生涯分享的精彩讲座,涵盖了大语言模型的核心要素、工程实践中的挑战,以及演讲者个人职业生涯中的心得体会。 李沐简介 李沐(Mu Li)是一位在人工智能与深度学习领域具有广泛影响力的计算机科学家。他拥有丰富的学术背景和产业经验,曾在百度和Amazon等知名科技公司工作,并有两次成功的创业经历。李沐以其在深度学习、分布式系统以及大规模机器学习方面的杰出贡

【王树森】RNN模型与NLP应用(7/9):机器翻译与Seq2Seq模型(个人向笔记)

Machine Translation Data 做机器学习任务的第一步都是处理数据,我们首先需要准备机器翻译的数据。由于我们是学习用途,因此拿一个小规模数据集即可:http://www.manythings.org/anki/下面的数据集中:一个英语句子对应多个德语句子,如果翻译的时候能命中其中的一个则算作完全正确。 1. Preprocessing 将大写全部转化为小写去掉标点符号