有关LSTM的其他知识

2024-06-07 14:48
文章标签 lstm 知识

本文主要是介绍有关LSTM的其他知识,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

1、LSTM和attention在机器翻译领域的应用:

          全面解析RNN,LSTM,Seq2Seq,Attention注意力机制:这篇文章很好的讲解了简单的Seq2Seq模型是怎样的,以及怎么利用LSTM做翻译,以及如何在Seq2Seq中引入attention进行计算的,感觉算是Seq2Seq比较好的一个入门。

         如果对LSTM和RNN比较熟悉的,可以直接跳过这两部分的介绍。

 

2、几种RNN模型的动画理解

      超生动图解LSTM和GRU:拯救循环神经网络的记忆障碍,就靠它们了,这篇文章以动画的形式展示每个模型每一步是怎么计算的,如果熟悉RNN模型的基本计算的,可以跳过这篇文章,完全没问题。如果是初入门,可以看下这篇,讲得很清晰。

 

3、计算LSTM中神经元的个数的,也就是模型要训练的参数的个数

     LSTM的神经元个数,得到的结论是,如果输入的x的embedding的维度是n,最后输出的短时记忆/局部信息h_t/门状态/cell state的维度是m,那么最终一层LSTM的神经元的个数是 4*((m + n) * m + m)。

 

4、RNN的梯度问题

    RNN梯度消失和爆炸的原因,这个作者从公式推导的角度给出了RNN中的梯度的问题(虽然作者的另一篇文章没有解释好LSTM怎么解决这种梯度消失的,但是对RNN梯度的解释还是蛮好蛮直观的)。其实看完可以发现,RNN并不是说整体的总梯度消失,而是在每一步计算时,离当前步(t)比较近的时刻的梯度任然有效,但是与t相隔比较远的那部分梯度因为链式求导的原因,跟其他的DNN网络一样,梯度也会消失,但是作为当前时刻的梯度,它包含由近及远的所有梯度和,所以总体来说是不会消失的,这应该也是RNN不能捕捉远距离信息的原因吧(其实在前向传播中,RNN也是把前面的所有信息一股脑全传给后面的时刻了,但是反向传播求导的时候,远距离的梯度根本没算进去,也就是说当前误差对远距离时刻的影响消失了)。

 

5、LSTM的梯度问题

    漫谈LSTM系列的梯度问题,参考第4个问题的那篇文章,讲了LSTM是如何通过门的问题解决反向传播的长距离依赖的。

这篇关于有关LSTM的其他知识的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1039483

相关文章

[职场] 公务员的利弊分析 #知识分享#经验分享#其他

公务员的利弊分析     公务员作为一种稳定的职业选择,一直备受人们的关注。然而,就像任何其他职业一样,公务员职位也有其利与弊。本文将对公务员的利弊进行分析,帮助读者更好地了解这一职业的特点。 利: 1. 稳定的职业:公务员职位通常具有较高的稳定性,一旦进入公务员队伍,往往可以享受到稳定的工作环境和薪资待遇。这对于那些追求稳定的人来说,是一个很大的优势。 2. 薪资福利优厚:公务员的薪资和

时序预测 | MATLAB实现LSTM时间序列未来多步预测-递归预测

时序预测 | MATLAB实现LSTM时间序列未来多步预测-递归预测 目录 时序预测 | MATLAB实现LSTM时间序列未来多步预测-递归预测基本介绍程序设计参考资料 基本介绍 MATLAB实现LSTM时间序列未来多步预测-递归预测。LSTM是一种含有LSTM区块(blocks)或其他的一种类神经网络,文献或其他资料中LSTM区块可能被描述成智能网络单元,因为

关于CPU的一点知识

首先说一下,CPU是干啥的: CPU所负责的就是解释和运行最终转换成机器语言的程序内容 我们需要知道的CPU结构:重点需要关注寄存器 运算器 简单说就是负责运算从内存读取到寄存器中的数据,可以看作一个数据加工厂,就是对寄存器中的数据做运算,这些运算包含基本的算术和逻辑运算。 算术逻辑单元(ALU) 这个是运算器中重要的一个组成,主要负责的就是对数据的处理,从而实现对数据的算术和

计算机组成入门知识

前言👀~ 数据库的知识点先暂且分享到这,接下来开始接触计算机组成以及计算机网络相关的知识点,这一章先介绍一些基础的计算机组成知识 一台计算机如何组成的? 存储器 CPU cpu的工作流程 主频 如何衡量CPU好坏呢? 指令 操作系统 操作系统功能 操作系统"内核"  如果各位对文章的内容感兴趣的话,请点点小赞,关注一手不迷路,如果内容有什么问题的话,欢迎各位

【Flink metric】Flink指标系统的系统性知识:以便我们实现特性化数据的指标监控与分析

文章目录 一. Registering metrics:向flink注册新自己的metrics1. 注册metrics2. Metric types:指标类型2.1. Counter2.2. Gauge2.3. Histogram(ing)4. Meter 二. Scope:指标作用域1. User Scope2. System Scope ing3. User Variables 三.

基础C语言知识串串香11☞宏定义与预处理、函数和函数库

​ 六、C语言宏定义与预处理、函数和函数库 6.1 编译工具链 源码.c ——> (预处理)——>预处理过的.i文件——>(编译)——>汇编文件.S——>(汇编)——>目标文件.o->(链接)——>elf可执行程序 预处理用预处理器,编译用编译器,汇编用汇编器,链接用链接器,这几个工具再加上其他一些额外的会用到的可用工具,合起来叫编译工具链(gcc就是一个编译工具链)。 gcc中各选项

什么是慢查询——Java全栈知识(26)

1、什么是慢查询 慢查询:也就是接口压测响应时间过长,页面加载时间过长的查询 原因可能如下: 1、聚合查询 2、多表查询 3、单表数据量过大 4、深度分页查询(limit) 如何定位慢查询? 1、Skywalking 我们可以通过 Skywalking 来看到是哪个请求的哪个查询的时间执行时间过长。 2、Mysql 自带的慢日志查询 慢查询日志记录了所有执行时间超过指定参数(long

JavaSE基础总结复习之面向对象の知识总结

目录 Java语言的基础特点 面向对象 类和对象 类 类的构造 一,发现类 二,发现类的共有属性(成员变量) 三,定义类的成员方法(行为,动词) 四,使用类创建对象 对象 什么是对象 如何创建对象 类和对象的关系 构造方法 特点 作用 对象与引用 值传递: 引用传递: 关键字 this关键字 static关键字 static--静态 static修饰

【java问答小知识19】一些Java基础的知识,用于想学习Java的小伙伴们建立一些简单的认知以及已经有经验的小伙伴的复习知识点

Java中的"java.util.concurrent.locks.StampedLock"的"tryConvertToReadLock()"方法如何工作? 回答:尝试将当前的写锁转换为读锁,并返回一个表示锁定状态的戳记。 Java中的"java.util.concurrent.locks.StampedLock"的"tryConvertToWriteLock()"方法有什么特点?

Redis预备知识

一.预备知识 1.基本全局命令 set key value 将key的值设置成value get key 得到key的值 keys [pattern] 查看匹配pattern的所有key 比如h?llo匹配hallo,hbllo,hcllo……只要用一个符号将?代替即可 比如h*llo匹配hllo,heeeello……用0个1个或多个字符将*代替即可 比如h[ae]l