深度学习知识点:循环神经网络(RNN)、长短期记忆网络(LSTM)、门控循环单元(GRU)

本文主要是介绍深度学习知识点:循环神经网络(RNN)、长短期记忆网络(LSTM)、门控循环单元(GRU),希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

深度学习知识点:循环神经网络(RNN)、长短期记忆网络(LSTM)、门控循环单元(GRU)

  • 前言
  • 循环神经网络(RNN)
    • RNNs(循环神经网络)训练和传统ANN(人工神经网络)训练异同点?
    • 为什么RNN 训练的时候Loss波动很大?
    • RNN中为什么会出现梯度消失?
    • 如何解决RNN中的梯度消失问题?
    • CNN VS RNN
    • Keras搭建RNN
  • 长短期记忆网络(LSTM)
    • LSTM结构推导,为什么比RNN好?
    • 为什么LSTM模型中既存在sigmoid又存在tanh两种激活函数,而不是选择统一一种sigmoid或者tanh?
    • LSTM中为什么经常是两层双向LSTM?
    • RNN扩展改进
      • Bidirectional RNNs
      • CNN-LSTMs
      • Bidirectional LSTMs
      • 门控循环单元(GRU)
    • LSTM、RNN、GRU区别?
    • LSTM是如何实现长短期记忆功能的?
    • LSTM的原理、写LSTM的公式、手推LSTM的梯度反向传播

前言

  • 本文是个人收集、整理、总结的一些人工智能知识点,由于本人水平有限,难免出现错漏,敬请批评改正。
  • 由于本文是对知识点的收集和整理,图片基本来源于网络,图片若侵权,可联系删除。
  • 更多精彩内容,可点击进入人工智能知识点专栏、Python日常小操作专栏、OpenCV-Python小应用专栏、YOLO系列专栏、自然语言处理专栏或我的个人主页查看
  • 基于DETR的人脸伪装检测
  • YOLOv7训练自己的数据集(口罩检测)
  • YOLOv8训练自己的数据集(足球检测)
  • YOLOv5:TensorRT加速YOLOv5模型推理
  • YOLOv5:IoU、GIoU、DIoU、CIoU、EIoU
  • 玩转Jetson Nano(五):TensorRT加速YOLOv5目标检测
  • YOLOv5:添加SE、CBAM、CoordAtt、ECA注意力机制
  • YOLOv5:yolov5s.yaml配置文件解读、增加小目标检测层
  • Python将COCO格式实例分割数据集转换为YOLO格式实例分割数据集
  • YOLOv5:使用7.0版本训练自己的实例分割模型(车辆、行人、路标、车道线等实例分割)
  • 使用Kaggle GPU资源免费体验Stable Diffusion开源项目

循环神经网络(RNN)

  • 核心思想:像人一样拥有记忆能力。用以往的记忆和当前的输入,生成输出。

  • RNN 和 传统神经网络 最大的区别:
    在于每次都会将前一次的输出结果,带到下一次的隐藏层中,一起训练。
    在这里插入图片描述

  • RNN应用场景:
    1.文本生成 2.语音识别 3.机器翻译 4.生成图像描述 5.视频标记
    在这里插入图片描述

  • 缺点:
    RNN 有短期记忆问题,无法处理很长的输入序列
    训练 RNN 需要投入极大的成本

  • RNN 是一种死板的逻辑,越晚的输入影响越大,越早的输入影响越小,且无法改变这个逻辑。

RNNs(循环神经网络)训练和传统ANN(人工神经网络)训练异同点?

相同点:都使用BP误差反向传播算法。
不同点:
RNNs网络参数W,U,V是共享的,而传统神经网络各层参数间没有直接联系。
对于RNNs,在使用梯度下降算法中,每一步的输出不仅依赖当前步的网络,还依赖于之前若干步的网络状态。

为什么RNN 训练的时候Loss波动很大?

​ 由于RNN特有的memory会影响后期其他的RNN的特点,梯度时大时小,学习率lr没法个性化的调整,导致RNN在train的过程中,Loss会震荡起伏,为了解决RNN的这个问题,在训练的时候,可以设置临界值,当梯度大于某个临界值,直接截断,用这个临界值作为梯度的大小,防止大幅震荡。

RNN中为什么会出现梯度消失?

梯度消失现象:累乘会导致激活函数导数的累乘,如果取tanh或sigmoid函数作为激活函数的话,那么必然是一堆小数在做乘法,结果就是越乘越小。随着时间序列的不断深入,小数的累乘就会导致梯度越来越小直到接近于0,这就是“梯度消失“现象。
实际使用中,会优先选择tanh函数,原因是tanh函数相对于sigmoid函数来说梯度较大,收敛速度更快且引起梯度消失更慢。

如何解决RNN中的梯度消失问题?

1.选取更好的激活函数,如Relu激活函数。ReLU函数的左侧导数为0,右侧导数恒为1,这就避免了“梯度消失“的发生。但恒为1的导数容易导致“梯度爆炸“,但设定合适的阈值可以解决这个问题。
2.加入BN层,其优点:加速收敛.控制过拟合,可以少用或不用Dropout和正则。降低网络对初始化权重不敏感,且能允许使用较大的学习率等。
3.改变传播结构,LSTM结构可以有效解决这个问题。

CNN VS RNN

在这里插入图片描述

不同点
1.CNN空间扩展,神经元与特征卷积;RNN时间扩展,神经元与多个时间输出计算
2.RNN可以用于描述时间上连续状态的输出,有记忆功能,CNN用于静态输出。

Keras搭建RNN

在这里插入图片描述

长短期记忆网络(LSTM)

  • 长短期记忆网络(Long Short-Term Memory)是一种时间循环神经网络,是为了解决一般的RNN存在的长期依赖问题而专门设计出来的,所有的RNN都具有一种重复神经网络模块的链式形式。

  • 三个门(遗忘门,输入门,输出门),两个状态(Ct,ht)
    在这里插入图片描述

    • 遗忘门
      ​ 作用对象:细胞状态 。
      ​ 作用:将细胞状态中的信息选择性的遗忘。
      Ft和Ct-1做点积操作,Ft确保Ct-1有哪些东西需要被遗忘掉
      在这里插入图片描述

    • 输入层门
      作用对象:细胞状态
      ​ 作用:将新的信息选择性的记录到细胞状态中。
      ​ 操作步骤:
      ​ 步骤一:sigmoid 层称 “输入门层” 决定什么值我们将要更新
      ​ 步骤二,tanh 层创建一个新的候选值向量加入到状态中
      在这里插入图片描述

    • 输出层门
      ​ 作用对象:隐层ht 作用:确定输出什么值。
      ​ 操作步骤:
      ​ 步骤一:通过sigmoid 层来确定细胞状态的哪个部分将输出。
      ​ 步骤二:把细胞状态通过 tanh 进行处理,并将它和 sigmoid 门的输出相乘,最终我们仅仅会输出我们确定输出的那部分。
      在这里插入图片描述

LSTM结构推导,为什么比RNN好?

推导forget gate,input gate,cell state, hidden information等的变化;因为LSTM有进有出且当前的cell information是通过input gate控制之后叠加的,RNN是叠乘,因此LSTM可以防止梯度消失或者爆炸。

为什么LSTM模型中既存在sigmoid又存在tanh两种激活函数,而不是选择统一一种sigmoid或者tanh?

sigmoid用在了各种gate上,产生0~1之间的值,一般只有sigmoid最直接了;
tanh用在了状态和输出上,是对数据的处理,这个用其他激活函数或许也可以。

LSTM中为什么经常是两层双向LSTM?

有些时候预测需要由前面若干输入和后面若干输入共同决定,这样会更加准确。

RNN扩展改进

Bidirectional RNNs

​ 将两层RNNs叠加在一起,当前时刻输出(第t步的输出)不仅仅与之前序列有关,还与之后序列有关。例如:为了预测一个语句中的缺失词语,就需要该词汇的上下文信息。Bidirectional RNNs是一个相对较简单的RNNs,是由两个RNNs上下叠加在一起组成的。输出由前向RNNs和后向RNNs共同决定。
在这里插入图片描述

CNN-LSTMs

该模型中,CNN用于提取对象特征,LSTMs用于预测。CNN由于卷积特性,其能够快速而且准确地捕捉对象特征。LSTMs的优点:能够捕捉数据间的长时依赖性。
在这里插入图片描述

Bidirectional LSTMs

有两层LSTMs。 一层处理过去的训练信息,另一层处理将来的训练信息。
通过前向LSTMs获得前向隐藏状态,后向LSTMs获得后向隐藏状态,当前隐藏状态是前向隐藏状态与后向隐藏状态的组合。
在这里插入图片描述

门控循环单元(GRU)

(14年提出)是一般的RNNs的变型版本,其主要是从以下两个方面进行改进。
1.以语句为例,序列中不同单词处的数据对当前隐藏层状态的影响不同,越前面的影响越小,即每个之前状态对当前的影响进行了距离加权,距离越远,权值越小。
2.在产生误差error时,其可能是由之前某一个或者几个单词共同造成,所以应当对对应的单词weight进行更新。GRUs的结构如下图所示。GRUs首先根据当前输入单词向量word vector以及前一个隐藏层状态hidden state计算出update gate和reset gate。再根据reset gate、当前word vector以及前一个hidden state计算新的记忆单元内容(new memory content)。当reset gate为1的时候,new memory content忽略之前所有memory content,最终的memory是由之前的hidden state与new memory content一起决定。
在这里插入图片描述
GRU(门控循环单元)也是一种循环神经网络(RNN)的变体,用于处理序列数据。与LSTM相比,GRU的结构相对简单,但它仍然能够有效地捕获序列数据中的长期依赖关系。

GRU的结构由两部分组成:更新门和重置门。更新门用于控制上一时刻隐藏状态对当前时刻隐藏状态的贡献程度,而重置门用于控制当前输入对当前时刻隐藏状态的更新程度。

在GRU中,更新门的作用类似于LSTM中的遗忘门和输入门,它决定了上一时刻隐藏状态对当前时刻隐藏状态的影响程度。重置门则控制着当前输入对当前时刻隐藏状态的更新程度。

GRU的公式如下:

  1. 更新门: z t = σ ( W z ∗ [ h t − 1 , x t ] + b z ) z_t = σ(W_z * [h_{t-1}, x_t] + b_z) zt=σ(Wz[ht1,xt]+bz)
  2. 重置门: r t = σ ( W r ∗ [ h t − 1 , x t ] + b r ) r_t = σ(W_r * [h_{t-1}, x_t] + b_r) rt=σ(Wr[ht1,xt]+br)
  3. 候选隐藏状态: h t ′ = t a n h ( W ∗ [ r t ∗ h t − 1 , x t ] + b ) h'_t = tanh(W * [r_t * h_{t-1}, x_t] + b) ht=tanh(W[rtht1,xt]+b)
  4. 最终隐藏状态: h t = ( 1 − z t ) ∗ h t − 1 + z t ∗ h t ′ h_t = (1 - z_t) * h_{t-1} + z_t * h'_t ht=(1zt)ht1+ztht

其中, W z 、 W r W_z、W_r WzWr是权重矩阵, b z 、 b r b_z、b_r bzbr是偏置项, σ σ σ是sigmoid激活函数, t a n h tanh tanh是双曲正切激活函数。

与LSTM类似,在训练过程中,我们需要计算损失函数(loss function)的值,然后通过反向传播算法(backpropagation)来更新权重和偏置项。GRU的梯度反向传播过程也涉及复杂的计算和动态规划技巧。

需要注意的是,虽然GRU相对于LSTM在结构上更为简单,但在某些任务上可能表现不如LSTM。因此,在实际应用中,选择LSTM或GRU应该根据具体任务和数据的特点来进行决策。

LSTM、RNN、GRU区别?

在这里插入图片描述

与LSTM相比,GRU内部少了一个”门控“,参数比LSTM少,但是却也能够达到与LSTM相当的功能。考虑到硬件的计算能力和时间成本,因而很多时候我们也就会选择更加实用的GRU。

LSTM是如何实现长短期记忆功能的?

LSTM(长短期记忆网络)通过引入门控机制来实现长期记忆功能。这些门控机制允许LSTM有选择地遗忘、更新和输出信息,从而有效地管理信息的流动。

具体来说,LSTM包含三个门控:遗忘门、输入门和输出门。遗忘门控制着输入x和上一层隐藏层输出h被遗忘的程度大小,即决定是否保留之前的信息。当输入的序列中没有重要的信息时,LSTM的遗忘门的数值接近于1,更新门的数据接近于0,此时过去的记忆会被保存,从而实现了长期的记忆功能。当输入的序列中出现了重要的信息时,LSTM应该把其存入记忆时,此时更新门的数值将接近于1。

输入门控制着输入x和当前计算的状态更新到记忆单元的程度大小。它由输入门(input gate)与tanh神经网络层和一个按位乘操作构成。记忆门决定了当前时刻的记忆状态有多少来自于之前的记忆。

输出门控制着输入x和当前输出取决于当前记忆单元的程度大小。输出门(output gate)与函数以及按位乘操作共同作用将细胞状态和输入信号传递到输出端。

总之,LSTM通过精心设计的门控机制来实现长期记忆功能,使得模型能够更好地捕捉序列数据中的长期依赖关系。

LSTM的原理、写LSTM的公式、手推LSTM的梯度反向传播

LSTM是一种特殊的循环神经网络(RNN),用于处理具有长期依赖关系的序列数据。它的核心思想是通过引入门控机制来控制信息的流动,从而避免长期依赖问题。LSTM的结构由细胞状态和输出向量两部分组成,通过遗忘门、输入门和输出门来控制信息的传递。

LSTM的公式如下:

  1. 遗忘门: f t = σ ( W f ∗ [ h t − 1 , x t ] + b f ) f_t = σ(W_f * [h_{t-1}, x_t] + b_f) ft=σ(Wf[ht1,xt]+bf)
  2. 输入门: i t = σ ( W i ∗ [ h t − 1 , x t ] + b i ) i_t = σ(W_i * [h_{t-1}, x_t] + b_i) it=σ(Wi[ht1,xt]+bi)
  3. 更新单元: c t = f t ∗ c t − 1 + i t ∗ t a n h ( W c ∗ [ h t − 1 , x t ] + b c ) c_t = f_t * c_{t-1} + i_t * tanh(W_c * [h_{t-1}, x_t] + b_c) ct=ftct1+ittanh(Wc[ht1,xt]+bc)
  4. 输出门: o t = σ ( W o ∗ [ h t − 1 , x t ] + b o ) o_t = σ(W_o * [h_{t-1}, x_t] + b_o) ot=σ(Wo[ht1,xt]+bo)
  5. 隐藏状态: h t = o t ∗ t a n h ( c t ) h_t = o_t * tanh(c_t) ht=ottanh(ct)

其中, W f 、 W i 、 W c W_f、W_i、W_c WfWiWc W o W_o Wo是权重矩阵, b f 、 b i 、 b c b_f、b_i、b_c bfbibc b o b_o bo是偏置项, σ σ σ是sigmoid激活函数, t a n h tanh tanh是双曲正切激活函数。

在训练过程中,我们需要计算损失函数(loss function)的值,然后通过反向传播算法(backpropagation)来更新权重和偏置项。LSTM的梯度反向传播过程如下:

  1. 根据当前输入x和前一时刻的隐藏状态 h t − 1 h_{t-1} ht1,计算当前时刻的各个门控值和隐藏状态 h t h_t ht
  2. 根据损失函数和隐藏状态 h t h_t ht,计算损失对权重和偏置项的梯度。
  3. 使用梯度下降或其他优化算法来更新权重和偏置项。
  4. 重复步骤1-3,直到达到收敛或指定的训练轮数。

需要注意的是,LSTM的梯度反向传播过程可能会涉及到复杂的计算和动态规划技巧,因为每个时间步的梯度都依赖于前面时间步的计算结果。在实际应用中,可以使用成熟的深度学习框架(如TensorFlow或PyTorch)来实现LSTM的训练和推断过程。

  • 由于本人水平有限,难免出现错漏,敬请批评改正。
  • 更多精彩内容,可点击进入人工智能知识点专栏、Python日常小操作专栏、OpenCV-Python小应用专栏、YOLO系列专栏、自然语言处理专栏或我的个人主页查看
  • 基于DETR的人脸伪装检测
  • YOLOv7训练自己的数据集(口罩检测)
  • YOLOv8训练自己的数据集(足球检测)
  • YOLOv5:TensorRT加速YOLOv5模型推理
  • YOLOv5:IoU、GIoU、DIoU、CIoU、EIoU
  • 玩转Jetson Nano(五):TensorRT加速YOLOv5目标检测
  • YOLOv5:添加SE、CBAM、CoordAtt、ECA注意力机制
  • YOLOv5:yolov5s.yaml配置文件解读、增加小目标检测层
  • Python将COCO格式实例分割数据集转换为YOLO格式实例分割数据集
  • YOLOv5:使用7.0版本训练自己的实例分割模型(车辆、行人、路标、车道线等实例分割)
  • 使用Kaggle GPU资源免费体验Stable Diffusion开源项目

这篇关于深度学习知识点:循环神经网络(RNN)、长短期记忆网络(LSTM)、门控循环单元(GRU)的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/918719

相关文章

如何通过海康威视设备网络SDK进行Java二次开发摄像头车牌识别详解

《如何通过海康威视设备网络SDK进行Java二次开发摄像头车牌识别详解》:本文主要介绍如何通过海康威视设备网络SDK进行Java二次开发摄像头车牌识别的相关资料,描述了如何使用海康威视设备网络SD... 目录前言开发流程问题和解决方案dll库加载不到的问题老旧版本sdk不兼容的问题关键实现流程总结前言作为

Python中顺序结构和循环结构示例代码

《Python中顺序结构和循环结构示例代码》:本文主要介绍Python中的条件语句和循环语句,条件语句用于根据条件执行不同的代码块,循环语句用于重复执行一段代码,文章还详细说明了range函数的使... 目录一、条件语句(1)条件语句的定义(2)条件语句的语法(a)单分支 if(b)双分支 if-else(

Java深度学习库DJL实现Python的NumPy方式

《Java深度学习库DJL实现Python的NumPy方式》本文介绍了DJL库的背景和基本功能,包括NDArray的创建、数学运算、数据获取和设置等,同时,还展示了如何使用NDArray进行数据预处理... 目录1 NDArray 的背景介绍1.1 架构2 JavaDJL使用2.1 安装DJL2.2 基本操

最长公共子序列问题的深度分析与Java实现方式

《最长公共子序列问题的深度分析与Java实现方式》本文详细介绍了最长公共子序列(LCS)问题,包括其概念、暴力解法、动态规划解法,并提供了Java代码实现,暴力解法虽然简单,但在大数据处理中效率较低,... 目录最长公共子序列问题概述问题理解与示例分析暴力解法思路与示例代码动态规划解法DP 表的构建与意义动

Python判断for循环最后一次的6种方法

《Python判断for循环最后一次的6种方法》在Python中,通常我们不会直接判断for循环是否正在执行最后一次迭代,因为Python的for循环是基于可迭代对象的,它不知道也不关心迭代的内部状态... 目录1.使用enuhttp://www.chinasem.cnmerate()和len()来判断for

Java循环创建对象内存溢出的解决方法

《Java循环创建对象内存溢出的解决方法》在Java中,如果在循环中不当地创建大量对象而不及时释放内存,很容易导致内存溢出(OutOfMemoryError),所以本文给大家介绍了Java循环创建对象... 目录问题1. 解决方案2. 示例代码2.1 原始版本(可能导致内存溢出)2.2 修改后的版本问题在

Go中sync.Once源码的深度讲解

《Go中sync.Once源码的深度讲解》sync.Once是Go语言标准库中的一个同步原语,用于确保某个操作只执行一次,本文将从源码出发为大家详细介绍一下sync.Once的具体使用,x希望对大家有... 目录概念简单示例源码解读总结概念sync.Once是Go语言标准库中的一个同步原语,用于确保某个操

五大特性引领创新! 深度操作系统 deepin 25 Preview预览版发布

《五大特性引领创新!深度操作系统deepin25Preview预览版发布》今日,深度操作系统正式推出deepin25Preview版本,该版本集成了五大核心特性:磐石系统、全新DDE、Tr... 深度操作系统今日发布了 deepin 25 Preview,新版本囊括五大特性:磐石系统、全新 DDE、Tree

SSID究竟是什么? WiFi网络名称及工作方式解析

《SSID究竟是什么?WiFi网络名称及工作方式解析》SID可以看作是无线网络的名称,类似于有线网络中的网络名称或者路由器的名称,在无线网络中,设备通过SSID来识别和连接到特定的无线网络... 当提到 Wi-Fi 网络时,就避不开「SSID」这个术语。简单来说,SSID 就是 Wi-Fi 网络的名称。比如

Java实现任务管理器性能网络监控数据的方法详解

《Java实现任务管理器性能网络监控数据的方法详解》在现代操作系统中,任务管理器是一个非常重要的工具,用于监控和管理计算机的运行状态,包括CPU使用率、内存占用等,对于开发者和系统管理员来说,了解这些... 目录引言一、背景知识二、准备工作1. Maven依赖2. Gradle依赖三、代码实现四、代码详解五