DataWhale AI夏令营-《李宏毅深度学习教程》笔记-task3

2024-09-03 22:04

本文主要是介绍DataWhale AI夏令营-《李宏毅深度学习教程》笔记-task3,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

DataWhale AI夏令营-《李宏毅深度学习教程》笔记-task2

  • 第五章 循环神经网络
    • 5.1 独热编码
    • 5.2 RNN架构
    • 5.3 其他RNN
      • 5.3.1 Elman 网络 &Jordan 网络
      • 5.3.2 双向循环神经网络

第五章 循环神经网络

循环神经网络RNN,RNN在处理序列数据和时间依赖性强的问题上具有独特的优势,尤其是在自然语言处理和时间序列预测领域。
由图可知RNN的输入来自于上一层的输出结果和当前层的输入,所以RNN常被用来预测金融市场、气象等领域,通过分析过去的数据序列预测未来的趋势。
在这里插入图片描述
但是这种RNN的结果有很大的缺陷就是,当进行长序列预测时,RNN可能会由于序列较长遗忘了之前某些重要信息,导致预测精度下降。

为了解决RNN长序列遗忘问题,长短记忆网络LSTM被开发出来,通过引入三个“门”机制来管理记忆的存储、更新和删除,这使得它能够更有效地捕捉长期依赖关系。这三个门分别是输入门、遗忘门和输出门,如下图,it作为输入门;ft作为遗忘门;ot作输出门。
在这里插入图片描述
除了LSTM之外,Transformer架构也很好解决了RNN所面临的长期依赖和计算效率问题,并且Transformer架构目前也被广泛的应用于大模型领域,也取得了很好的效果。
Transformer架构的核心包括以下三个方面:

  1. 自注意力机制(Self-Attention): 自注意力机制是 Transformer的核心。它通过计算输入序列中每个元素与其他所有元素之间的相似性(注意力权重),并根据这些权重加权和更新每个元素的表示。这样,模型能够捕捉到序列中元素之间的依赖关系,而不受元素位置的限制。
  2. 位置编码(Positional Encoding): 由于 Transformer模型不依赖序列顺序,它需要一种方法来表示输入序列中元素的位置。位置编码是一种向量,它被添加到输入的嵌入向量中,用来保留序列的位置信息。
  3. 多头注意力机制(Multi-Head Attention):多头注意力机制通过将自注意力机制应用于多个不同的“头”,从不同的子空间中学习信息。这样可以捕捉到更多样化的依赖关系,并提高模型的表达能力。
    在这里插入图片描述

5.1 独热编码

回归本书正题,独热编码(one-hot)编码,常被用在自然语言处理领域多标签多分类等任务中。编码形式如图所示,即对应维度标签为1,其余为0。
在这里插入图片描述

5.2 RNN架构

其实前面提到过了RNN架构,书中给出的例子如下图,其实也就是之前提到过的每一层的输出不知取决于当前层的输入还有上一层的输出有关,书中给出的解释是,上一层的输出结果会储存在记忆层中,这时候当前隐藏层预测结果会同时考虑当前的输入与记忆层的内容。
请添加图片描述

5.3 其他RNN

5.3.1 Elman 网络 &Jordan 网络

Jordan 网络,Jordan 网络存的是整个网络输出的值,它把输出值在下一个时间点在读进来,把输出存到记忆元里。Elman网络没有目标,很难控制说它能学到什么隐藏层信息(学到什么放到记忆元里),但是Jordan网络是有目标,比较很清楚记忆元存储的东西。
请添加图片描述

5.3.2 双向循环神经网络

循环神经网络还可以是双向,即双向循环神经网络(Bidirectional Recurrent Neural Network,Bi-RNN)。如图,假设句子里的每一个单词用 xt 表示,其是先读 xt,再读 xt+1、xt+2。但其读取方向也可以是反过来的,它可以先读xt+2,再读xt+1、xt。我们可以同时训练一个正向的循环神经网络,又可以训练一个逆向的循环神经网络,然后把这两个循环神经网络的隐藏层拿出来,都接给一个输出层得到最后的yt。所以把正向的网络在输入xt 的时候跟逆向的网络在输入 xt 时,都丢到输出层产生 yt,产生 yt+1,yt+2,以此类推。
双向循环神经网络的好处是,神经元产生输出的时候,它看的范围是比较广的。
请添加图片描述

这篇关于DataWhale AI夏令营-《李宏毅深度学习教程》笔记-task3的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1134171

相关文章

Spring AI集成DeepSeek的详细步骤

《SpringAI集成DeepSeek的详细步骤》DeepSeek作为一款卓越的国产AI模型,越来越多的公司考虑在自己的应用中集成,对于Java应用来说,我们可以借助SpringAI集成DeepSe... 目录DeepSeek 介绍Spring AI 是什么?1、环境准备2、构建项目2.1、pom依赖2.2

Ubuntu固定虚拟机ip地址的方法教程

《Ubuntu固定虚拟机ip地址的方法教程》本文详细介绍了如何在Ubuntu虚拟机中固定IP地址,包括检查和编辑`/etc/apt/sources.list`文件、更新网络配置文件以及使用Networ... 1、由于虚拟机网络是桥接,所以ip地址会不停地变化,接下来我们就讲述ip如何固定 2、如果apt安

PyCharm 接入 DeepSeek最新完整教程

《PyCharm接入DeepSeek最新完整教程》文章介绍了DeepSeek-V3模型的性能提升以及如何在PyCharm中接入和使用DeepSeek进行代码开发,本文通过图文并茂的形式给大家介绍的... 目录DeepSeek-V3效果演示创建API Key在PyCharm中下载Continue插件配置Con

Deepseek R1模型本地化部署+API接口调用详细教程(释放AI生产力)

《DeepseekR1模型本地化部署+API接口调用详细教程(释放AI生产力)》本文介绍了本地部署DeepSeekR1模型和通过API调用将其集成到VSCode中的过程,作者详细步骤展示了如何下载和... 目录前言一、deepseek R1模型与chatGPT o1系列模型对比二、本地部署步骤1.安装oll

Java深度学习库DJL实现Python的NumPy方式

《Java深度学习库DJL实现Python的NumPy方式》本文介绍了DJL库的背景和基本功能,包括NDArray的创建、数学运算、数据获取和设置等,同时,还展示了如何使用NDArray进行数据预处理... 目录1 NDArray 的背景介绍1.1 架构2 JavaDJL使用2.1 安装DJL2.2 基本操

最长公共子序列问题的深度分析与Java实现方式

《最长公共子序列问题的深度分析与Java实现方式》本文详细介绍了最长公共子序列(LCS)问题,包括其概念、暴力解法、动态规划解法,并提供了Java代码实现,暴力解法虽然简单,但在大数据处理中效率较低,... 目录最长公共子序列问题概述问题理解与示例分析暴力解法思路与示例代码动态规划解法DP 表的构建与意义动

在不同系统间迁移Python程序的方法与教程

《在不同系统间迁移Python程序的方法与教程》本文介绍了几种将Windows上编写的Python程序迁移到Linux服务器上的方法,包括使用虚拟环境和依赖冻结、容器化技术(如Docker)、使用An... 目录使用虚拟环境和依赖冻结1. 创建虚拟环境2. 冻结依赖使用容器化技术(如 docker)1. 创

Spring AI Alibaba接入大模型时的依赖问题小结

《SpringAIAlibaba接入大模型时的依赖问题小结》文章介绍了如何在pom.xml文件中配置SpringAIAlibaba依赖,并提供了一个示例pom.xml文件,同时,建议将Maven仓... 目录(一)pom.XML文件:(二)application.yml配置文件(一)pom.xml文件:首

Spring Boot整合log4j2日志配置的详细教程

《SpringBoot整合log4j2日志配置的详细教程》:本文主要介绍SpringBoot项目中整合Log4j2日志框架的步骤和配置,包括常用日志框架的比较、配置参数介绍、Log4j2配置详解... 目录前言一、常用日志框架二、配置参数介绍1. 日志级别2. 输出形式3. 日志格式3.1 PatternL

MySQL8.2.0安装教程分享

《MySQL8.2.0安装教程分享》这篇文章详细介绍了如何在Windows系统上安装MySQL数据库软件,包括下载、安装、配置和设置环境变量的步骤... 目录mysql的安装图文1.python访问网址2javascript.点击3.进入Downloads向下滑动4.选择Community Server5.