Transformer的前世今生 day09（Transformer的框架概述）

2024-03-27 23:28

文章标签 概述 transformer 框架 day09 今生前世

本文主要是介绍Transformer的前世今生 day09（Transformer的框架概述），希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

前情提要

编码器-解码器结构

如果将一个模型分为两块：编码器和解码器
那么编码器-解码器结构为：编码器负责处理输入，解码器负责生成输出
流程：我们先将输入送入编码器层，得到一个中间状态state，并送入解码器层，和额外的输入一同处理后，得到模型的输出
CNN就可以重新表示为下图
RNN也可以表示为下图：

Seq2seq

序列到序列的模型：从一个句子生成到另一个句子
模型分为编码器、解码器两部分，其中，编码器可以是一个RNN，用来读取输入句子，解码器使用另外一个RNN来输出生成的句子
注意：由于在输入时，我们知道全部的输入句子，所以可以用两个RNN做双向，但是解码器是生成模型，不能看到完整的句子，所以不能做双向
注意：在编码器层，通过开始<bos>、结束<eos>来控制编码器的输出
编码器层的输出是不会作为模型的输出，相反它最后一层的输出作为编码器层输入的一部分，和编码器层额外的输入合并，整体作为编码器层的输入，即编码器层的最后隐藏状态，作为解码器的初始隐藏状态，如下：

Transformer的框架概述

NLP中预训练的目的：为了生成词向量
Transformer采用了seq2seq（序列到序列）的模型，整体框架如下：
- seq2seq的模型基本都分为编码器层和解码器层，即从编码器到解码器的结构

使用机器翻译的场景来解释

在机器翻译的场景中：
- 编码器层：把输入变成一个词向量
- 解码器层：得到编码器层输出的词向量后，生成翻译的结果
同时，N * 的意思是：编码器层里面又有N个小编码器（默认N=6），一个编码器可以看作Self-Attention，而Self-Attention会对词向量做增强，经过6个编码器，那就是增强了6次
编码器层最后的输出会分别给6个解码器
因此，Transformer的关键就在于编码器和解码器，如下：

这篇关于Transformer的前世今生 day09（Transformer的框架概述）的文章就介绍到这儿，希望我们推荐的文章对编程师们有所帮助！

http://www.chinasem.cn/article/853751。 23002807@qq.com

相关文章

Python Dash框架在数据可视化仪表板中的应用与实践记录

Python Dash框架在数据可视化仪表板中的应用与实践记录

《PythonDash框架在数据可视化仪表板中的应用与实践记录》Python的PlotlyDash库提供了一种简便且强大的方式来构建和展示互动式数据仪表板,本篇文章将深入探讨如何使用Dash设计一... 目录python Dash框架在数据可视化仪表板中的应用与实践1. 什么是Plotly Dash？1.1

阅读更多...

基于Flask框架添加多个AI模型的API并进行交互

基于Flask框架添加多个AI模型的API并进行交互

《基于Flask框架添加多个AI模型的API并进行交互》：本文主要介绍如何基于Flask框架开发AI模型API管理系统,允许用户添加、删除不同AI模型的API密钥,感兴趣的可以了解下... 目录1. 概述2. 后端代码说明2.1 依赖库导入2.2 应用初始化2.3 API 存储字典2.4 路由函数2.5 应

阅读更多...

Python GUI框架中的PyQt详解

Python GUI框架中的PyQt详解

《PythonGUI框架中的PyQt详解》PyQt是Python语言中最强大且广泛应用的GUI框架之一,基于Qt库的Python绑定实现,本文将深入解析PyQt的核心模块,并通过代码示例展示其应用场... 目录一、PyQt核心模块概览二、核心模块详解与示例1. QtCore - 核心基础模块2. QtWid

阅读更多...

最新Spring Security实战教程之Spring Security安全框架指南

最新Spring Security实战教程之Spring Security安全框架指南

《最新SpringSecurity实战教程之SpringSecurity安全框架指南》SpringSecurity是Spring生态系统中的核心组件,提供认证、授权和防护机制,以保护应用免受各种安... 目录前言什么是Spring Security？同类框架对比Spring Security典型应用场景传统

阅读更多...

Python结合Flask框架构建一个简易的远程控制系统

Python结合Flask框架构建一个简易的远程控制系统

《Python结合Flask框架构建一个简易的远程控制系统》这篇文章主要为大家详细介绍了如何使用Python与Flask框架构建一个简易的远程控制系统,能够远程执行操作命令（如关机、重启、锁屏等）,还... 目录1.概述2.功能使用系统命令执行实时屏幕监控3. BUG修复过程1. Authorization

阅读更多...

SpringBoot集成图片验证码框架easy-captcha的详细过程

SpringBoot集成图片验证码框架easy-captcha的详细过程

《SpringBoot集成图片验证码框架easy-captcha的详细过程》本文介绍了如何将Easy-Captcha框架集成到SpringBoot项目中,实现图片验证码功能,Easy-Captcha是... 目录SpringBoot集成图片验证码框架easy-captcha一、引言二、依赖三、代码1. Ea

阅读更多...

Gin框架中的GET和POST表单处理的实现

Gin框架中的GET和POST表单处理的实现

《Gin框架中的GET和POST表单处理的实现》Gin框架提供了简单而强大的机制来处理GET和POST表单提交的数据,通过c.Query、c.PostForm、c.Bind和c.Request.For... 目录一、GET表单处理二、POST表单处理1. 使用c.PostForm获取表单字段：2. 绑定到结

阅读更多...

关于最长递增子序列问题概述

关于最长递增子序列问题概述

《关于最长递增子序列问题概述》本文详细介绍了最长递增子序列问题的定义及两种优化解法：贪心+二分查找和动态规划+状态压缩,贪心+二分查找时间复杂度为O(nlogn),通过维护一个有序的“尾巴”数组来高效... 一、最长递增子序列问题概述1. 问题定义给定一个整数序列，例如 nums = [10, 9, 2

阅读更多...

修改若依框架Token的过期时间问题

修改若依框架Token的过期时间问题

《修改若依框架Token的过期时间问题》本文介绍了如何修改若依框架中Token的过期时间,通过修改`application.yml`文件中的配置来实现,默认单位为分钟,希望此经验对大家有所帮助,也欢迎... 目录修改若依框架Token的过期时间修改Token的过期时间关闭Token的过期时js间总结修改若依

阅读更多...

MyBatis框架实现一个简单的数据查询操作

MyBatis框架实现一个简单的数据查询操作

《MyBatis框架实现一个简单的数据查询操作》本文介绍了MyBatis框架下进行数据查询操作的详细步骤,括创建实体类、编写SQL标签、配置Mapper、开启驼峰命名映射以及执行SQL语句等,感兴趣的... 基于在前面几章我们已经学习了对MyBATis进行环境配置，并利用SqlSessionFactory核

阅读更多...