Transformer从零详细解读

2024-09-08 00:12
文章标签 transformer 解读 详细

本文主要是介绍Transformer从零详细解读,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

Transformer从零详细解读

一、从全局角度概况Transformer

​ 我们把TRM想象为一个黑盒,我们的任务是一个翻译任务,那么我们的输入是中文的“我爱你”,输入经过TRM得到的结果为英文的“I LOVE YOU”

image-20240907204119837

​ 接下来我们对TRM进行细化,我们将TRM分为两个部分,分别为Encoders(编码器)和Decoders(解码器)
image-20240907204310979

​ 在此基础上我们再进一步细化TRM的结构:
image-20240907204516292

​ 这里不一定是6个encoder和6个decoder,但是每个encoder之间的结构都是相同的,但是参数上并不相同,在训练的时候并不是只训练一个encoders,而是每个encoders都在训练。
​ 我们再看一下TRM原论文中的结构图:
image-20240907204735178

​ N是自己确定的数字,encoders和decoders之间的结构很不相同。

二、位置编码详细解读

​ 我们将encoder部分提取出来看,我们将encoder分为以下三个部分:
image-20240907205013310

​ 我们先看输入部分,输入部分分为:

  1. Embedding

    image-20240907205220310

    ​ embedding的操作方法就是:假如现在输入12个字,每个字用一个512维度的向量表示,那么这12个字展开后就是一个12*512的二维矩阵。矩阵的每个位置有两种初始化方式,一种是随机初始化,另一种是wordtovector方式。

  2. 位置编码

    ​ 我们从RNN结构来引入位置编码:
    image-20240907205626997

    ​ 对于RNN的所有的timesteps都共享同一套参数(U,W,V),例如右图上的“我”,“爱”,“你”在展开以后,使用的都是同一套参数(U,W,V)。

    面试题:RNN的梯度消失和普通网络的梯度消失有什么区别?
    RNN的梯度是一个总的梯度和,它的梯度消失并不是变为0,而是总的梯度被近距离梯度主导,被远距离梯度忽略不计。

1.位置编码公式:

image-20240907210344429

​ 2i代表偶数,在偶数位置使用sin,在2i+1奇数的位置使用cos,就比如我爱你中的爱这个字,进行展开,其中的偶数位置使用sin表达式,奇数位置使用cos表达式。得到展开式以后:
image-20240907210608231

​ 我们把字向量他们原本位置上的值与他们的位置编码相加,得到一个最终的512的维度的向量,作为TRM的输入。

2.为什么位置编码是有用的

​ 我们看下图中的推导,正余弦位置函数,这个体现出的是一种绝对位置信息。
image-20240907210902528

​ 以“我 爱 你”为例,pos+k 代表“你”,pos代表“我”,k代表“爱”,也就是说,“我爱你”中的“你”,可以被“我”和“爱” 线性组合起来,这样的线性组合就意味着绝对的位置向量中蕴含了相对位置信息。但是这种相对位置信息会在注意力机制那里消失。

三、多头注意力机制

1.基本的注意力机制

​ 我们看下图:
image-20240907211541271

​ 我们在看一张图的时候,一张图像总有一些部分是我们特别关注的地方。我们想通过一种方式得到“婴儿在干嘛”这句话 与图像中的哪部分区域更加关注/相似,这就是注意力机制的一种形式。

​ 计算公式:
image-20240907211815247

​ 我们举一个例子,就拿上面的例子为例,我们通过计算来判断下“婴儿在干嘛”这句话与图片中的哪部分区域更加相似,看下图:

image-20240907212008937 我单抽出婴儿这个单词,我们将区域分为四个部分,我们将“婴儿”作为q向量,四个区域分别对应K向量,和他们各自的V向量。我们判断“婴儿”与四个区域点乘的结果哪个是最大的,最大就代表了最相似。

​ 我们再举一个词与词的例子:
image-20240907212352609

​ 我们的计算步骤如下图:
image-20240907213938735

在只有单词向量的情况下,如何获取QKV

image-20240907214210685

​ 简单来说就是x1与WQ得到q1,,,行列分别相乘。

2.计算QK相似度,得到attention值

image-20240907214449575

​ 为什么要除以根号dk,q与k相乘值很大,softmax在反向传播的时候值很小,梯度会消失。在实际代码使用矩阵,方便并行。

image-20240907214659540

3.多头注意力机制

​ 多头,相当于把原始数据打到了多个不同的空间,保证TRM捕获到不同空间中的多种信息。

image-20240907215013033

​ 最后,我们将多套QKV计算得到的 结果通过一次矩阵计算进行合并,这样就可以得到我们多头注意力的输出。

image-20240907215151412

四、残差详解

1.什么是残差网络

​ 残差的原则就是输出至少不比输入差!多进行一个加法操作。image-20240907215526751

​ 我们可以再看一个很经典的图:
image-20240907215647125

2.残差网络的数学推导

image-20240907215840835

五、Batch Normal详解

​ BN的效果差,所以不用。再nlp中,很少使用BN,大多使用LN。

1.什么是BN,以及使用场景

image-20240907220213021

​ 我们看下面一张图:
image-20240907220301380

​ 每一行代表一个特征,每个人的“体重,身高”等指标,每个人的第一个特征都是“体重”。x1,x2分别代表不同的人。

2.BN的优点

  1. 可以解决内部协变量偏移
  2. 缓解了梯度饱和问题(如果使用sigmoid激活函数的话),加快收敛

3.BN的缺点

  1. batch_size较小的时候,效果差,局部的方差并不能代表全局
  2. BN再RNN中效果差,我们看下面的例子:前9个句子只有5个向量,但是第10个句子的长度达到20个向量的,这样导致第6到20维无法做BN,从而导致BN在RNN的处理中效果差
    image-20240907220713990

六、Layer Normal详解

1.如何理解LN

​ 理解:为什么LayerNorm单独对一个样本的所有单词做缩放可以起到效果。

​ 我们如果把BN引申到RNN,下面这张图则表示“我”和“今”是同一层的语义信息,,,“爱“和”天“是一层语义信息里面。

image-20240907221036404

​ 而在LN中,我们认为这两段话每段话都是分别的一个语义信息。

2.前馈神经网络

image-20240907221259306

七、Decoder详解

image-20240907221431239

1.多头注意力机制

image-20240907221510988

2.为什么需要mask

image-20240907221541150

​ 如果我们没有mask去训练的时候,我们在训练you的时候,所有的单词都对you做出了贡献。这样会导致训练和预测是不对等的。
image-20240907221638396

​ 正确的做法是:
image-20240907221734234

3.交互层

​ 我们再来看一下交互层,在交互层我们需要注意的是encoder的输出需要和每一个decoder做交互。
image-20240907221920599

image-20240907221957464

image-20240907222101400

image-20240907222158754

这篇关于Transformer从零详细解读的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1146562

相关文章

MySql match against工具详细用法

《MySqlmatchagainst工具详细用法》在MySQL中,MATCH……AGAINST是全文索引(Full-Textindex)的查询语法,它允许你对文本进行高效的全文搜素,支持自然语言搜... 目录一、全文索引的基本概念二、创建全文索引三、自然语言搜索四、布尔搜索五、相关性排序六、全文索引的限制七

python中各种常见文件的读写操作与类型转换详细指南

《python中各种常见文件的读写操作与类型转换详细指南》这篇文章主要为大家详细介绍了python中各种常见文件(txt,xls,csv,sql,二进制文件)的读写操作与类型转换,感兴趣的小伙伴可以跟... 目录1.文件txt读写标准用法1.1写入文件1.2读取文件2. 二进制文件读取3. 大文件读取3.1

Linux内核参数配置与验证详细指南

《Linux内核参数配置与验证详细指南》在Linux系统运维和性能优化中,内核参数(sysctl)的配置至关重要,本文主要来聊聊如何配置与验证这些Linux内核参数,希望对大家有一定的帮助... 目录1. 引言2. 内核参数的作用3. 如何设置内核参数3.1 临时设置(重启失效)3.2 永久设置(重启仍生效

如何在Mac上安装并配置JDK环境变量详细步骤

《如何在Mac上安装并配置JDK环境变量详细步骤》:本文主要介绍如何在Mac上安装并配置JDK环境变量详细步骤,包括下载JDK、安装JDK、配置环境变量、验证JDK配置以及可选地设置PowerSh... 目录步骤 1:下载JDK步骤 2:安装JDK步骤 3:配置环境变量1. 编辑~/.zshrc(对于zsh

python3 gunicorn配置文件的用法解读

《python3gunicorn配置文件的用法解读》:本文主要介绍python3gunicorn配置文件的使用,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录python3 gunicorn配置文件配置文件服务启动、重启、关闭启动重启关闭总结python3 gun

Python Transformer 库安装配置及使用方法

《PythonTransformer库安装配置及使用方法》HuggingFaceTransformers是自然语言处理(NLP)领域最流行的开源库之一,支持基于Transformer架构的预训练模... 目录python 中的 Transformer 库及使用方法一、库的概述二、安装与配置三、基础使用:Pi

关于pandas的read_csv方法使用解读

《关于pandas的read_csv方法使用解读》:本文主要介绍关于pandas的read_csv方法使用,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录pandas的read_csv方法解读read_csv中的参数基本参数通用解析参数空值处理相关参数时间处理相关

使用Node.js制作图片上传服务的详细教程

《使用Node.js制作图片上传服务的详细教程》在现代Web应用开发中,图片上传是一项常见且重要的功能,借助Node.js强大的生态系统,我们可以轻松搭建高效的图片上传服务,本文将深入探讨如何使用No... 目录准备工作搭建 Express 服务器配置 multer 进行图片上传处理图片上传请求完整代码示例

C++ vector的常见用法超详细讲解

《C++vector的常见用法超详细讲解》:本文主要介绍C++vector的常见用法,包括C++中vector容器的定义、初始化方法、访问元素、常用函数及其时间复杂度,通过代码介绍的非常详细,... 目录1、vector的定义2、vector常用初始化方法1、使编程用花括号直接赋值2、使用圆括号赋值3、ve

python连接本地SQL server详细图文教程

《python连接本地SQLserver详细图文教程》在数据分析领域,经常需要从数据库中获取数据进行分析和处理,下面:本文主要介绍python连接本地SQLserver的相关资料,文中通过代码... 目录一.设置本地账号1.新建用户2.开启双重验证3,开启TCP/IP本地服务二js.python连接实例1.