这样图解Transformer应该没人看不懂了吧!

2024-08-20 22:36

本文主要是介绍这样图解Transformer应该没人看不懂了吧!,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

近年来,Transformer模型 引起了广泛关注,它在近几年的 自然语言处理(NLP) 领域掀起了一场风暴。Transformer是一种利用注意力机制(Attention)显著提升深度学习NLP翻译模型性能的架构。

它最初在**《Attention is All You Need》**这篇论文中被提出,并迅速确立为大多数文本数据应用中的主流架构。

自那之后,包括谷歌的 BERT和OpenAI的GPT 系列在内的众多项目都在此基础上进行了拓展,并发布了远远超越现有最先进基准的性能结果。

本文内容:Transformer的应用场景、为何优于RNN、架构组件以及训练和推理过程中的行为表现。

什么是Transformer

Transformer架构在处理本质上具有序列特性的文本数据方面表现出色。

它以一个文本序列作为输入,并产生另一个文本序列作为输出,例如将输入的英文句子翻译成西班牙语。

其核心由多层编码器(Encoder)和解码器(Decoder)堆叠而成。

为避免混淆,我们将单个层称为编码器或解码器,而将一组编码器层称为编码器栈(Encoder Stack),一组解码器层称为解码器栈(Decoder Stack)。

编码器栈和解码器栈各自为其输入配备了相应的嵌入层(Embedding Layer)。

最后,有一个输出层来生成最终输出。

所有编码器之间是完全相同的,同样,所有解码器之间也是如此。

  • 编码器包含至关重要的自注意力层(Self-Attention Layer),用于计算序列中不同单词之间的关系,以及一个前馈层(Feed-Forward Layer)。

  • 解码器则包含自注意力层、前馈层,以及一个额外的编码器-解码器注意力层(Encoder-Decoder Attention Layer)。

  • 每个编码器和解码器都有自己的一套权重。

编码器是一个可复用的模块,是所有Transformer架构的标志性组件。

除了上述两层外,它还在两层周围配备了残差跳跃连接(Residual Skip Connections)和两个层归一化层(LayerNorm Layers)。

Transformer架构存在多种变体,其中一些完全不需要解码器,仅依赖编码器工作。

注意力机制的作用是什么?

Transformer之所以取得突破性表现,关键在于其使用的注意力机制。

在处理一个单词时,注意力机制使模型能够聚焦于输入中与该单词紧密相关的其他单词。

例如,“球”(Ball)与“蓝色”(blue)和“拿着”(holding)紧密相关,但“蓝色”(blue)与“男孩”(boy)则不相关。

Transformer架构通过让每个输入序列中的单词与序列中的其他所有单词建立关系,从而实现自注意力机制。

可以看下面两个句子:

  • 猫喝了牛奶因为它饿了。

  • 猫喝了牛奶因为它很甜。

在第一个句子中,“它”指的是“猫”,而在第二个句子中则指的是“牛奶”。

当模型处理单词“它”时,自注意力机制为模型提供更多关于其意义的信息,以便将“它”与正确的单词相关联。

为了使Transformer能够更细致地处理句子的意图和语义,它为每个单词计算多个注意力得分。

例如,在处理单词“它”时,第一个得分突出显示“猫”,而第二个得分则突出显示“饿了”。

因此,在将“它”翻译成另一种语言时,模型会将“猫”和“饿了”的某些方面融入到翻译后的单词中。

训练Transformer

Transformer在训练和推理过程中的工作方式略有不同。

首先,我们来看训练过程中的数据流。训练数据由两部分组成:

  • 源或输入序列(例如,对于翻译问题,英文的“You are welcome”)

  • 目标或输出序列(例如,西班牙文的“De nada”)

Transformer的目标是通过使用输入和目标序列来学习如何输出目标序列。

Transformer处理数据的过程如下:

  • 输入序列首先会被转换为嵌入向量(并附加位置编码),然后送入编码器进行处理。

  • 编码器层叠结构会对这些嵌入向量进行处理,并生成输入序列的编码表示。

  • 目标序列在开头会添加一个句子起始标记,随后被转换为嵌入向量(并附加位置编码),然后送入解码器。

  • 解码器层叠结构会结合编码器的编码表示,共同处理这些信息,以生成目标序列的编码表示。

  • 输出层将这些编码表示转换为单词概率,从而得到最终的输出序列。

  • Transformer的损失函数会将这一输出序列与训练数据中的目标序列进行比较。通过反向传播,这一损失值被用来生成梯度,以训练Transformer模型。

推理过程

在推理阶段,我们只有输入序列,没有目标序列作为解码器的输入。

Transformer的目标是仅根据输入序列生成目标序列。

类似于Seq2Seq模型,我们通过一个循环生成输出,将上一时间步的输出序列作为下一时间步解码器的输入,直到遇到句子结束标记。

但与Seq2Seq模型不同的是,在每个时间步,我们都重新输入到目前为止生成的所有输出序列,而不仅仅是最后一个单词。

推理过程中的数据流为:

  • 输入序列被转换成嵌入向量(并加入位置编码),送入编码器。

  • 编码器堆叠层处理这些嵌入向量,生成输入序列的编码表示。

  • 我们使用一个仅包含句子开始标记的空序列代替目标序列,将其转换成嵌入向量(并加入位置编码),送入解码器。

  • 解码器堆叠层结合编码器的编码表示,对空序列的嵌入向量进行处理,开始生成目标序列的编码表示。

  • 输出层将编码表示转换为单词概率,并生成输出序列。

  • 取输出序列的最后一个单词作为预测单词,将其填充到解码器输入序列的第二个位置,此时解码器输入序列包含句子开始标记和第一个预测单词。

  • 重复步骤3至6,直到预测出句子结束标记。注意,由于编码器序列在每次迭代中都不变,因此我们不需要重复步骤1和2(感谢Michal Kučírka指出这一点)。

Teacher Forcing

在训练过程中,我们将目标序列作为解码器的输入,这种方法被称为教师强制。

为什么采用这种方法,以及这个术语的含义是什么呢?

在训练时,我们本可以采用与推理时相同的方法,即通过一个循环,取输出序列的最后一个单词,附加到解码器输入,并送入解码器进行下一轮迭代。

但这样做不仅会使训练过程耗时更长,还会增加模型训练的难度。

因为模型需要基于可能错误的第一个预测单词来预测第二个单词,以此类推。

相反,通过给解码器提供目标序列作为输入,我们实际上是在给模型一个提示,就像老师指导学生一样。

即使模型预测的第一个单词是错误的,它也能利用正确的第一个单词来预测第二个单词,从而避免错误不断累积。

此外,Transformer能够并行输出所有单词,无需循环,这大大加快了训练速度。

Transformer的用途及其优势

Transformer的多种用途,Transformer是一种极其灵活的模型,广泛应用于自然语言处理(NLP)的各个领域,如语言模型构建、文本分类等。

在序列到序列(Sequence-to-Sequence)的模型中,Transformer更是大放异彩,被用于机器翻译、文本摘要、问答系统、命名实体识别以及语音识别等多种应用场景。

针对不同的问题,Transformer架构有不同的变体。

其基本编码器层(Encoder Layer)作为这些架构的通用构建块,通过添加针对特定应用领域的“头”(heads)来适应不同的解决方案需求。

Transformer的分类架构

以情感分析为例,该应用将文本文档作为输入。分类头(Classification head)接收Transformer的输出,并预测文本的类别标签,如正面或负面情感。

Transformer的语言模型架构

在语言模型架构中,模型接受输入序列(如文本句子)的初始部分,并通过预测后续句子来生成新文本。

语言模型头(Language Model head)利用Transformer的输出,为词汇表中的每个单词生成一个概率。

概率最高的单词即成为句子中下一个单词的预测输出。

为何Transformer优于RNN?

在Transformer出现之前,递归神经网络(RNN)及其变种(如长短期记忆网络LSTM和门控循环单元GRU)是NLP应用的标配架构。

然而,Transformer的出现彻底改变了这一格局。

虽然基于RNN的序列到序列模型表现不俗,且注意力机制(Attention Mechanism)的引入进一步提升了其性能,但RNN仍存在两大局限:

  • 难以处理长句中相隔较远的单词之间的长距离依赖关系。

  • 必须按顺序逐个处理输入序列中的单词,即只有完成前一个时间步的计算后,才能进行下一个时间步的计算,这导致训练和推理速度较慢。

相比之下,卷积神经网络(CNN)能够并行计算所有输出,从而提高卷积速度。

但在处理长距离依赖方面,CNN也有其局限性:在卷积层中,只有足够接近以至于能够被卷积核覆盖的图像部分(或文本数据中的单词)才能相互作用。

对于距离较远的元素,则需要更深的网络层数。

而Transformer架构则巧妙地解决了上述问题。它彻底摒弃了RNN,完全依赖于注意力机制的优势:

  • 并行处理序列中的所有单词,极大地加速了计算过程。

  • 无论输入序列中单词之间的距离如何,Transformer都能有效计算它们之间的依赖关系,无论是相邻单词还是相隔较远的单词。

现在,我们对Transformer有了初步的了解,后续我们将深入探讨其内部工作原理,以便更全面地理解Transformer是如何运作的。

那么,如何系统的去学习大模型LLM?

我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。

作为一名热心肠的互联网老兵,我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。

但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

所有资料 ⚡️ ,朋友们如果有需要全套 《LLM大模型入门+进阶学习资源包》,扫码获取~

篇幅有限,部分资料如下:

👉LLM大模型学习指南+路线汇总👈

💥大模型入门要点,扫盲必看!
在这里插入图片描述
💥既然要系统的学习大模型,那么学习路线是必不可少的,这份路线能帮助你快速梳理知识,形成自己的体系。

路线图很大就不一一展示了 (文末领取)
在这里插入图片描述

👉大模型入门实战训练👈

💥光学理论是没用的,要学会跟着一起做,要动手实操,才能将自己的所学运用到实际当中去,这时候可以搞点实战案例来学习。
在这里插入图片描述

👉国内企业大模型落地应用案例👈

💥两本《中国大模型落地应用案例集》 收录了近两年151个优秀的大模型落地应用案例,这些案例覆盖了金融、医疗、教育、交通、制造等众多领域,无论是对于大模型技术的研究者,还是对于希望了解大模型技术在实际业务中如何应用的业内人士,都具有很高的参考价值。 (文末领取)
在这里插入图片描述

👉GitHub海量高星开源项目👈

💥收集整理了海量的开源项目,地址、代码、文档等等全都下载共享给大家一起学习!
在这里插入图片描述

👉LLM大模型学习视频👈

💥观看零基础学习书籍和视频,看书籍和视频学习是最快捷也是最有效果的方式,跟着视频中老师的思路,从基础到深入,还是很容易入门的。 (文末领取)
在这里插入图片描述

👉640份大模型行业报告(持续更新)👈

💥包含640份报告的合集,涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师,还是对AI大模型感兴趣的爱好者,这套报告合集都将为您提供宝贵的信息和启示。
在这里插入图片描述

👉获取方式:

这份完整版的大模型 LLM 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

😝有需要的小伙伴,可以Vx扫描下方二维码免费领取🆓

这篇关于这样图解Transformer应该没人看不懂了吧!的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1091361

相关文章

购买磨轮平衡机时应该注意什么问题和技巧

在购买磨轮平衡机时,您应该注意以下几个关键点: 平衡精度 平衡精度是衡量平衡机性能的核心指标,直接影响到不平衡量的检测与校准的准确性,从而决定磨轮的振动和噪声水平。高精度的平衡机能显著减少振动和噪声,提高磨削加工的精度。 转速范围 宽广的转速范围意味着平衡机能够处理更多种类的磨轮,适应不同的工作条件和规格要求。 振动监测能力 振动监测能力是评估平衡机性能的重要因素。通过传感器实时监

cross-plateform 跨平台应用程序-03-如果只选择一个框架,应该选择哪一个?

跨平台系列 cross-plateform 跨平台应用程序-01-概览 cross-plateform 跨平台应用程序-02-有哪些主流技术栈? cross-plateform 跨平台应用程序-03-如果只选择一个框架,应该选择哪一个? cross-plateform 跨平台应用程序-04-React Native 介绍 cross-plateform 跨平台应用程序-05-Flutte

图解TCP三次握手|深度解析|为什么是三次

写在前面 这篇文章我们来讲解析 TCP三次握手。 TCP 报文段 传输控制块TCB:存储了每一个连接中的一些重要信息。比如TCP连接表,指向发送和接收缓冲的指针,指向重传队列的指针,当前的发送和接收序列等等。 我们再来看一下TCP报文段的组成结构 TCP 三次握手 过程 假设有一台客户端,B有一台服务器。最初两端的TCP进程都是处于CLOSED关闭状态,客户端A打开链接,服务器端

编程应该用 Mac 还是 PC ?

『有人的地方,就有江湖』—徐克。笑傲江湖。     序     一个竞争的市场,就会有对立的产生,这世界存在著很多不同的领域,领域好比是个江湖的缩影,因此就有许多门派的纷争,例如说浏览器领域有著最大宗的IE派,门派成长速度飞快,武功版号跳的跟台湾物价指数一样快的Chrome门,不断被模仿,一直被超越的Opera派;韧性极强,一直对抗几大势力的Firefox派等等,程序语言也有自己的领域

图解可观测Metrics, tracing, and logging

最近在看Gophercon大会PPT的时候无意中看到了关于Metrics,Tracing和Logging相关的一篇文章,凑巧这些我基本都接触过,也是去年后半年到现在一直在做和研究的东西。从去年的关于Metrics的goappmonitor,到今年在排查问题时脑洞的基于log全链路(Tracing)追踪系统的设计,正好是对这三个话题的实践。这不禁让我对它们的关系进行思考:Metrics和Loggi

Transformer从零详细解读

Transformer从零详细解读 一、从全局角度概况Transformer ​ 我们把TRM想象为一个黑盒,我们的任务是一个翻译任务,那么我们的输入是中文的“我爱你”,输入经过TRM得到的结果为英文的“I LOVE YOU” ​ 接下来我们对TRM进行细化,我们将TRM分为两个部分,分别为Encoders(编码器)和Decoders(解码器) ​ 在此基础上我们再进一步细化TRM的

虚拟主机应该如何设置

假设我们在一个独立的环境下,现在我的根目录在D盘下的wamp下的www下!现在先来配置虚拟主机: 假设我们在一个独立的环境下,现在我的根目录在D盘下的wamp下的www下!现在先来配置虚拟主机: 1.先打开apache的配置文件httpd.conf,并去掉#Include 0conf/extra/httpd-vhosts.conf前面的#号。 2.打开apache的apach

为什么你应该从现在开始就写博客---刘未鹏

(一)为什么你应该(从现在开始就)写博客 用一句话来说就是,写一个博客有很多好处,却没有任何明显的坏处。(阿灵顿的情况属于例外,而非常态,就像不能拿抽烟活到一百岁的英国老太太的个例来反驳抽烟对健康的极大损伤一样) 让我说得更明确一点:用博客的形式来记录下你有价值的思考,会带来很多好处,却没有任何明显的坏处。Note:碎碎念不算思考、心情琐记不算思考、唠唠叨叨也不算思考、没话找话也不算思考

教你如何应对算法备案难点以及备案后应该做什么?

教你如何应对算法备案难点以及备案后应该做什么? 自去年六月至今年八月,网信办已公布七批备案清单,共计1919项算法成功备案,标志着算法备案步入常态。主体备案虽门槛较低,算法备案却考验专业,尤其是《算法安全自评估报告》成为监管焦点,逾百项审查要点需逐一回应。算法数据的输入输出、模型架构、训练数据、策略逻辑与风险管理,每一环皆需详尽说明。下面,小编给大家着重讲讲互联网算法备案申请的难点以及备案

【数据结构】排序算法系列——希尔排序(附源码+图解)

希尔排序 算法思想 希尔排序(Shell Sort)是一种改进的插入排序算法,希尔排序的创造者Donald Shell想出了这个极具创造力的改进。其时间复杂度取决于步长序列(gap)的选择。我们在插入排序中,会发现是对整体数据直接进行了统一的插入排序,每个数据之间的间隙是1,这里的1指的就是步长序列gap。在希尔排序中,我们会将整体数据一分为多份,进行散布式的插入排序,这时候每一个子序列之间的