本文主要是介绍Transformer模型-6-Encoder,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
Encoder是6层结构,每层内部结构相同,都由Multi-Head Attention和Feed Forward组成,而这两层后都带有有一个Add&Norm层,Add&Norm层由 Add 和 Norm 两部分组成, 如下:
graph LR
A[Input Embedding] --Positional Encoding--> B[Multi-head Attention] --> C[Add&Norm] --> D[Feed Forward] --> E[Add&Norm]style A fill:#fff,stroke:#333,stroke-width:1px;
style C fill:#eee,stroke:#333,stroke-width:1px;
style E fill:#eee,stroke:#333,stroke-width:1px;
输入Inputs
见Transformer模型-4-Inputs-笔记
多头注意力
见Transformer模型-5-MultiHead Attention-笔记
Add & Norm
Add&Norm层由Add和Norm两部分组成,是Transformer的常有层,用于在多头自注意力机制和前馈神经网络之间添加残差连接和归一化操作。
Add指X+MultiHeadAttention(X),是一种残差连接。Norm是Layer Normalization。
这个层是将前一层的输出与前一层的输入相加,并进行归一化,以便更好地传递信息和控制梯度。其作用可以总结为在保持信息流畅性的同时,避免梯度消失或爆炸的问题,从而提高模型的训练效率和性能。
Add&Norm层主要完成以下几件事情:
残差连接:将前一层的输出与前一层的输入相加,得到一个残差向量。
归一化:对残差向量进行归一化,以便更好地传递信息和控制梯度。归一化可以采用不同的方法,如Layer Normalization或Batch Normalization。
线性变换:对归一化后的向量进行线性变换,以便更好地适应下一层的输入。
Add
什么是残差连接
什么是残差连接呢?残差连接就是把网络的输入和输出相加,得到网络的输出为F(x)+xF(x)+xF(x)+x。
分析在网络结构比较深的时候,网络梯度反向传播更新参数时,容易造成梯度消失的问题,但是如果每层的输出都加上一个x的时候,就变成了F(x)+x,对x求导结果为1,所以就相当于每一层求导时都加上了一个常数项’1’,这样就有效解决了梯度消失问题。
Transformer中的残差连接
在Transformer中,数据过Attention层和FFN层后,都会经过一个Add & Norm处理。其中Add为residule block(残差模块) ,数据在这里进行residule connection(残差连接)
残差连接的图表如下所示:
Encoder架构图 | 残差链接方式 |
---|---|
Add是一种残差连接,用于缓解梯度消失,这一概念在ResNet中被提出: | |
Add可以让反向传播过程中,有一路的梯度不会经过梯度F(x) 计算(如上右图公式中的第一个F(x)),直接经过后续的处理(传播), 能够保存更多的梯度信息。
有了Add(残差连接)我们可以将网络做的更深。
Norm
什么是Normalization
Transformer中Norm
Transformer中采用的是Layer Normalization(层标准化)方式。
Encoder架构图 | 数学公式 |
---|---|
Add的结果经过LN进行层归一化: |
|
Feed Forword - 前馈神经网络
什么是前馈神经网络
前馈神经网络(Feedforward Neural Network, FNN) 是最早发明的简单人工神经网络。在前馈神经网络中,各神经元分别属于不同的层,每一层的神经元可以接收前一层神经元的信号,并产生信号输出到下一层。第0层称为输入层,最后一层称为输出层,其他中间层称为隐藏层。整个网络中无反馈,信号从输入层向输出层单向传播,可用一个有向无环图表示。
Transformer中的前馈神经网络
如何学习AI大模型?
大模型时代,火爆出圈的LLM大模型让程序员们开始重新评估自己的本领。 “AI会取代那些行业
?”“谁的饭碗又将不保了?
”等问题热议不断。
不如成为「掌握AI工具的技术人
」,毕竟AI时代,谁先尝试,谁就能占得先机!
但是LLM相关的内容很多,现在网上的老课程老教材关于LLM又太少。所以现在小白入门就只能靠自学,学习成本和门槛很高
针对所有自学遇到困难的同学们,我帮大家系统梳理大模型学习脉络,将这份 LLM大模型资料
分享出来:包括LLM大模型书籍、640套大模型行业报告、LLM大模型学习视频、LLM大模型学习路线、开源大模型学习教程
等, 😝有需要的小伙伴,可以 扫描下方二维码领取🆓↓↓↓
👉[CSDN大礼包🎁:全网最全《LLM大模型入门+进阶学习资源包》免费分享(安全链接,放心点击)]()👈
学习路线
第一阶段: 从大模型系统设计入手,讲解大模型的主要方法;
第二阶段: 在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用;
第三阶段: 大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统;
第四阶段: 大模型知识库应用开发以LangChain框架为例,构建物流行业咨询智能问答系统;
第五阶段: 大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型;
第六阶段: 以SD多模态大模型为主,搭建了文生图小程序案例;
第七阶段: 以大模型平台应用与开发为主,通过星火大模型,文心大模型等成熟大模型构建大模型行业应用。
👉学会后的收获:👈
• 基于大模型全栈工程实现(前端、后端、产品经理、设计、数据分析等),通过这门课可获得不同能力;
• 能够利用大模型解决相关实际项目需求: 大数据时代,越来越多的企业和机构需要处理海量数据,利用大模型技术可以更好地处理这些数据,提高数据分析和决策的准确性。因此,掌握大模型应用开发技能,可以让程序员更好地应对实际项目需求;
• 基于大模型和企业数据AI应用开发,实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能, 学会Fine-tuning垂直训练大模型(数据准备、数据蒸馏、大模型部署)一站式掌握;
• 能够完成时下热门大模型垂直领域模型训练能力,提高程序员的编码能力: 大模型应用开发需要掌握机器学习算法、深度学习框架等技术,这些技术的掌握可以提高程序员的编码能力和分析能力,让程序员更加熟练地编写高质量的代码。
1.AI大模型学习路线图
2.100套AI大模型商业化落地方案
3.100集大模型视频教程
4.200本大模型PDF书籍
5.LLM面试题合集
6.AI产品经理资源合集
👉获取方式:
😝有需要的小伙伴,可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓
这篇关于Transformer模型-6-Encoder的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!