一文彻底搞懂Transformer - Why Self-Attention(为什么是自注意力)

2024-08-23 13:52

本文主要是介绍一文彻底搞懂Transformer - Why Self-Attention(为什么是自注意力),希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

Transformer
使用自注意力(Self-Attention)机制在序列处理任务中,特别是自然语言处理(NLP)领域,变得越来越流行,主要是因为它在计算复杂度、并行化能力、长距离依赖的建模能力 等多个关键方面相较于传统的循环神经网络(RNNs)和卷积神经网络(CNNs)具有显著的优势。

一、计算复杂度

计算复杂度: 自注意力机制尽管计算复杂度为O(n^2),但通过高度优化的矩阵运算库和并行计算能力,在现代硬件上能高效处理序列中任意元素间的关系。

  • 自注意力层在单个序列处理步骤中的计算复杂度与序列长度呈平方关系(O(n^2)),其中n是序列中的元素数量。尽管这看似比RNNs(通常也是O(n)或更高,取决于其变体)和CNNs(通常为O(k*n),k是卷积核大小)更高,但在实际应用中,自注意力通过高度优化的矩阵运算库(如TensorFlow、PyTorch)可以高效地实现。

  • 自注意力机制允许模型在处理整个序列时并行地计算序列中任意两个元素之间的关系,这在现代GPU和TPU等硬件上非常有效。

自注意力机制在处理序列数据时,通过计算序列中任意两个元素之间的注意力分数来建立它们之间的关系。 这个计算过程背后实质上是一系列复杂的矩阵运算。

矩阵运算

具体来说,自注意力层会利用查询(Query)、键(Key)和值(Value)三个矩阵的线性变换,以及缩放点积注意力(Scaled Dot-Product Attention)等机制,来计算得到每个元素对其他元素的注意力权重,进而加权求和得到每个元素的最终表示。

Q、K、V计算

二、并行化能力

并行化能力: 自注意力层通过并行计算序列中任意元素间的注意力分数,克服了RNNs的顺序限制和CNNs的感受野限制,显著提升了序列处理的速度和效率。

  • RNNs由于其顺序性质,在处理序列时难以并行化,因为每个时间步的输出都依赖于前一个时间步的输出。这限制了它们在处理长序列时的速度和效率。

  • CNNs虽然在一定程度上可以并行处理序列,但它们的感受野(即一个元素能“看到”的序列长度)受限于卷积核的大小和层数,且学习长距离依赖关系通常需要堆叠多层网络。

  • 自注意力层则完全摆脱了这些限制,可以在单个层内并行地计算序列中任意两个元素之间的注意力分数,极大地提高了处理速度和效率。

GPU的并行处理能力使得原本因高计算复杂度(如O(n^2))而成为瓶颈的问题得以缓解,自注意力机制因此能够高效地实现计算,展现出卓越的性能。

A100 & H100: GPU的算力能力也遵循摩尔定律的增长趋势,即每隔一段时间,GPU的算力就会显著提升。A100是英伟达面向数据中心和科学计算的高性能GPU,以其强大的计算能力和深度学习加速器著称;而H100作为A100的继任者,采用更先进的Hopper架构,算力大幅提升,尤其是FP8性能惊人,专为高性能计算和AI推理优化。

A100 vs H100

万卡集群: 万卡集群是*由一万张及以上的计算加速卡(如GPU)组成的高性能计算系统,它作为人工智能大模型训练的强大算力底座,能够支持千亿级甚至万亿级参数规模的大模型训练,有助于大幅压缩训练时间,实现模型能力的快速迭代,是大模型竞赛中的重要基础设施。

H100万卡集群

万卡集群让AI正式进入拼算力的大模型时代。

三、长距离依赖的建模能力

长距离依赖的建模能力:自注意力机制通过直接计算元素间注意力分数和位置编码,有效捕获长距离依赖关系,克服了RNNs和CNNs在处理长序列时的局限性。

  • RNNs在理论上可以捕获长距离依赖关系,但在实践中,由于梯度消失或梯度爆炸的问题,它们往往难以有效地学习到这些依赖。

  • CNNs通过堆叠多层网络来扩大感受野,但这种方法在处理非常长的序列时效率不高,且仍然受限于卷积核的大小。

  • 自注意力机制通过计算序列中任意两个元素之间的直接连接(即注意力分数),使得模型能够更容易地学习到长距离依赖关系。

  • 自注意力机制中的位置编码(Position Encoding)还允许模型了解序列中元素的相对或绝对位置,从而进一步增强了其建模能力。

为什么是自注意力?核心原因,自注意力机制解决了RNN、CNN无法克服的长序列依赖问题。2024年,大模型更是疯狂卷长文本(Long-Text)。

在大模型时代,我们如何有效的去学习大模型?

现如今大模型岗位需求越来越大,但是相关岗位人才难求,薪资持续走高,AI运营薪资平均值约18457元,AI工程师薪资平均值约37336元,大模型算法薪资平均值约39607元。
在这里插入图片描述

掌握大模型技术你还能拥有更多可能性

• 成为一名全栈大模型工程师,包括Prompt,LangChain,LoRA等技术开发、运营、产品等方向全栈工程;

• 能够拥有模型二次训练和微调能力,带领大家完成智能对话、文生图等热门应用;

• 薪资上浮10%-20%,覆盖更多高薪岗位,这是一个高需求、高待遇的热门方向和领域;

• 更优质的项目可以为未来创新创业提供基石。

可能大家都想学习AI大模型技术,也_想通过这项技能真正达到升职加薪,就业或是副业的目的,但是不知道该如何开始学习,因为网上的资料太多太杂乱了,如果不能系统的学习就相当于是白学。为了让大家少走弯路,少碰壁,这里我直接把都打包整理好,希望能够真正帮助到大家_。

一、AGI大模型系统学习路线

很多人学习大模型的时候没有方向,东学一点西学一点,像只无头苍蝇乱撞,下面是我整理好的一套完整的学习路线,希望能够帮助到你们学习AI大模型。

在这里插入图片描述

第一阶段: 从大模型系统设计入手,讲解大模型的主要方法;

第二阶段: 在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用;

第三阶段: 大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统;

第四阶段: 大模型知识库应用开发以LangChain框架为例,构建物流行业咨询智能问答系统;

第五阶段: 大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型;

第六阶段: 以SD多模态大模型为主,搭建了文生图小程序案例;

第七阶段: 以大模型平台应用与开发为主,通过星火大模型,文心大模型等成熟大模型构建大模型行业应用。

二、640套AI大模型报告合集

这套包含640份报告的合集,涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师,还是对AI大模型感兴趣的爱好者,这套报告合集都将为您提供宝贵的信息和启示。

在这里插入图片描述

三、AI大模型经典PDF书籍

随着人工智能技术的飞速发展,AI大模型已经成为了当今科技领域的一大热点。这些大型预训练模型,如GPT-3、BERT、XLNet等,以其强大的语言理解和生成能力,正在改变我们对人工智能的认识。 那以下这些PDF籍就是非常不错的学习资源。

在这里插入图片描述

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

四、AI大模型各大场景实战案例

在这里插入图片描述

结语

【一一AGI大模型学习 所有资源获取处(无偿领取)一一】
所有资料 ⚡️ ,朋友们如果有需要全套 《LLM大模型入门+进阶学习资源包》,扫码获取~

👉[CSDN大礼包🎁:全网最全《LLM大模型入门+进阶学习资源包》免费分享(安全链接,放心点击)]()👈

这篇关于一文彻底搞懂Transformer - Why Self-Attention(为什么是自注意力)的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1099571

相关文章

【数据结构】——原来排序算法搞懂这些就行,轻松拿捏

前言:快速排序的实现最重要的是找基准值,下面让我们来了解如何实现找基准值 基准值的注释:在快排的过程中,每一次我们要取一个元素作为枢纽值,以这个数字来将序列划分为两部分。 在此我们采用三数取中法,也就是取左端、中间、右端三个数,然后进行排序,将中间数作为枢纽值。 快速排序实现主框架: //快速排序 void QuickSort(int* arr, int left, int rig

【Tools】大模型中的自注意力机制

摇来摇去摇碎点点的金黄 伸手牵来一片梦的霞光 南方的小巷推开多情的门窗 年轻和我们歌唱 摇来摇去摇着温柔的阳光 轻轻托起一件梦的衣裳 古老的都市每天都改变模样                      🎵 方芳《摇太阳》 自注意力机制(Self-Attention)是一种在Transformer等大模型中经常使用的注意力机制。该机制通过对输入序列中的每个元素计算与其他元素之间的相似性,

什么是 Flash Attention

Flash Attention 是 由 Tri Dao 和 Dan Fu 等人在2022年的论文 FlashAttention: Fast and Memory-Efficient Exact Attention with IO-Awareness 中 提出的, 论文可以从 https://arxiv.org/abs/2205.14135 页面下载,点击 View PDF 就可以下载。 下面我

如何通俗理解注意力机制?

1、注意力机制(Attention Mechanism)是机器学习和深度学习中一种模拟人类注意力的方法,用于提高模型在处理大量信息时的效率和效果。通俗地理解,它就像是在一堆信息中找到最重要的部分,把注意力集中在这些关键点上,从而更好地完成任务。以下是几个简单的比喻来帮助理解注意力机制: 2、寻找重点:想象一下,你在阅读一篇文章的时候,有些段落特别重要,你会特别注意这些段落,反复阅读,而对其他部分

【Tools】大模型中的注意力机制

摇来摇去摇碎点点的金黄 伸手牵来一片梦的霞光 南方的小巷推开多情的门窗 年轻和我们歌唱 摇来摇去摇着温柔的阳光 轻轻托起一件梦的衣裳 古老的都市每天都改变模样                      🎵 方芳《摇太阳》 在大模型中,注意力机制是一种重要的技术,它被广泛应用于自然语言处理领域,特别是在机器翻译和语言模型中。 注意力机制的基本思想是通过计算输入序列中各个位置的权重,以确

CSP-J基础之数学基础 初等数论 一篇搞懂(一)

文章目录 前言声明初等数论是什么初等数论历史1. **古代时期**2. **中世纪时期**3. **文艺复兴与近代**4. **现代时期** 整数的整除性约数什么样的整数除什么样的整数才能得到整数?条件:举例说明:一般化: 判断两个数能否被整除 因数与倍数质数与复合数使用开根号法判定质数哥德巴赫猜想最大公因数与辗转相除法计算最大公因数的常用方法:举几个例子:例子 1: 计算 12 和 18

CSP-J基础之数学基础 初等数论 一篇搞懂(二)

文章目录 前言算术基本定理简介什么是质数?举个简单例子:重要的结论:算术基本定理公式解释:举例: 算术基本定理的求法如何找出质因数:举个简单的例子: 重要的步骤:C++实现 同余举个例子:同余的性质简介1. 同余的自反性2. 同余的对称性3. 同余的传递性4. 同余的加法性质5. 同余的乘法性质 推论 总结 前言 在计算机科学和数学中,初等数论是一个重要的基础领域,涉及到整数

图神经网络框架DGL实现Graph Attention Network (GAT)笔记

参考列表: [1]深入理解图注意力机制 [2]DGL官方学习教程一 ——基础操作&消息传递 [3]Cora数据集介绍+python读取 一、DGL实现GAT分类机器学习论文 程序摘自[1],该程序实现了利用图神经网络框架——DGL,实现图注意网络(GAT)。应用demo为对机器学习论文数据集——Cora,对论文所属类别进行分类。(下图摘自[3]) 1. 程序 Ubuntu:18.04

YOLOv8改进实战 | 注意力篇 | 引入CVPR2024 PKINet 上下文锚点注意力CAAttention

YOLOv8专栏导航:点击此处跳转 前言 YOLOv8 是由 YOLOv5 的发布者 Ultralytics 发布的最新版本的 YOLO。它可用于对象检测、分割、分类任务以及大型数据集的学习,并且可以在包括 CPU 和 GPU 在内的各种硬件上执行。 YOLOv8 是一种尖端的、最先进的 (SOTA) 模型,它建立在以前成功的 YOLO 版本的基础上,并引入了新的功能和改进,以

Post-Training有多重要?一文带你了解全部细节

1. 简介 随着LLM学界和工业界日新月异的发展,不仅预训练所用的算力和数据正在疯狂内卷,后训练(post-training)的对齐和微调方法也在不断更新。InstructGPT、WebGPT等较早发布的模型使用标准RLHF方法,其中的数据管理风格和规模似乎已经过时。近来,Meta、谷歌和英伟达等AI巨头纷纷发布开源模型,附带发布详尽的论文或报告,包括Llama 3.1、Nemotron 340