【Self-Attention——Transform—Bert】相关的基础理论

2024-06-02 14:04

文章标签 相关 self attention 基础理论 bert transform

本文主要是介绍【Self-Attention——Transform—Bert】相关的基础理论，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

1.Self-Attention模型图解

在这里插入图片描述
传统的循环神经网络，如上左图1，并不能解决并行化的问题，右图就是一个self-Attention可以实现并行化，并且能解决对于所有信息的读取利用。

将self—Attention替换相应的GRU或者RNN，就能实现从输出a到输出b，每一个b都能看到a1-a4的信息，同时b的计算还能实现并行化。

Self-Attention就是来自于《Attention is all you need》这篇文献当中，可以通过下面的链接进行下载：

https://arxiv.org/abs/1706.03762

1.1 Self-Attention解决方案

在这里插入图片描述
如图相应的X是作为输入，每一个输入x都乘以一个权重W，得到αi。

在这里插入图片描述

然后将每一个α都拆分为三个向量，q，k，v的三个。qk主要完成Attention的工作，v完成抽取序列信息。

Q：其中q用于去与其他向量进行匹配计算

K：是用于被匹配计算的向量

V：用于抽取相应序列的信息

在这里插入图片描述

拿每个queryq去对每个key k做attention
主动用当前的Q，与自己和其他输出的k进行attention计算
在这里插入图片描述
qk做点乘，其中还除去维度d，d是q、k的维度。

其中做完相应的Attention后还需要，进行softmax，获取相应的α帽。就是注意力的分布

而b，是当前的q计算得到的attention值α与每个输入的v进行相互乘，并且累加得到，获取到了当前时刻所有输入数据的信息。同理得到b2
在这里插入图片描述
同理得到a2、b2，是当前的q2与其他的k、与其他的v计算分别得到attention值和序列信息值。

1.2 总结

在这里插入图片描述
因为每个值阿尔法，都是分别计算得到的，所以不需要依靠计算上一个节点。

并且通过分出三个向量，实现对于每个节点的信息的运用。

2. Self-Attention的数学理论基础

对于每一个输入的x，都可以经过一个相应的矩阵W的计算，得到相应的q，k，v。
在这里插入图片描述
其中对于每个的a进行拼接向量，得到I矩阵，乘以相应的W，就得到Q矩阵。

同理得到相应的K矩阵

同理得到相应的V矩阵

相应的A帽矩阵，如下所示，是根据相应的A矩阵softma变换得到Attention

所以A矩阵就是为K矩阵与Q矩阵变换得到
在这里插入图片描述
将得到的A矩阵进行Softmax计算得到相应的A帽矩阵

B帽矩阵 = A帽矩阵* V矩阵

所以相应的Self-Attention就是相应的矩阵的变换得到，输入的数据为I矩阵，经过W矩阵得到相应的QKV矩阵

K矩阵转置，与Q矩阵计算得到A矩阵，A矩阵归一化后得到Attention

将Attention后的结果乘以V，就得到了序列化的数据矩阵O，作为输出。

在这里插入图片描述

3. Multi-Head-self Attention（多头自注意力模型）

下面主要演示双头的注意力模型，一般来说都是选用偶数头

多头，一般就是将相应的QKV进行拆分，拆分成相应的几头

多头的注意力模型，可以更加细节的发现局部的信息。所以可以解决局部信息，如果更加看重局部信息的时候，多头的模型就是比较合适的。
在这里插入图片描述

4 Transform

在这里插入图片描述
.

5.Bert理论基础

在这里插入图片描述

这篇关于【Self-Attention——Transform—Bert】相关的基础理论的文章就介绍到这儿，希望我们推荐的文章对编程师们有所帮助！

http://www.chinasem.cn/article/1024175。 23002807@qq.com

相关文章

JavaScript Array.from及其相关用法详解(示例演示)

JavaScript Array.from及其相关用法详解(示例演示)

《JavaScriptArray.from及其相关用法详解(示例演示)》Array.from方法是ES6引入的一个静态方法,用于从类数组对象或可迭代对象创建一个新的数组实例,本文将详细介绍Array... 目录一、Array.from 方法概述1. 方法介绍2. 示例演示二、结合实际场景的使用1. 初始化二

阅读更多...

Pytorch微调BERT实现命名实体识别

Pytorch微调BERT实现命名实体识别

《Pytorch微调BERT实现命名实体识别》命名实体识别（NER）是自然语言处理（NLP）中的一项关键任务,它涉及识别和分类文本中的关键实体,BERT是一种强大的语言表示模型,在各种NLP任务中显著... 目录环境准备加载预训练BERT模型准备数据集标记与对齐微调 BERT最后总结环境准备在继续之前，确

阅读更多...

Redis的Zset类型及相关命令详细讲解

Redis的Zset类型及相关命令详细讲解

《Redis的Zset类型及相关命令详细讲解》：本文主要介绍Redis的Zset类型及相关命令的相关资料,有序集合Zset是一种Redis数据结构,它类似于集合Set,但每个元素都有一个关联的分数... 目录Zset简介ZADDZCARDZCOUNTZRANGEZREVRANGEZRANGEBYSCOREZ

阅读更多...

Linux使用fdisk进行磁盘的相关操作

Linux使用fdisk进行磁盘的相关操作

《Linux使用fdisk进行磁盘的相关操作》fdisk命令是Linux中用于管理磁盘分区的强大文本实用程序,这篇文章主要为大家详细介绍了如何使用fdisk进行磁盘的相关操作,需要的可以了解下... 目录简介基本语法示例用法列出所有分区查看指定磁盘的区分管理指定的磁盘进入交互式模式创建一个新的分区删除一个存

阅读更多...

关于Maven生命周期相关命令演示

关于Maven生命周期相关命令演示

《关于Maven生命周期相关命令演示》Maven的生命周期分为Clean、Default和Site三个主要阶段,每个阶段包含多个关键步骤,如清理、编译、测试、打包等,通过执行相应的Maven命令,可以... 目录1. Maven 生命周期概述1.1 Clean Lifecycle1.2 Default Li

阅读更多...

numpy求解线性代数相关问题

numpy求解线性代数相关问题

《numpy求解线性代数相关问题》本文主要介绍了numpy求解线性代数相关问题,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧... 在numpy中有numpy.array类型和numpy.mat类型，前者是数组类型，后者是矩阵类型。数组

阅读更多...

Redis的Hash类型及相关命令小结

Redis的Hash类型及相关命令小结

《Redis的Hash类型及相关命令小结》edisHash是一种数据结构,用于存储字段和值的映射关系,本文就来介绍一下Redis的Hash类型及相关命令小结,具有一定的参考价值,感兴趣的可以了解一下... 目录HSETHGETHEXISTSHDELHKEYSHVALSHGETALLHMGETHLENHSET

阅读更多...

python中的与时间相关的模块应用场景分析

python中的与时间相关的模块应用场景分析

《python中的与时间相关的模块应用场景分析》本文介绍了Python中与时间相关的几个重要模块：`time`、`datetime`、`calendar`、`timeit`、`pytz`和`dateu... 目录1. time 模块2. datetime 模块3. calendar 模块4. timeit

阅读更多...

sqlite3 相关知识

sqlite3 相关知识

WAL 模式 VS 回滚模式特性WAL 模式回滚模式（Rollback Journal）定义使用写前日志来记录变更。使用回滚日志来记录事务的所有修改。特点更高的并发性和性能；支持多读者和单写者。支持安全的事务回滚，但并发性较低。性能写入性能更好，尤其是读多写少的场景。写操作会造成较大的性能开销，尤其是在事务开始时。写入流程数据首先写入 WAL 文件，然后才从 WAL 刷新到主数据库。数据在开始

阅读更多...

什么是 Flash Attention

什么是 Flash Attention

Flash Attention 是由 Tri Dao 和 Dan Fu 等人在2022年的论文 FlashAttention: Fast and Memory-Efficient Exact Attention with IO-Awareness 中提出的，论文可以从 https://arxiv.org/abs/2205.14135 页面下载，点击 View PDF 就可以下载。下面我

阅读更多...