transfomer中Multi-Head Attention的源码实现

2024-01-17 02:12

本文主要是介绍transfomer中Multi-Head Attention的源码实现,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

简介

Multi-Head Attention是一种注意力机制,是transfomer的核心机制,就是图中黄色框内的部分.
在这里插入图片描述

Multi-Head Attention的原理是通过将模型分为多个头,形成多个子空间,让模型关注不同方面的信息。每个头独立进行注意力运算,得到一个注意力权重矩阵。输出的结果再通过线性变换和拼接操作组合在一起。这样可以提高模型的表示能力和泛化性能。
在Multi-Head Attention中,每个头的权重矩阵是随机初始化生成的,并在训练过程中通过梯度下降等优化算法进行更新。通过这种方式,模型可以学习到如何将输入序列的不同部分关联起来,从而捕获更多的上下文信息。
总之,Multi-Head Attention通过将模型分为多个头,形成多个子空间,让模型关注不同方面的信息,提高了模型的表示能力和泛化性能。它的源码实现基于Scaled Dot-Product Attention,通过并行运算和组合输出来实现多头注意力机制。

源码实现:

具体源码及其注释如下,配好环境可直接运行:

import torch
from torch import nnclass MultiheadAttention(nn.Module):def __init__(self,embed_dim,num_heads,att_dropout=0.1,out_dropout=0.1,average_attn_weights=True,use_separate_proj_weight = False,device=None,dtype=None):super(MultiheadAttention, self).__init__()self.embed_dim = embed_dimself.num_heads = num_headsself.att_dropout = nn.Dropout(att_dropout)self.out_dropout = nn.Dropout(out_dropout)self.average_attn_weights = average_attn_weightsself.head_dim = embed_dim // num_headsself.scale = self.head_dim ** 0.5assert self.embed_dim == self.num_heads * self.head_dim, \'embed_dim <{}> must be divisible by num_heads <{}>'.format(self.embed_dim, self.num_heads)self.fuse_heads = nn.Linear(self.embed_dim, self.embed_dim)factory_kwargs = {'device': device, 'dtype': dtype}self.use_separate_proj_weight = use_separate_proj_weight # 是否对输入进行线性映射if not use_separate_proj_weight:self.in_proj_weight = nn.Parameter(torch.empty((3 * embed_dim, embed_dim), **factory_kwargs))self.in_proj_bias = nn.Parameter(torch.empty(3 * embed_dim, **factory_kwargs))self._reset_parameters()def _reset_parameters(self):nn.init.xavier_uniform_(self.in_proj_weight)nn.init.constant_(self.in_proj_bias, 0.)def forward(self,query: torch.Tensor,key: torch.Tensor,value: torch.Tensor,identity=None,query_pos=None,key_pos=None,use_separate_proj_weight: bool = False):'''Args:query:key:value:identity:query_pos:key_pos:use_separate_proj_weight: 参考pytorchReturns:'''assert query.dim() == 3 and key.dim() == 3 and value.dim() == 3assert key.shape == value.shape, f"key shape {key.shape} does not match value shape {value.shape}"tgt_len, bsz, embed_dim = query.shape  # [查询数量 batch数量 特征维度]src_len, _, _ = key.shape  # [被查询数量,_,_]# 默认和query进行shortcut(要在位置编码前,因为output为输出特征,特征和原特征shortcut,下一层再重新加位置编码,否则不就重了)if identity is None:identity = query.clone()# 位置编码if query_pos is not None:query = query + query_posif key_pos is not None:key = key + key_pos# 是否需要对输入进行映射,mmcv中 q=k=v,那么就需要此处进行映射if not self.use_separate_proj_weight:assert self.in_proj_weight is not None, "use_separate_proj_weight is False but in_proj_weight is None"query, key, value = nn.functional._in_projection_packed(query, key, value, self.in_proj_weight, self.in_proj_bias)# 特征划分为self.num_heads 份 [tgt,b,embed_dim] -> [b,n_h, tgt, d_h]# [n,b,n_h*d_h] -> [b,n_h,n,d_h] 主要是target和source之前的特征匹配和提取, batch和n_h维度不处理query = query.contiguous().view(tgt_len, bsz, self.num_heads, self.head_dim).permute(1, 2, 0, 3)key = key.contiguous().view(src_len, bsz, self.num_heads, self.head_dim).permute(1, 2, 0, 3)value = value.contiguous().view(src_len, bsz, self.num_heads, self.head_dim).permute(1, 2, 0, 3)# [b,n_h,tgt_len,src_len]# Scaled Dot-Product Attentionattention = query @ key.transpose(-2, -1)attention /= self.scale  # 参考: https://blog.csdn.net/zwhdldz/article/details/135462127attention = torch.softmax(attention, dim=-1)  # 行概率矩阵attention = self.att_dropout(input=attention)  # 正则化方法 DropKey,用于缓解 Vision Transformer 中的过拟合问题# [b,n_h,tgt_len,d_h] = [b,n_h,tgt_len,src_len] * [b,n_h,src_len,d_h]output = attention @ value# [b,n_h,tgt_len,d_h] -> [b,tgt_len,embed_dim]output = output.permute(0, 2, 1, 3).contiguous().view(tgt_len, bsz, embed_dim)# 头之间通过全连接融合一下output = self.fuse_heads(output)output = self.out_dropout(output)# shortcutoutput = output + identity# 多头head求平均if self.average_attn_weights:attention = attention.sum(dim=1) / self.num_heads# [tgt_len,b,embed_dim],[b,tgt_len,src_len]return output, attentionif __name__ == '__main__':query = torch.rand(size=(10, 2, 64))key = torch.rand(size=(5, 2, 64))value = torch.rand(size=(5, 2, 64))query_pos = torch.rand(size=(10, 2, 64))key_pos = torch.rand(size=(5, 2, 64))att = MultiheadAttention(64, 4)# 返回特征采样结果和attention矩阵output = att(query=query, key=key, value=value,query_pos=query_pos,key_pos=key_pos)pass

具体流程说明:

  1. 将input映射为qkv,如果是cross_attention,q与kv的行数可以不同,但列数(编码维度/通道数)必须相同
  2. q和v附加位置编码
  3. Scaled Dot-Product :通过计算Query和Key之间的点积除以scale得到注意力权重,经过dropout再与Value矩阵相乘得到输出。*scale和dropout的说明参考我的上一篇博客
  4. 输出的结果再通过线性变换融合多头信息。

在实现中,参考pytorch我在内部加输入映射,具体作用参考下一篇博客。

这篇关于transfomer中Multi-Head Attention的源码实现的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/614624

相关文章

hdu1043(八数码问题,广搜 + hash(实现状态压缩) )

利用康拓展开将一个排列映射成一个自然数,然后就变成了普通的广搜题。 #include<iostream>#include<algorithm>#include<string>#include<stack>#include<queue>#include<map>#include<stdio.h>#include<stdlib.h>#include<ctype.h>#inclu

JAVA智听未来一站式有声阅读平台听书系统小程序源码

智听未来,一站式有声阅读平台听书系统 🌟&nbsp;开篇:遇见未来,从“智听”开始 在这个快节奏的时代,你是否渴望在忙碌的间隙,找到一片属于自己的宁静角落?是否梦想着能随时随地,沉浸在知识的海洋,或是故事的奇幻世界里?今天,就让我带你一起探索“智听未来”——这一站式有声阅读平台听书系统,它正悄悄改变着我们的阅读方式,让未来触手可及! 📚&nbsp;第一站:海量资源,应有尽有 走进“智听

【C++】_list常用方法解析及模拟实现

相信自己的力量,只要对自己始终保持信心,尽自己最大努力去完成任何事,就算事情最终结果是失败了,努力了也不留遗憾。💓💓💓 目录   ✨说在前面 🍋知识点一:什么是list? •🌰1.list的定义 •🌰2.list的基本特性 •🌰3.常用接口介绍 🍋知识点二:list常用接口 •🌰1.默认成员函数 🔥构造函数(⭐) 🔥析构函数 •🌰2.list对象

【Prometheus】PromQL向量匹配实现不同标签的向量数据进行运算

✨✨ 欢迎大家来到景天科技苑✨✨ 🎈🎈 养成好习惯,先赞后看哦~🎈🎈 🏆 作者简介:景天科技苑 🏆《头衔》:大厂架构师,华为云开发者社区专家博主,阿里云开发者社区专家博主,CSDN全栈领域优质创作者,掘金优秀博主,51CTO博客专家等。 🏆《博客》:Python全栈,前后端开发,小程序开发,人工智能,js逆向,App逆向,网络系统安全,数据分析,Django,fastapi

让树莓派智能语音助手实现定时提醒功能

最初的时候是想直接在rasa 的chatbot上实现,因为rasa本身是带有remindschedule模块的。不过经过一番折腾后,忽然发现,chatbot上实现的定时,语音助手不一定会有响应。因为,我目前语音助手的代码设置了长时间无应答会结束对话,这样一来,chatbot定时提醒的触发就不会被语音助手获悉。那怎么让语音助手也具有定时提醒功能呢? 我最后选择的方法是用threading.Time

Android实现任意版本设置默认的锁屏壁纸和桌面壁纸(两张壁纸可不一致)

客户有些需求需要设置默认壁纸和锁屏壁纸  在默认情况下 这两个壁纸是相同的  如果需要默认的锁屏壁纸和桌面壁纸不一样 需要额外修改 Android13实现 替换默认桌面壁纸: 将图片文件替换frameworks/base/core/res/res/drawable-nodpi/default_wallpaper.*  (注意不能是bmp格式) 替换默认锁屏壁纸: 将图片资源放入vendo

C#实战|大乐透选号器[6]:实现实时显示已选择的红蓝球数量

哈喽,你好啊,我是雷工。 关于大乐透选号器在前面已经记录了5篇笔记,这是第6篇; 接下来实现实时显示当前选中红球数量,蓝球数量; 以下为练习笔记。 01 效果演示 当选择和取消选择红球或蓝球时,在对应的位置显示实时已选择的红球、蓝球的数量; 02 标签名称 分别设置Label标签名称为:lblRedCount、lblBlueCount

Kubernetes PodSecurityPolicy:PSP能实现的5种主要安全策略

Kubernetes PodSecurityPolicy:PSP能实现的5种主要安全策略 1. 特权模式限制2. 宿主机资源隔离3. 用户和组管理4. 权限提升控制5. SELinux配置 💖The Begin💖点点关注,收藏不迷路💖 Kubernetes的PodSecurityPolicy(PSP)是一个关键的安全特性,它在Pod创建之前实施安全策略,确保P

Java ArrayList扩容机制 (源码解读)

结论:初始长度为10,若所需长度小于1.5倍原长度,则按照1.5倍扩容。若不够用则按照所需长度扩容。 一. 明确类内部重要变量含义         1:数组默认长度         2:这是一个共享的空数组实例,用于明确创建长度为0时的ArrayList ,比如通过 new ArrayList<>(0),ArrayList 内部的数组 elementData 会指向这个 EMPTY_EL

如何在Visual Studio中调试.NET源码

今天偶然在看别人代码时,发现在他的代码里使用了Any判断List<T>是否为空。 我一般的做法是先判断是否为null,再判断Count。 看了一下Count的源码如下: 1 [__DynamicallyInvokable]2 public int Count3 {4 [__DynamicallyInvokable]5 get