【通俗理解】深度学习特征提取——Attention机制的数学原理与应用

本文主要是介绍【通俗理解】深度学习特征提取——Attention机制的数学原理与应用,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

【通俗理解】深度学习特征提取——Attention机制的数学原理与应用

关键词提炼

#深度学习 #特征提取 #Attention机制 #CNN #Transformer #关联特征 #MLP #拟合处理

在这里插入图片描述

第一节:Attention机制的类比与核心概念

1.1 Attention机制的类比

Attention机制可以被视为一个“特征筛选器”,它像是一个精细的筛子,在众多的特征中筛选出那些具有关联性的重要特征,然后再利用MLP(多层感知机)对这些特征进行进一步的处理和拟合,最终得到特征与标签之间的关系。

1.2 相似公式比对

  • 线性加权 y = ∑ i = 1 n w i x i y = \sum_{i=1}^{n} w_i x_i y=i=1nwixi,描述了一种简单的线性加权过程,适用于直接且不变的情况。
  • Attention机制 Attention ( Q , K , V ) = softmax ( Q K T d k ) V \text{Attention}(Q, K, V) = \text{softmax}(\frac{QK^T}{\sqrt{d_k}})V Attention(Q,K,V)=softmax(dk QKT)V,则是一个更为复杂的机制,它通过对查询(Q)、键(K)和值(V)的操作,实现了对特征的关联筛选和加权

第二节:Attention机制的核心概念与应用

2.1 核心概念

核心概念定义比喻或解释
查询(Q)代表当前需要处理的特征或信息的查询向量。像是你在图书馆中查找资料时,你手中的查询单。
键(K)代表所有可能的特征或信息的键向量,与查询向量进行匹配。像是图书馆中所有书籍的标题和索引,等待你的查询。
值(V)代表所有可能的特征或信息的值向量,根据与查询向量的匹配程度进行加权。像是图书馆中所有书籍的内容,等待你根据标题和索引去获取。
softmax函数用于将匹配程度转化为概率分布,确保加权和的稳定性。像是将你的查询结果按照相关性进行排序,最相关的排在最前面。

2.2 优势与劣势

  • 优势

    • 动态加权:能够根据查询和键的匹配程度动态地调整特征的权重。
    • 关联筛选:能够筛选出与查询最相关的特征,提高特征的有效性和准确性。
  • 劣势

    • 计算复杂度:对于大量的特征和复杂的模型,Attention机制的计算复杂度可能较高。
    • 可解释性:相比于简单的线性加权,Attention机制的可解释性可能较差。

2.3 与特征提取的类比

Attention机制在特征提取中扮演着“放大镜”的角色,它能够放大那些与任务最相关的特征,就像放大镜能够放大物体上的细节一样,为深度学习模型提供了更加精细和有效的特征表示。
在这里插入图片描述

第三节:公式探索与推演运算

3.1 Attention机制的基本形式

Attention机制的基本形式为:

Attention ( Q , K , V ) = softmax ( Q K T d k ) V \text{Attention}(Q, K, V) = \text{softmax}(\frac{QK^T}{\sqrt{d_k}})V Attention(Q,K,V)=softmax(dk QKT)V

其中, Q Q Q K K K V V V分别代表查询、键和值向量, d k d_k dk是键向量的维度,用于缩放点积的结果,保持数值的稳定性。

3.2 具体实例与推演

假设我们有以下查询、键和值向量:

Q = [ 1 0 ] , K = [ 1 2 0 1 ] , V = [ 2 3 ] Q = \begin{bmatrix} 1 \\ 0 \end{bmatrix}, K = \begin{bmatrix} 1 & 2 \\ 0 & 1 \end{bmatrix}, V = \begin{bmatrix} 2 \\ 3 \end{bmatrix} Q=[10],K=[1021],V=[23]

我们可以计算Attention机制的输出:

Q K T = [ 1 0 ] [ 1 0 2 1 ] = [ 1 0 0 0 ] QK^T = \begin{bmatrix} 1 & 0 \end{bmatrix} \begin{bmatrix} 1 & 0 \\ 2 & 1 \end{bmatrix} = \begin{bmatrix} 1 & 0 \\ 0 & 0 \end{bmatrix} QKT=[10][1201]=[1000]

softmax ( Q K T d k ) = softmax ( [ 1 0 0 0 ] ) = [ 1 0 0 0 ] \text{softmax}(\frac{QK^T}{\sqrt{d_k}}) = \text{softmax}(\begin{bmatrix} 1 & 0 \\ 0 & 0 \end{bmatrix}) = \begin{bmatrix} 1 & 0 \\ 0 & 0 \end{bmatrix} softmax(dk QKT)=softmax([1000])=[1000]

Attention ( Q , K , V ) = [ 1 0 0 0 ] [ 2 3 ] = [ 2 0 ] \text{Attention}(Q, K, V) = \begin{bmatrix} 1 & 0 \\ 0 & 0 \end{bmatrix} \begin{bmatrix} 2 \\ 3 \end{bmatrix} = \begin{bmatrix} 2 \\ 0 \end{bmatrix} Attention(Q,K,V)=[1000][23]=[20]

通过这个例子,我们可以看到Attention机制如何根据查询和键的匹配程度对值向量进行加权。

第四节:相似公式比对

  • 点积Attention加性Attention

    • 共同点:都用于计算查询和键之间的匹配程度。
    • 不同点:点积Attention使用点积操作来计算匹配程度,而加性Attention则使用一个前馈神经网络来计算匹配程度。
  • 自注意力(Self-Attention)交叉注意力(Cross-Attention)

    • 相似点:都使用Attention机制来计算特征之间的关联。
    • 差异:自注意力是在同一组特征内部计算关联,而交叉注意力则是在两组不同的特征之间计算关联。

第五节:核心代码与可视化

这段代码使用PyTorch框架实现了简单的Attention机制,并生成了Attention权重的可视化图像。

import torch
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns# Define simple Attention mechanism
def attention(Q, K, V):d_k = K.size()[-1]scores = torch.matmul(Q, K.transpose(-2, -1)) / torch.sqrt(torch.tensor(d_k, dtype=torch.float32))attention_weights = torch.softmax(scores, dim=-1)output = torch.matmul(attention_weights, V)return output, attention_weights# Example data
Q = torch.tensor([[1.0, 0.0]], dtype=torch.float32)
K = torch.tensor([[1.0, 2.0], [0.0, 1.0]], dtype=torch.float32)
V = torch.tensor([[2.0], [3.0]], dtype=torch.float32)# Compute Attention
output, attention_weights = attention(Q, K, V)# Visualize Attention weights
sns.set_theme(style="whitegrid")
plt.bar(['Feature 1', 'Feature 2'], attention_weights.numpy()[0])
plt.xlabel('Features')
plt.ylabel('Attention Weights')
plt.title('Attention Weight Visualization')
plt.show()# Print output and attention weights
print("Output of Attention mechanism:", output.numpy())
print("Attention weights:", attention_weights.numpy())

这段代码首先定义了一个简单的Attention函数,然后使用示例数据计算了Attention的输出和权重,并将权重进行了可视化。通过可视化,我们可以直观地看到不同特征之间的Attention权重分配。

引用:通俗理解的核心

Attention机制就像是一个精细的筛子,在深度学习模型中筛选出那些最具有关联性的特征,然后再利用MLP对这些特征进行进一步的处理和拟合,从而得到特征与标签之间的关系。

参考文献

  • “Attention Is All You Need” by Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N. Gomez, Łukasz Kaiser, and Illia Polosukhin (2017).
  • “Neural Machine Translation by Jointly Learning to Align and Translate” by Dzmitry Bahdanau, Kyunghyun Cho, and Yoshua Bengio (2014).

这篇关于【通俗理解】深度学习特征提取——Attention机制的数学原理与应用的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1118538

相关文章

HarmonyOS学习(七)——UI(五)常用布局总结

自适应布局 1.1、线性布局(LinearLayout) 通过线性容器Row和Column实现线性布局。Column容器内的子组件按照垂直方向排列,Row组件中的子组件按照水平方向排列。 属性说明space通过space参数设置主轴上子组件的间距,达到各子组件在排列上的等间距效果alignItems设置子组件在交叉轴上的对齐方式,且在各类尺寸屏幕上表现一致,其中交叉轴为垂直时,取值为Vert

Ilya-AI分享的他在OpenAI学习到的15个提示工程技巧

Ilya(不是本人,claude AI)在社交媒体上分享了他在OpenAI学习到的15个Prompt撰写技巧。 以下是详细的内容: 提示精确化:在编写提示时,力求表达清晰准确。清楚地阐述任务需求和概念定义至关重要。例:不用"分析文本",而用"判断这段话的情感倾向:积极、消极还是中性"。 快速迭代:善于快速连续调整提示。熟练的提示工程师能够灵活地进行多轮优化。例:从"总结文章"到"用

JVM 的类初始化机制

前言 当你在 Java 程序中new对象时,有没有考虑过 JVM 是如何把静态的字节码(byte code)转化为运行时对象的呢,这个问题看似简单,但清楚的同学相信也不会太多,这篇文章首先介绍 JVM 类初始化的机制,然后给出几个易出错的实例来分析,帮助大家更好理解这个知识点。 JVM 将字节码转化为运行时对象分为三个阶段,分别是:loading 、Linking、initialization

中文分词jieba库的使用与实景应用(一)

知识星球:https://articles.zsxq.com/id_fxvgc803qmr2.html 目录 一.定义: 精确模式(默认模式): 全模式: 搜索引擎模式: paddle 模式(基于深度学习的分词模式): 二 自定义词典 三.文本解析   调整词出现的频率 四. 关键词提取 A. 基于TF-IDF算法的关键词提取 B. 基于TextRank算法的关键词提取

水位雨量在线监测系统概述及应用介绍

在当今社会,随着科技的飞速发展,各种智能监测系统已成为保障公共安全、促进资源管理和环境保护的重要工具。其中,水位雨量在线监测系统作为自然灾害预警、水资源管理及水利工程运行的关键技术,其重要性不言而喻。 一、水位雨量在线监测系统的基本原理 水位雨量在线监测系统主要由数据采集单元、数据传输网络、数据处理中心及用户终端四大部分构成,形成了一个完整的闭环系统。 数据采集单元:这是系统的“眼睛”,

【前端学习】AntV G6-08 深入图形与图形分组、自定义节点、节点动画(下)

【课程链接】 AntV G6:深入图形与图形分组、自定义节点、节点动画(下)_哔哩哔哩_bilibili 本章十吾老师讲解了一个复杂的自定义节点中,应该怎样去计算和绘制图形,如何给一个图形制作不间断的动画,以及在鼠标事件之后产生动画。(有点难,需要好好理解) <!DOCTYPE html><html><head><meta charset="UTF-8"><title>06

学习hash总结

2014/1/29/   最近刚开始学hash,名字很陌生,但是hash的思想却很熟悉,以前早就做过此类的题,但是不知道这就是hash思想而已,说白了hash就是一个映射,往往灵活利用数组的下标来实现算法,hash的作用:1、判重;2、统计次数;

认识、理解、分类——acm之搜索

普通搜索方法有两种:1、广度优先搜索;2、深度优先搜索; 更多搜索方法: 3、双向广度优先搜索; 4、启发式搜索(包括A*算法等); 搜索通常会用到的知识点:状态压缩(位压缩,利用hash思想压缩)。

csu 1446 Problem J Modified LCS (扩展欧几里得算法的简单应用)

这是一道扩展欧几里得算法的简单应用题,这题是在湖南多校训练赛中队友ac的一道题,在比赛之后请教了队友,然后自己把它a掉 这也是自己独自做扩展欧几里得算法的题目 题意:把题意转变下就变成了:求d1*x - d2*y = f2 - f1的解,很明显用exgcd来解 下面介绍一下exgcd的一些知识点:求ax + by = c的解 一、首先求ax + by = gcd(a,b)的解 这个

hdu1394(线段树点更新的应用)

题意:求一个序列经过一定的操作得到的序列的最小逆序数 这题会用到逆序数的一个性质,在0到n-1这些数字组成的乱序排列,将第一个数字A移到最后一位,得到的逆序数为res-a+(n-a-1) 知道上面的知识点后,可以用暴力来解 代码如下: #include<iostream>#include<algorithm>#include<cstring>#include<stack>#in