【每日一读】Kronecker Attention Networks

2024-03-03 06:20

本文主要是介绍【每日一读】Kronecker Attention Networks,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

目录

  • 简介
  • 论文简介
  • ABSTRACT
  • 1 INTRODUCTION
  • 2 BACKGROUND AND RELATED WORK
    • 2.1 Attention Operator
    • 2.2 Non-Local Operator
  • 3 KRONECKER ATTENTION NETWORKS
  • 5 CONCLUSIONS
  • 读后总结
  • 结语

在这里插入图片描述

简介

Hello!
非常感谢您阅读海轰的文章,倘若文中有错误的地方,欢迎您指出~
 
ଘ(੭ˊᵕˋ)੭
昵称:海轰
标签:程序猿|C++选手|学生
简介:因C语言结识编程,随后转入计算机专业,获得过国家奖学金,有幸在竞赛中拿过一些国奖、省奖…已保研
学习经验:扎实基础 + 多做笔记 + 多敲代码 + 多思考 + 学好英语!
 
唯有努力💪
 
【每日一读】每天浅读一篇论文,了解专业前沿知识,培养阅读习惯(阅读记录 仅供参考)

论文简介

原文链接:https://dl.acm.org/doi/10.1145/3394486.3403065

会议:KDD '20: Proceedings of the 26th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining (CCF A类)

代码:https://github.com/ChandlerBang/Pro-GNN

年度:2020年8月20日

ABSTRACT

注意力运算符已应用于文本等一维数据和图像和视频等高阶数据

在高阶数据上使用注意算子需要将空间或时空维度展平为一个向量,假设该向量遵循多元正态分布

这不仅会对计算资源产生过多的要求,而且无法保留数据中的结构

在这项工作中,我们建议通过假设数据遵循矩阵变量正态分布来避免扁平化

基于这种新观点,我们开发了直接对高阶张量数据进行操作的 Kronecker 注意算子 (KAO)

更重要的是,提议的 KAO 导致计算资源的显着减少

实验结果表明

  • 我们的方法将所需的计算资源量减少了数百倍,对于高维和高阶数据的因子更大
  • 具有 KAO 的网络优于没有注意力的模型,同时实现了与具有原始注意力算子的网络竞争的性能

1 INTRODUCTION

具有注意算子的深度神经网络在解决自然语言处理 [3, 19, 33]、计算机视觉 [26, 38] 和网络嵌入 [9, 34] 等各个领域的挑战性任务方面表现出强大的能力

注意力算子能够捕获远程依赖关系,从而显着提升性能[23、27]

虽然注意力算子最初是针对一维数据提出的,但最近的研究 [7, 35, 40] 试图将它们应用于高阶数据,例如图像和视频

然而,在高阶数据上使用注意力算子的一个实际挑战是对计算资源的过度要求,包括计算成本和内存使用

例如,对于二维图像任务,时间和空间复杂度都是输入特征图的高度和宽度乘积的二次方

随着空间或时空维度和输入数据顺序的增加,这个瓶颈变得越来越严重

先前的方法通过在注意力运算符 [35] 之前对数据进行下采样或限制注意力路径 [16] 来解决这个问题


在这项工作中,我们为高阶数据提出了新颖且高效的注意力算子,称为 Kronecker 注意力算子 (KAO)

我们从概率的角度研究上述问题,具体来说,常规注意力操作符将数据展平,并假设展平的数据遵循多元正态分布

这种假设不仅导致高计算成本和内存使用,而且无法保留数据的空间或时空结构

相反,我们建议使用矩阵变量正态分布对数据进行建模,其中 Kronecker 协方差结构能够捕捉空间或时空维度之间的关系

基于这种新观点,我们提出了我们的 KAO,它避免了扁平化并直接对高阶数据进行操作

实验结果表明,KAO 与原始注意力算子一样有效,同时大大减少了所需的计算资源量

特别是,我们使用 KAO 来设计一系列高效模块,从而产生了我们称为 Kronecker 注意力网络 (KANets) 的紧凑型深度模型

  • KANets 在图像分类任务上显着优于先前的紧凑模型,参数更少,计算成本更低
  • 此外,我们对图像分割任务进行了实验,以证明我们的方法在一般应用场景中的有效性

2 BACKGROUND AND RELATED WORK

在本节中,我们将描述注意力和相关的非局部算子,它们已应用于文本、图像和视频等各种类型的数据

2.1 Attention Operator

注意算子的输入包括一个查询矩阵 Q =(︀q 1, q2,⋯, qm ⌋︀ ∈ Rd×m,每个 qi ∈ Rd ,一个关键矩阵 K =(︀k 1, k2, ⋯, kn ⌋︀ ∈ Rd×n 与每个 ki ∈ Rd 和一个值矩阵 V = (︀ v 1, v2,⋯, vn ⌋︀ ∈ Rp×n 与每个 vi ∈ Rp

注意力操作通过参与计算查询向量 qi 的响应到 K 中的所有关键向量,并使用结果对 V 中的值向量进行加权求和

注意算子的逐层前向传播操作可以表示为

在这里插入图片描述

KT 和 Q 之间的矩阵相乘得到系数矩阵 E = KT Q,其中每个元素 ei j 由 kT i 和 qj 之间的内积计算。该系数矩阵 E 计算每个查询向量 qi 和每个关键向量 kj 之间的相似度得分,并通过按列的 softmax 算子进行归一化,以使每列总和为 1。输出 O ∈ Rp×m 是通过将 V 与归一化的E. 在自注意力运算符 [33] 中,我们有 Q = K = V。图 1 提供了注意力操作符的说明。等式中的计算成本。 1 是 O(m ×n × (d +p))。存储中间系数矩阵E所需的内存为O(mn)。如果 d = p 和 m = n,则时间和空间复杂度分别变为 O(m2 × d) 和 O(m2)。

还有其他几种从 Q 和 K 计算 E 的方法,包括高斯函数、点积、级联和嵌入式高斯函数。已经表明,点积是最简单但最有效的一种 [35]。因此,我们在这项工作中关注点积相似度函数。

在实践中,我们可以首先对每个输入矩阵进行单独的线性变换,得到以下注意算子:O = W V V Softmax((W K K)T W Q Q),其中 W V ∈ Rp′×p , W K ∈Rd′×d , W Q ∈ Rd′×d 。为了符号简单,我们在下面的讨论中省略了线性变换。

注意力机制的介绍

2.2 Non-Local Operator

[35] 中提出的非局部算子将自注意力算子应用于图像和视频等高阶数据

以二维数据为例,非局部算子的输入是一个三阶张量 X ∈ Rh×w ×c ,其中 h、w 和 c 分别表示通道的高度、宽度和数量.

张量首先通过沿模式 3 [ 21 ] 展开转换为矩阵 X (3) ∈ Rc×hw,如图 2 所示

在这里插入图片描述

然后我们执行方程式中的操作。 1 通过设置 Q = K = V = X (3)。注意算子的输出被转换回三阶张量作为最终输出。

非本地算子的一个实际挑战是它消耗过多的计算资源

  • 如果 h = w,则二维非局部算子的计算成本为 O(h4 × c)
  • 用于存储中间系数矩阵的内存会产生 O(h4) 空间复杂度
  • 高维和高阶数据的时间和空间复杂度高得令人望而却步

3 KRONECKER ATTENTION NETWORKS

在本节中,我们描述了我们提出的 Kronecker 注意算子,它们是高阶数据上高效且有效的注意算子

我们还描述了如何使用这些算子来构建 Kronecker 注意力网络

5 CONCLUSIONS

在这项工作中,我们提出了 Kronecker 注意算子来解决在高阶数据上应用注意算子的实际挑战

我们从概率的角度研究这个问题,并使用具有 Kronecker 协方差结构的矩阵变量正态分布

实验结果表明

  • 我们的 KAO 将所需的计算资源量减少了数百倍
  • 对于更高维和更高阶的数据具有更大的因子,我们使用 KAO 来设计一系列高效模块,从而产生了我们的 KANet

KANets 在图像分类任务上显着优于之前最先进的紧凑模型,参数更少,计算成本更低

此外,我们对图像分割任务进行了实验,以展示我们的 KAO 在一般应用场景中的有效性

读后总结

针对高阶数据的注意力计算算子

目前还用不到 哈哈 大概率是低阶的

结语

文章仅作为个人学习笔记记录,记录从0到1的一个过程

希望对您有一点点帮助,如有错误欢迎小伙伴指正

在这里插入图片描述

这篇关于【每日一读】Kronecker Attention Networks的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/768727

相关文章

什么是 Flash Attention

Flash Attention 是 由 Tri Dao 和 Dan Fu 等人在2022年的论文 FlashAttention: Fast and Memory-Efficient Exact Attention with IO-Awareness 中 提出的, 论文可以从 https://arxiv.org/abs/2205.14135 页面下载,点击 View PDF 就可以下载。 下面我

【每日一题】LeetCode 2181.合并零之间的节点(链表、模拟)

【每日一题】LeetCode 2181.合并零之间的节点(链表、模拟) 题目描述 给定一个链表,链表中的每个节点代表一个整数。链表中的整数由 0 分隔开,表示不同的区间。链表的开始和结束节点的值都为 0。任务是将每两个相邻的 0 之间的所有节点合并成一个节点,新节点的值为原区间内所有节点值的和。合并后,需要移除所有的 0,并返回修改后的链表头节点。 思路分析 初始化:创建一个虚拟头节点

每日一题|牛客竞赛|四舍五入|字符串+贪心+模拟

每日一题|四舍五入 四舍五入 心有猛虎,细嗅蔷薇。你好朋友,这里是锅巴的C\C++学习笔记,常言道,不积跬步无以至千里,希望有朝一日我们积累的滴水可以击穿顽石。 四舍五入 题目: 牛牛发明了一种新的四舍五入应用于整数,对个位四舍五入,规则如下 12345->12350 12399->12400 输入描述: 输入一个整数n(0<=n<=109 ) 输出描述: 输出一个整数

每日一练7:简写单词(含链接)

1.链接 简写单词_牛客题霸_牛客网 2.题目 3.代码1(错误经验) #include <iostream>#include <string>using namespace std;int main() {string s;string ret;int count = 0;while(cin >> s)for(auto a : s){if(count == 0){if( a <=

【每日刷题】Day113

【每日刷题】Day113 🥕个人主页:开敲🍉 🔥所属专栏:每日刷题🍍 🌼文章目录🌼 1. 91. 解码方法 - 力扣(LeetCode) 2. LCR 098. 不同路径 - 力扣(LeetCode) 3. 63. 不同路径 II - 力扣(LeetCode) 1. 91. 解码方法 - 力扣(LeetCode) //思路:动态规划。 cl

图神经网络框架DGL实现Graph Attention Network (GAT)笔记

参考列表: [1]深入理解图注意力机制 [2]DGL官方学习教程一 ——基础操作&消息传递 [3]Cora数据集介绍+python读取 一、DGL实现GAT分类机器学习论文 程序摘自[1],该程序实现了利用图神经网络框架——DGL,实现图注意网络(GAT)。应用demo为对机器学习论文数据集——Cora,对论文所属类别进行分类。(下图摘自[3]) 1. 程序 Ubuntu:18.04

力扣 739. 每日温度【经典单调栈题目】

1. 题目 理解题意: 1.1. 给一个温度集合, 要返回一个对应长度的结果集合, 这个结果集合里面的元素 i 是 当前 i 位置的元素的下一个更高温度的元素的位置和当前 i 位置的距离之差, 若是当前元素不存在下一个更高温度的元素, 则这个位置用0代替; 2. 思路 本题用单调栈来求解;单调栈就适用于来求当前元素左边或者右边第一个比当前元素大或者小的元素;【单调栈:让栈中的元素保持单调

每日一题——第八十一题

打印如下图案: #include<stdio.h>int main() {int i, j;char ch = 'A';for (i = 1; i < 5; i++, ch++){for (j = 0; j < 5 - i; j++){printf(" ");//控制空格输出}for (j = 1; j < 2 * i; j++)//条件j < 2 * i{printf("%c", ch

每日一题,力扣leetcode Hot100之238.除自身以外数组的乘积

乍一看这个题很简单,但是不能用除法,并且在O(N)时间复杂度完成或许有点难度。 考虑到不能用除法,如果我们要计算输出结果位置i的值,我们就要获取这个位置左边的乘积和右边的乘积,那么我新设立两个数组L和R。 对于L来说,由于表达的是位置i左边的数的乘积,那么L[0]=1,因为第一个数字左边没数那么为了不影响乘积初始值就设置为1,那么L[1]=L[0]*nums[0],那么L[i]=L[i-1

英语每日一段 195

Promising economic indicators won’t instantly reverse the lingering impact of hard times for millions of families, workplace culture expert Jessica Kriegel said. “Perception and reality are sometimes