【陈工笔记-Transformer】GAMLP图注意力多层感知器中注意力机制的理解

本文主要是介绍【陈工笔记-Transformer】GAMLP图注意力多层感知器中注意力机制的理解,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

基本信息

标题:图注意力多层感知器
链接: Graph Attention Multi-Layer Perceptron | Papers With Code
作者:Wentao Zhang,Ziqi Yin,Zeang Sheng,Yang Li,Wen Ouyang,Xiaosen Li,Yangyu Tao,Zhi Yang,Bin Cui

要点记录
问题:

图神经网络GNN在许多基于图的应用中取得了巨大成功。然而,大规模图的高稀疏性阻碍了它们在工业场景中的应用。虽然针对大规模图提出了一些可扩展的GNN,但它们对每个节点采用固定的邻域,导致GNN模型在训练过程中对实际感知域不敏感。因此在稀疏区域内对节点采用大传播深度时,会面临过平滑问题。具体而言,现有的基于GNN的改进算法,存在特征传播方式缺乏灵活性的问题,无法对不同感受野(RF) 下的关联节点进行建模,会产生两种可能的结果:(1)长距离的依赖性由于 RF 过小而不能被充分利用;(2)由于RF过大而引入过平滑的噪声而失去了局部信息。

与先前的基于GNN的方法SIGN相比,SIGN解决了不同跳的信息没有充分利用的问题,它将不同跳的特征做了拼接操作,并将其输入至一个简单的MLP。但是,SIGN的缺点在于它并没有注意到不同节点所需要的传播深度不同的问题。如果跳数K取得非常大,那么后续拼接的特征都是过平滑特征,也就引入了很多噪声信息,最终导致模型性能不佳。

即,简单的将多跳的特征直接进行拼接或均值化操作可能不是最佳选择。一个更好的方法应该是使用自适应的聚合。

方案:

该团队提出了以节点自适应方式,来显式学习多尺度知识的重要性和相关性,开发了一种图形注意力多层感知器。它可以在节点的粒度上自动利用不同邻域的知识。GAMLP主要引入两种新颖的注意力机制来实现这一点:递归注意力跳跃知识注意力。这两种注意机制可以以节点自适应的方式捕获在不同传播深度处传播的信息之间的复杂相关性。因此,DGMLP具有与现有的简化和可扩展GNN模型相同的优点,同时由于其利用节点自适应RF的能力而提供了更好的性能。

具体技术

特征聚合机制提及两种,包括Recursive Attention和JK Attention。

Recursive Attention,在计算第l层特征的重要性时拼接了之前所有层的加权特征。这样计算得到的权重值的物理意义为:当前层特征有多少比例是之前所有层所不包含的信息。

JK Attention,将每个节点不同层的特征拼接并经过一个MLP进行变换,并将输出特征作为一个reference来衡量当前层的节点特征的重要性。这样计算得到的权重值的物理意义为:当前层的特征信息相较于所有层的特征信息,其信息量较大的特征占比有多少。

JKAttention注意力机制的深度解读

有关JK Attention注意力机制,可以延伸至 JKnet: Representation Learning on Graphs with Jumping Knowledge Networks。下面简要理解一下这篇文章的要点。

为了适应局部邻域属性和任务,该团队探索了一种架构——跳跃知识(JK)网络,该网络灵活地利用每个节点的不同邻域范围,以实现更好的结构感知表示。具体地,提出两个简单但有效的架构改变——跳跃连接(jump connections)和一个带有选择性和适应性的后聚合机制(a subsequent selective but adaptive aggregation mechanism)。

既然不同的结点需要的影响范围不一样,即不同的结点需要的邻域聚合信息程度不一样,那么就统一由模型自己来学习什么时候需要哪种程度的信息。在传统模型的基础上,将每一层的结果都联合起来输出到最后一层,这样模型就可以自己学习选择每个结点需要哪层的聚合信息。例如,对于图中心的稠密结点,可能只需要第二层的聚合信息就够了,而不需要后续的聚合信息,那么模型就会学习只关注第二层的邻居聚合信息而忽略其他层的聚合信息;而对于图边缘的稀疏结点,就可能需要更高层的聚合信息。基于此,对于不同的结点,每个结点能够自适应地选择最合适的聚合信息,即那一层的聚合信息。

(上述内容,借鉴自以下参考链接,主要用于自己的学习和记录,如果能够为大家提供些许帮助,属实幸运,内容持续更新ing)

参考链接:

1、GAT v.s. MLP

2、如何解决GNN的可扩展性与灵活性问题?

3、JKnet: Representation Learning on Graphs with Jumping Knowledge Networks

这篇关于【陈工笔记-Transformer】GAMLP图注意力多层感知器中注意力机制的理解的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/651487

相关文章

JVM 的类初始化机制

前言 当你在 Java 程序中new对象时,有没有考虑过 JVM 是如何把静态的字节码(byte code)转化为运行时对象的呢,这个问题看似简单,但清楚的同学相信也不会太多,这篇文章首先介绍 JVM 类初始化的机制,然后给出几个易出错的实例来分析,帮助大家更好理解这个知识点。 JVM 将字节码转化为运行时对象分为三个阶段,分别是:loading 、Linking、initialization

认识、理解、分类——acm之搜索

普通搜索方法有两种:1、广度优先搜索;2、深度优先搜索; 更多搜索方法: 3、双向广度优先搜索; 4、启发式搜索(包括A*算法等); 搜索通常会用到的知识点:状态压缩(位压缩,利用hash思想压缩)。

【生成模型系列(初级)】嵌入(Embedding)方程——自然语言处理的数学灵魂【通俗理解】

【通俗理解】嵌入(Embedding)方程——自然语言处理的数学灵魂 关键词提炼 #嵌入方程 #自然语言处理 #词向量 #机器学习 #神经网络 #向量空间模型 #Siri #Google翻译 #AlexNet 第一节:嵌入方程的类比与核心概念【尽可能通俗】 嵌入方程可以被看作是自然语言处理中的“翻译机”,它将文本中的单词或短语转换成计算机能够理解的数学形式,即向量。 正如翻译机将一种语言

【学习笔记】 陈强-机器学习-Python-Ch15 人工神经网络(1)sklearn

系列文章目录 监督学习:参数方法 【学习笔记】 陈强-机器学习-Python-Ch4 线性回归 【学习笔记】 陈强-机器学习-Python-Ch5 逻辑回归 【课后题练习】 陈强-机器学习-Python-Ch5 逻辑回归(SAheart.csv) 【学习笔记】 陈强-机器学习-Python-Ch6 多项逻辑回归 【学习笔记 及 课后题练习】 陈强-机器学习-Python-Ch7 判别分析 【学

Java ArrayList扩容机制 (源码解读)

结论:初始长度为10,若所需长度小于1.5倍原长度,则按照1.5倍扩容。若不够用则按照所需长度扩容。 一. 明确类内部重要变量含义         1:数组默认长度         2:这是一个共享的空数组实例,用于明确创建长度为0时的ArrayList ,比如通过 new ArrayList<>(0),ArrayList 内部的数组 elementData 会指向这个 EMPTY_EL

系统架构师考试学习笔记第三篇——架构设计高级知识(20)通信系统架构设计理论与实践

本章知识考点:         第20课时主要学习通信系统架构设计的理论和工作中的实践。根据新版考试大纲,本课时知识点会涉及案例分析题(25分),而在历年考试中,案例题对该部分内容的考查并不多,虽在综合知识选择题目中经常考查,但分值也不高。本课时内容侧重于对知识点的记忆和理解,按照以往的出题规律,通信系统架构设计基础知识点多来源于教材内的基础网络设备、网络架构和教材外最新时事热点技术。本课时知识

【C++高阶】C++类型转换全攻略:深入理解并高效应用

📝个人主页🌹:Eternity._ ⏩收录专栏⏪:C++ “ 登神长阶 ” 🤡往期回顾🤡:C++ 智能指针 🌹🌹期待您的关注 🌹🌹 ❀C++的类型转换 📒1. C语言中的类型转换📚2. C++强制类型转换⛰️static_cast🌞reinterpret_cast⭐const_cast🍁dynamic_cast 📜3. C++强制类型转换的原因📝

【编程底层思考】垃圾收集机制,GC算法,垃圾收集器类型概述

Java的垃圾收集(Garbage Collection,GC)机制是Java语言的一大特色,它负责自动管理内存的回收,释放不再使用的对象所占用的内存。以下是对Java垃圾收集机制的详细介绍: 一、垃圾收集机制概述: 对象存活判断:垃圾收集器定期检查堆内存中的对象,判断哪些对象是“垃圾”,即不再被任何引用链直接或间接引用的对象。内存回收:将判断为垃圾的对象占用的内存进行回收,以便重新使用。

【Tools】大模型中的自注意力机制

摇来摇去摇碎点点的金黄 伸手牵来一片梦的霞光 南方的小巷推开多情的门窗 年轻和我们歌唱 摇来摇去摇着温柔的阳光 轻轻托起一件梦的衣裳 古老的都市每天都改变模样                      🎵 方芳《摇太阳》 自注意力机制(Self-Attention)是一种在Transformer等大模型中经常使用的注意力机制。该机制通过对输入序列中的每个元素计算与其他元素之间的相似性,

深入理解RxJava:响应式编程的现代方式

在当今的软件开发世界中,异步编程和事件驱动的架构变得越来越重要。RxJava,作为响应式编程(Reactive Programming)的一个流行库,为Java和Android开发者提供了一种强大的方式来处理异步任务和事件流。本文将深入探讨RxJava的核心概念、优势以及如何在实际项目中应用它。 文章目录 💯 什么是RxJava?💯 响应式编程的优势💯 RxJava的核心概念