【论文阅读】Graph Contrastive Learning with Adaptive Augmentation

2023-10-18 12:59

本文主要是介绍【论文阅读】Graph Contrastive Learning with Adaptive Augmentation,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

Graph Contrastive Learning with Adaptive Augmentation

用于图数据增强的图对比学习

文章目录

  • Graph Contrastive Learning with Adaptive Augmentation
  • 用于图数据增强的图对比学习
  • 摘要
  • 1 引言
  • 二、模型方法
    • 1.准备工作
    • 2.对比学习框架
    • 3.自适应图增强
      • 3.1 拓扑级别的增强
      • 3.2 节点属性级增强
    • 4.实验
      • 4.1 实验设置
      • 4.2 RQ1:在节点分类上的性能
      • 4.3 RQ2:消融研究
      • 4.4 RQ3:灵敏度分析
    • 5. 总结

摘要

近年来,对比学习(Contrastive Learning,CL)已成为一种成功的无监督图表示学习方法。大多数图的CL方法首先对输入图进行随机增强,以获得两个图的视图,并最大化两个视图表示的一致性。尽管图CL方法得到了繁荣的发展,但CL中的一个关键组成部分——图增强方案的设计,仍然很少被探索。我们认为,数据增强方案应该保留图的内在结构和属性,这将迫使模型学习对不重要的节点和边缘的扰动不敏感的表示。然而,现有的方法大多采用统一的数据增强方案,如统一降边和统一变换特征,导致性能次优。在本文中,我们提出了一种新的具有自适应增强的图对比表示学习方法,该方法包含了图的拓扑和语义方面的各种先验。具体来说,在拓扑层面上,我们设计了基于节点中心性度量的增强方案来突出重要的连接结构。在节点属性级别上,我们通过向不重要的节点特征添加更多的噪声来破坏节点特征,以强制模型识别底层的语义信息。我们在各种真实世界的数据集上进行了广泛的节点分类实验。实验结果表明,我们提出的方法始终优于现有的先进基线,甚至超过一些监督的方法,这验证了所提出的自适应增强对比框架的有效性。

1 引言

图表示学习主要用于分析图结构的数据。通常利用图神经网络(Graph Neural Networks,GNN)进行图表示学习,其目的是将节点转换为低维密集嵌入,以保留图的属性和结构特征。现有GNN模型多以监督的方式建立,需要大量的标记节点进行训练。对比学习是通过对比正样本对和负样本对,寻求最大化输入(即图像)与其表示(即图像嵌入)之间的相互信息(Mutual Information,MI)
CL中的一个关键组成部分是图增强方法。现有的图增强方法有两个缺点:

  1. 在结构域或属性域中进行简单的数据增强不足以生成不同的邻域(上下文),特别是当节点特征稀疏时,导致难以优化对比目标。
  2. 以往的工作忽略了在进行数据扩充时节点和边缘影响的差异eg.如果我们通过均匀地删除边来构造视图,去除一些有影响的边会降低嵌入质量。

对比目标学习到的表示对数据增强方案引起的破坏往往是不变的,因此数据增强策略应该自适应输入图,以反映其内在模式。该方案能够指导模型忽略在不重要的边缘上引入的噪声,从而学习输入图下的重要模式。 eg. 以除边方案为例,当随机去除边时,我们可以给不重要边的大概率,给重要边的小概率。

本文提出了一种新的无监督图表示学习的对比框架——具有自适应增强的图对比学习(Graph Contrastive learning with Adaptive augmentation,GCA),如下图所示:
在这里插入图片描述
图1:我们提出的深度图对比表示学习与自适应增强(GCA)模型。我们首先通过自适应图的结构和属性的随机增强来生成两个图的视图。然后,将这两个图输入一个共享的图神经网络(GNN)来学习表示。我们用一个对比目标来训练模型,它将一个节点的表示拉在一起,同时将节点表示远离两个视图中的其他节点表示。注意,我们将负样本定义为两个视图中的所有其他节点。因此,阴性样本来自两个来源,即视图内节点(紫色)和视图间节点(红色)。

在GCA中,我们首先通过自适应图的结构和属性的随机增强来生成两个图的视图。然后,我们使用对比损失来训练模型,以最大化这两个视图中节点嵌入之间的一致性。
具体地说,我们提出了一种在拓扑和节点属性级别上的联合自适应数据增强方案,即去除边缘和掩蔽特征,为不同视图中的节点提供不同的上下文,从而促进对比目标的优化。
此外,我们通过中心性度量来识别重要的边缘和特征维度。
然后,在拓扑层次上,我们通过给不重要的边自适应的去除概率,以突出重要的连接结构。在节点属性级别上,我们通过向不重要的特征维度添加更多的噪声来破坏属性,以强制模型识别底层的语义信息。

本文的核心贡献是两个方面:

  1. 提出了一个具有自适应增强的图对比表示学习方法。在自适应图结构和属性的拓扑结构和属性级别上共同执行数据增强,这鼓励了模型从这两个方面学习重要的特征。
  2. 在5个公共基准数据集下对节点分类进行了全面的实证研究,GCA始终优于现有的方法。

二、模型方法

1.准备工作

在这里插入图片描述

2.对比学习框架

模型寻求最大限度地提高不同视图之间的表示一致性。
①首先通过对输入执行随机图增强来生成两个图视图。
②采用了一个对比目标,强制每个节点在两个不同视图中的编码嵌入彼此一致,并可以与其他节点的嵌入区分开来。
方法:对于任意节点𝑣𝑖,其在一个视图𝒖𝑖中生成的嵌入都被视为锚点(命名标记),其在另一个视图𝒗𝑖中生成的嵌入形成正样本,而两个视图中的其他嵌入自然被视为负样本。

将每个正样本对(𝒖𝑖,𝒗𝑖)的目标函数定义为:
在这里插入图片描述
公式说明:给定一个正样本对,我们自然地将负样本定义为两个视图中的所有其他节点。因此,负样本来自两个来源,即视图间节点和视图内节点,分别对应于等式中分母中的第二项和第三项。由于两个视图是对称的,因此另一个视图的损失同样被定义为ℓ(𝒗𝑖,𝒖𝑖)。

总体目标函数定义为所有正样本对的平均值,即:
在这里插入图片描述
GCA训练算法如下:
在这里插入图片描述
算法说明:第1步,第2步对两个随机增广函数t ~ t和t’ ~ t进行抽样;通过对G执行破坏,生成两个图视图S1 = t(G)和G2 = t’(G);利用编码器f获得G1的节点嵌入量U;利用编码器f获得g2的节点嵌入量V;利用Eq.(2)计算对比目标J;采用随机梯度上升方法更新参数,使J最大化

3.自适应图增强

想法:在GCA模型中,我们建议设计增强方案,以倾向于保持重要的结构和属性不变,同时干扰可能不重要的链接和特征。
具体做法:通过随机移除边和掩蔽节点来破坏输入图中的特征,以及去除或掩盖的概率对于不重要的边或特征较高,对于重要的边或特征较低。
目的:更强调重要的结构和属性,而不是随机损坏的视图,这将指导模型保持基本的拓扑和语义图模式。

3.1 拓扑级别的增强

对于拓扑级增强,我们考虑一种破坏输入图的直接方法,其中我们随机删除图中的边。形式上,我们从原始E中抽样一个修改的子集 E ~ \widetilde{E} E 的概率为:
在这里插入图片描述
公式说明:(𝑢,𝑣)∈E, 𝑝 u v e 𝑝^{e}_{uv} puve是去除边(𝑢,𝑣)的概率,反应边的重要性; E ~ \widetilde{E} E 作为生成的视图中的边集。

节点中心性是一种广泛使用的度量方法,它量化了图中节点的影响。 基于边(𝑢,𝑣)中两个节点u,v的节点中心度定义为 w u v e w^{e}_{uv} wuve。给定一个节点中心性度量方法 φ c \varphi _{c} φc(·) : V :V V R + R^{+} R+,定义边中心度为两个相邻节点中心度的平均值 w u v e = ( φ c ( u ) + φ c ( v ) ) / 2 w^{e}_{uv}=(\varphi _{c}(u) + \varphi_{c}(v))/2 wuve=φc(u)+φc(v)/2。在有向图上边的重要性由它的指向节点表征,故只使用尾部节点的中心度 w u v e = φ c ( v ) w^{e}_{uv}=\varphi_{c}(v) wuve=φc(v)
接下来,我们根据每条边的中心度来计算边的概率。因为边中心度可能受到数量级的影响,通过设置 s u v e = l o g w u v e s^{e}_{uv}=logw^{e}_{uv} suve=logwuve来减轻具有高度密集连接的节点的影响。然后将值转换为概率的归一化步骤之后获得概率,该归一化步骤定义为:
在这里插入图片描述
公式说明:其中 𝑝 𝑒 𝑝_{𝑒} pe作为超参控制全局去除边的概率, s m a x e s^{e}_{max} smaxe μ s e \mu ^{e}_{s} μse 分别是 s u v e s^{e}_{uv} suve的最大值和平均值,而 𝑝 τ < 1 𝑝_{\tau }<1 pτ<1代表截断概率,避免因为极高的去除概率将导致过度损坏的图结构。

对于节点中心度函数的选择,本文使用中心度、特征向量中心度和PageRank中心度这三个度量方法。

  1. 中心度。节点度本身可以是一个中心度量。在有向网络上使用入度,因为有向图中的一个节点的影响主要是由指向的节点所赋予的。优点:最简单、有效。缺点:所有相邻节点对该节点的重要性相同。
    例如,在引文网络中,节点代表论文,边缘代表引文关系,度最高的节点很可能对应于有影响力的论文。

  2. 特征向量中心度。一个节点的特征向量中心度计算为其对应邻接矩阵的最大特征值的特征向量。优点:连接到多个相邻节点或连接到有影响的节点的节点将具有较高的特征向量中心度。

  3. PageRank中心度。PageRank中心度定义为由PageRank算法计算的PageRank权重。优点:该算法沿有向边传播影响,将受影响量最大的节点视为重要节点。

三种方法的边中心度可视化:
在这里插入图片描述
数据集:空手道俱乐部数据集,分别包含由两名教练领导的两组学生。

虽然三种方案表现出细微的差异,但所有的增强方案都倾向于强调连接两组内两个教练(橙色)的边缘,而较少关注组间外围节点之间的连接。这验证了所提出的基于节点中心性的自适应拓扑增强方案可以识别图的基本结构。

3.2 节点属性级增强

在节点属性级别上,通过在节点特征中使用零随机遮蔽部分维度来向节点属性添加噪声
形式上,我们首先抽样一个随机向量 𝒎 ~ ∈ 0 , 1 𝐹 \widetilde{𝒎}∈{0,1}^{𝐹} m 0,1F,其中它的每个维度都独立地从伯努利分布中抽取。
计算生成的节点特征 𝑿 ~ \widetilde{𝑿} X = [ x 1 ∘ m ~ ; x 2 ∘ m ~ ; . . . ; x N ∘ m ~ ] T [x_{1} \circ \widetilde{m} ; x_{2} \circ \widetilde{m}; ...; x_{N} \circ \widetilde{m}]^{T} [x1m ;x2m ;...;xNm ]T
其中,[ ; ]是连接操作, ∘ \circ 是element-wise乘法,每个元素对应相乘。

概率 𝑝 𝑖 𝑓 𝑝^{𝑓}_{𝑖} pif反映节点特征第𝑖维的重要性。假设经常出现在有影响的节点中的特征维度应该是重要的,并定义特征维度的权重如下。
对于稀疏的 One-hot 节点特征,即对于任何节点𝑢和特征维度𝑖有 x u 𝑖 x_{u𝑖} xui∈{0,1},计算维度𝑖的权重为:
在这里插入图片描述
公式说明:其中, φ c ( ⋅ ) \varphi _{c}(·) φc()是一个用于量化节点重要性的节点中性度函数。 x u 𝑖 x_{u𝑖} xui∈{0,1}表示维度 i 在节点 u 中的出现情况, φ c ( u ) \varphi _{c}(u) φc(u)表示每次出现的节点的重要性。
举例,考虑一个引文网络,其中每个特征维度都对应于一个关键字。那么经常出现在一篇非常有影响力的论文中的关键词应该被认为是重要的并且带有启示性的信息。

对于密集、连续的节点 u 的节点特征 x u x_{u} xu,其中 x u 𝑖 x_{u𝑖} xui表示维数𝑖处的特征值,我们不能直接计算每个 One-hot 编码的出现次数。然后,我们用节点𝑢的绝对值| x u 𝑖 x_{u𝑖} xui|来测量维𝑖的特征值的大小:
在这里插入图片描述
对权值进行归一化,以获得表示特征重要性的概率:
在这里插入图片描述
公式说明:其中 s 𝑖 𝑓 s^{𝑓}_{𝑖} sif = log w i f w^{f}_{i} wif s m a x f s^{f}_{max} smaxf μ s f \mu ^{f}_{s} μsf 分别是 s i f s^{f}_{i} sif的最大值和平均值, p f p_{f} pf 代表全局节点特征的遮掩概率。

我们通过联合执行拓扑级和节点属性级的增强来生成两个被损坏的图视图 G 1 ~ \widetilde{G_{1}} G1 G 2 ~ \widetilde{G_{2}} G2 。在GCA中,两个视图的概率 p e p_{e} pe p f p_{f} pf 是不同的,其中第一个和第二个视图的概率分别用 p e , 1 p_{e,1} pe,1 p f , 1 p_{f,1} pf,1 p e , 2 p_{e,2} pe,2 p f , 2 p_{f,2} pf,2表示。

在本文中,我们提出并评估了三个模型变量,分别表示为GCA-DE、GCA-EV和GCA-PR。请注意,所有的中心性和权重度量都只依赖于原始图的拓扑结构和节点属性。因此,它们只需要计算一次,并且不会带来太多的计算负担。

4.实验

在本节中,我们将通过回答以下问题来进行实验来评估我们的模型。
• RQ1.我们提出的GCA在节点分类方面是否优于现有的基线方法?
• RQ2.所有提出的自适应图增强方案都有利于模型的学习?每个图的增强方案是如何影响模型的性能?
• RQ3.所提出的模型对超参数敏感吗?关键超参数如何影响模型的性能?

我们首先简要介绍了实验设置,然后我们继续介绍实验结果及其分析的细节。

4.1 实验设置

1.数据集。5个被广泛使用的数据集:Wiki-CS、Amazon-Computers、Amazon-Photo、 Coauthor-CS 、Coauthor-Physics。
其中,Wiki-CS具有密集的数值特征,而其他四个数据集只包含稀疏的 One-hot 特征。对于Wiki-CS数据集,我们在其附带的公共分割上评估模型。对于其他四个数据集,由于它们没有可用的公共分割,我们改为随机分割数据集,其中分别选择10%、10%和其余80%的节点用于训练、验证和测试集。

2.评价方案。对于每个实验,我们都遵循维利科维奇介绍的线性评估方案,其中每个模型首先以无监督的方式进行训练;然后,利用得到的嵌入来训练和测试一个简单的ℓ2正则化逻辑回归分类器。我们对不同的数据分割进行20次运行,并报告每个数据集的平均性能,以进行公平评估。此外,我们在这些实验中以准确性来衡量性能。

3.Baseline。我们考虑代表性基线方法属于以下两类:(1)传统方法包括nede2[11]和(2)方法包括深度学习图自动编码器(GAE,VGAE)[22],深度图Infomax(DGI)[46],图形互信息最大化(GMI)[32],和多视图图表示学习(MVGRL)[16].此外,我们报告了使用逻辑回归分类器对原始节点特征和深度行走与嵌入连接到输入节点特征所获得的性能。为了直接比较我们提出的方法与监督的方法,我们还报告了两个代表性模型图卷积网络(GCN)[23]和图注意网络(GAT)[45]的性能,其中它们以端到端方式进行训练。对于所有的基线,我们将根据它们的官方实现来报告它们的性能。

4.2 RQ1:在节点分类上的性能

在这里插入图片描述
性能总结如表3所示。其中𝑿、𝑨、𝒀分别对应于节点特征、邻接矩阵和标签;无监督模型的最高性能以黑体突出显示;OOM表示在一个32GB的GPU上的内存不足。

总结:
(1)我们提出的模型在所有五个数据集上都显示出了强大的性能,始终优于无监督基线,验证了所提出的对比学习框架的优越性。
(2)在某些数据集(Wiki-CS)上,GAE 的性能比 DeepWalk+feature 更差,这归因于它们选择负样本的简单方法,即简单地基于边缘选择对比对。这一事实进一步证明了基于增强图视图在对比表示学习选择负样本的重要作用。
(3)MVGRL使用扩散来将全局信息合并到增强的视图中,但它仍然没有自适应地考虑不同的边对输入图的影响。实验结果验证了我们提出的自适应数据增强方案能够通过在扰动时保留重要的信息来提高嵌入质量。

4.3 RQ2:消融研究

GCA-T-A 表示具有统一拓扑和节点属性增强方案的模型,其中所有节点的丢弃边和掩蔽特征的概率被重置为相同的。变种 GCA-T 和 GCA-A 的定义类似,所有的变种都使用了中心度方法。
在这里插入图片描述
结论:拓扑级和节点属性级自适应增强方案在所有数据集上都一致地提高了模型性能。

4.4 RQ3:灵敏度分析

在这里插入图片描述
具有不同超参数的GCA对Amazon-Photo数据集在节点分类精度上的性能
设置 p e = p e , 1 = p e , 2 p_{e}=p_{e,1}=p_{e,2} pe=pe,1=pe,2 p f = p f , 1 = p f , 2 p_{f}=p_{f,1}=p_{f,2} pf=pf,1=pf,2

结论:从图中可以看出,当参数不太大时,节点分类的精度性能相对稳定,如图中的平台所示。因此,我们得出结论,总的来说,我们的模型对这些概率不敏感,证明了对超参数扰动的鲁棒性。如果概率设置得太大(例如,>0.5),原始图将被严重破坏。例如,当𝑝𝑒=0.9时,几乎所有现有的边都已被删除,从而导致生成的图视图中出现孤立的节点。在这种情况下,GNN很难从节点邻域学习有用的信息。因此,学习到的两个图视图中的节点嵌入不够独特,这将导致优化对比目标的困难。

5. 总结

在本文中,我们开发了一种新的具有自适应增强的图对比表示学习框架。我们的模型通过最大化由自适应图增强生成的视图之间的节点嵌入的一致性来学习表示。所提出的自适应增强方案首先通过网络中心性度量来识别重要的边缘和特征维度。然后,在拓扑层次上,我们通过在不重要的边缘上分配较大的概率来随机去除边缘,以强制模型识别网络连接模式。在节点属性级别上,我们通过向不重要的特征维度添加更多的噪声来破坏属性,以强调底层的语义信息。我们已经使用各种真实世界的数据集进行了全面的实验。实验结果表明,我们提出的GCA方法始终优于现有的最先进的方法,甚至超过了一些有监督的方法。

这篇关于【论文阅读】Graph Contrastive Learning with Adaptive Augmentation的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/232734

相关文章

JAVA智听未来一站式有声阅读平台听书系统小程序源码

智听未来,一站式有声阅读平台听书系统 🌟&nbsp;开篇:遇见未来,从“智听”开始 在这个快节奏的时代,你是否渴望在忙碌的间隙,找到一片属于自己的宁静角落?是否梦想着能随时随地,沉浸在知识的海洋,或是故事的奇幻世界里?今天,就让我带你一起探索“智听未来”——这一站式有声阅读平台听书系统,它正悄悄改变着我们的阅读方式,让未来触手可及! 📚&nbsp;第一站:海量资源,应有尽有 走进“智听

AI hospital 论文Idea

一、Benchmarking Large Language Models on Communicative Medical Coaching: A Dataset and a Novel System论文地址含代码 大多数现有模型和工具主要迎合以患者为中心的服务。这项工作深入探讨了LLMs在提高医疗专业人员的沟通能力。目标是构建一个模拟实践环境,人类医生(即医学学习者)可以在其中与患者代理进行医学

论文翻译:arxiv-2024 Benchmark Data Contamination of Large Language Models: A Survey

Benchmark Data Contamination of Large Language Models: A Survey https://arxiv.org/abs/2406.04244 大规模语言模型的基准数据污染:一项综述 文章目录 大规模语言模型的基准数据污染:一项综述摘要1 引言 摘要 大规模语言模型(LLMs),如GPT-4、Claude-3和Gemini的快

论文阅读笔记: Segment Anything

文章目录 Segment Anything摘要引言任务模型数据引擎数据集负责任的人工智能 Segment Anything Model图像编码器提示编码器mask解码器解决歧义损失和训练 Segment Anything 论文地址: https://arxiv.org/abs/2304.02643 代码地址:https://github.com/facebookresear

论文翻译:ICLR-2024 PROVING TEST SET CONTAMINATION IN BLACK BOX LANGUAGE MODELS

PROVING TEST SET CONTAMINATION IN BLACK BOX LANGUAGE MODELS https://openreview.net/forum?id=KS8mIvetg2 验证测试集污染在黑盒语言模型中 文章目录 验证测试集污染在黑盒语言模型中摘要1 引言 摘要 大型语言模型是在大量互联网数据上训练的,这引发了人们的担忧和猜测,即它们可能已

OmniGlue论文详解(特征匹配)

OmniGlue论文详解(特征匹配) 摘要1. 引言2. 相关工作2.1. 广义局部特征匹配2.2. 稀疏可学习匹配2.3. 半稠密可学习匹配2.4. 与其他图像表示匹配 3. OmniGlue3.1. 模型概述3.2. OmniGlue 细节3.2.1. 特征提取3.2.2. 利用DINOv2构建图形。3.2.3. 信息传播与新的指导3.2.4. 匹配层和损失函数3.2.5. 与Super

软件架构模式:5 分钟阅读

原文: https://orkhanscience.medium.com/software-architecture-patterns-5-mins-read-e9e3c8eb47d2 软件架构模式:5 分钟阅读 当有人潜入软件工程世界时,有一天他需要学习软件架构模式的基础知识。当我刚接触编码时,我不知道从哪里获得简要介绍现有架构模式的资源,这样它就不会太详细和混乱,而是非常抽象和易

BERT 论文逐段精读【论文精读】

BERT: 近 3 年 NLP 最火 CV: 大数据集上的训练好的 NN 模型,提升 CV 任务的性能 —— ImageNet 的 CNN 模型 NLP: BERT 简化了 NLP 任务的训练,提升了 NLP 任务的性能 BERT 如何站在巨人的肩膀上的?使用了哪些 NLP 已有的技术和思想?哪些是 BERT 的创新? 1标题 + 作者 BERT: Pre-trainin

[论文笔记]LLM.int8(): 8-bit Matrix Multiplication for Transformers at Scale

引言 今天带来第一篇量化论文LLM.int8(): 8-bit Matrix Multiplication for Transformers at Scale笔记。 为了简单,下文中以翻译的口吻记录,比如替换"作者"为"我们"。 大语言模型已被广泛采用,但推理时需要大量的GPU内存。我们开发了一种Int8矩阵乘法的过程,用于Transformer中的前馈和注意力投影层,这可以将推理所需

【阅读文献】一个使用大语言模型的端到端语音概要

摘要 ssum框架(Speech Summarization)为了 从说话人的语音提出对应的文本二题出。 ssum面临的挑战: 控制长语音的输入捕捉 the intricate cross-mdoel mapping 在长语音输入和短文本之间。 ssum端到端模型框架 使用 Q-Former 作为 语音和文本的中介连接 ,并且使用LLMs去从语音特征正确地产生文本。 采取 multi-st