STRATEGIES FOR PRE-TRAINING GRAPH NEURAL NETWORKS

2024-04-14 23:58

本文主要是介绍STRATEGIES FOR PRE-TRAINING GRAPH NEURAL NETWORKS,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

pre-train+fine-tune的策略已经广泛地应用在了CV, NLP领域,但如何有效地利用图数据集的预训练仍然是一个有待解决的问题。本文提出了一种在node-level和graph-level同时学习的预训练模型,能够很好地得到图的局部和全局的表示。实验证明预训练模型在ROC-AUC上超过了非预训练模型9.4%,并在分子性质预测和蛋白质功能预测方面达到了最好的表现。
本文被ICLR2020接收,Strategies for Pre-training Graph Neural Networks

INTRODUCTION

在图上做预训练的关键思想是利用易得的节点级别的信息让模型能够捕获到domain-specific的节点和边的knowledge,进而获得图级别的knowledge。
如果仅仅做节点级别的pre-train,虽然不同的节点能够很好地被区分,但节点组合成的图不能被很好地被区分;如果仅仅做图级别的pre-train,虽然不同的图能够被很好地区分,但图中节点的表示不能够被区分。所以既需要节点级别的,也需要图级别的,这样无论是不同的节点的表示还是图的表示都能够在空间中很好地区分开来。
在这里插入图片描述

STRATEGIES FOR PRE-TRAINING GRAPH NEURAL NETWORKS

NODE-LEVEL PRE-TRAINING

在这里插入图片描述

CONTEXT PREDICTION: EXPLOITING DISTRIBUTION OF GRAPH STRUCTURE

这一部分的主要任务是让模型具有通过中心节点预测其周围结构的能力。
Neighborhood and context graphs:
一个 K K K层GNN网络可以聚合节点 k k k阶邻居的信息,本文将节点 v v v k k k阶邻居内的边和节点称作是 v v vK-hop neighborhood,将节点 v v v r 1 ( r 1 < K ) r_1(r_1 < K) r1(r1<K) r 2 r_2 r2跳之内的子图称作是 v v vcontext graph,将context graphK-hop neighborhood重叠的部分称作 v v vcontext anchor nodes
Encoding context into a fixed vector using an auxiliary GNN:
在这里使用辅助的context GNN编码context graph,然后使用得到的context anchor nodes的embedding的均值作为context graph的embedding,记作 c v G c_v^G cvG
Learning via negative sampling:
训练目标是 σ ( h v ( K ) ⊤ c v ′ G ′ ) ≈ 1 { v and  v ′ are the same nodes  } \sigma\left(h_{v}^{(K) \top} c_{v^{\prime}}^{G^{\prime}}\right) \approx 1\left\{v \text { and } v^{\prime} \text { are the same nodes }\right\} σ(hv(K)cvG)1{v and v are the same nodes }通过negative sampling 的方式得到负样本。

ATTRIBUTE MASKING: EXPLOITING DISTRIBUTION OF GRAPH ATTRIBUTES

通过令网络能够预测被mask掉的节点/边的方式,让网络能够学习到图的一些性质。具体来说,通过mask掉分子结构的部分原子,模型能够学习到一些化学的规则,通过mask掉蛋白质交互网络的部分边,模型能够学习到不同的交互如何关联起来。

GRAPH-LEVEL PRE-TRAINING

SUPERVISED GRAPH-LEVEL PROPERTY PREDICTION

通过图级别的表示来预测图的一些标签,例如预测化学物质的性质或蛋白质的功能,每一个标签对应着一个二分类问题。
但是这样的multi-task的图级别的预训练可能会带来negative transfer的问题,一个解决办法是只让模型去预测和下游任务相关的一些标签, 但是这样的做法需要手动去选择哪些标签是相关的。

One solution would be to select “truly-relevant” supervised pre-training tasks and pre-train GNNs only on those tasks.

为了缓解这个问题,本文只使用多任务的有监督预训练进行图级别的学习,不使用在此过程中生成的节点嵌入。这些无用的节点表示可能会加重负迁移问题,因为在节点的嵌入空间中,许多不同的预训练任务容易互相干扰。
所以首先需要进行节点级别的pre-train,然后再做图级别的pre-train,这样产生了更加 transferable 的图表示,并在没有专家选择监督的培训前任务的情况下显著提高了下游的性能。

STRUCTURAL SIMILARITY PREDICTION

future work!

EXPERIMENTS

待更新

这篇关于STRATEGIES FOR PRE-TRAINING GRAPH NEURAL NETWORKS的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/904382

相关文章

2014 Multi-University Training Contest 8小记

1002 计算几何 最大的速度才可能拥有无限的面积。 最大的速度的点 求凸包, 凸包上的点( 注意不是端点 ) 才拥有无限的面积 注意 :  凸包上如果有重点则不满足。 另外最大的速度为0也不行的。 int cmp(double x){if(fabs(x) < 1e-8) return 0 ;if(x > 0) return 1 ;return -1 ;}struct poin

2014 Multi-University Training Contest 7小记

1003   数学 , 先暴力再解方程。 在b进制下是个2 , 3 位数的 大概是10000进制以上 。这部分解方程 2-10000 直接暴力 typedef long long LL ;LL n ;int ok(int b){LL m = n ;int c ;while(m){c = m % b ;if(c == 3 || c == 4 || c == 5 ||

2014 Multi-University Training Contest 6小记

1003  贪心 对于111...10....000 这样的序列,  a 为1的个数,b为0的个数,易得当 x= a / (a + b) 时 f最小。 讲串分成若干段  1..10..0   ,  1..10..0 ,  要满足x非递减 。  对于 xi > xi+1  这样的合并 即可。 const int maxn = 100008 ;struct Node{int

MonoHuman: Animatable Human Neural Field from Monocular Video 翻译

MonoHuman:来自单目视频的可动画人类神经场 摘要。利用自由视图控制来动画化虚拟化身对于诸如虚拟现实和数字娱乐之类的各种应用来说是至关重要的。已有的研究试图利用神经辐射场(NeRF)的表征能力从单目视频中重建人体。最近的工作提出将变形网络移植到NeRF中,以进一步模拟人类神经场的动力学,从而动画化逼真的人类运动。然而,这种流水线要么依赖于姿态相关的表示,要么由于帧无关的优化而缺乏运动一致性

图神经网络框架DGL实现Graph Attention Network (GAT)笔记

参考列表: [1]深入理解图注意力机制 [2]DGL官方学习教程一 ——基础操作&消息传递 [3]Cora数据集介绍+python读取 一、DGL实现GAT分类机器学习论文 程序摘自[1],该程序实现了利用图神经网络框架——DGL,实现图注意网络(GAT)。应用demo为对机器学习论文数据集——Cora,对论文所属类别进行分类。(下图摘自[3]) 1. 程序 Ubuntu:18.04

SIGMOD-24概览Part7: Industry Session (Graph Data Management)

👇BG3: A Cost Effective and I/O Efficient Graph Database in ByteDance 🏛机构:字节 ➡️领域: Information systems → Data management systemsStorage management 📚摘要:介绍了字节新提出的ByteGraph 3.0(BG3)模型,用来处理大规模图结构数据 背景

Post-Training有多重要?一文带你了解全部细节

1. 简介 随着LLM学界和工业界日新月异的发展,不仅预训练所用的算力和数据正在疯狂内卷,后训练(post-training)的对齐和微调方法也在不断更新。InstructGPT、WebGPT等较早发布的模型使用标准RLHF方法,其中的数据管理风格和规模似乎已经过时。近来,Meta、谷歌和英伟达等AI巨头纷纷发布开源模型,附带发布详尽的论文或报告,包括Llama 3.1、Nemotron 340

A Comprehensive Survey on Graph Neural Networks笔记

一、摘要-Abstract 1、传统的深度学习模型主要处理欧几里得数据(如图像、文本),而图神经网络的出现和发展是为了有效处理和学习非欧几里得域(即图结构数据)的信息。 2、将GNN划分为四类:recurrent GNNs(RecGNN), convolutional GNNs,(GCN), graph autoencoders(GAE), and spatial–temporal GNNs(S

Neighborhood Homophily-based Graph Convolutional Network

#paper/ccfB 推荐指数: #paper/⭐ #pp/图结构学习 流程 重定义同配性指标: N H i k = ∣ N ( i , k , c m a x ) ∣ ∣ N ( i , k ) ∣ with c m a x = arg ⁡ max ⁡ c ∈ [ 1 , C ] ∣ N ( i , k , c ) ∣ NH_i^k=\frac{|\mathcal{N}(i,k,c_{

OpenSNN推文:神经网络(Neural Network)相关论文最新推荐(九月份)(一)

基于卷积神经网络的活动识别分析系统及应用 论文链接:oalib简介:  活动识别技术在智能家居、运动评估和社交等领域得到广泛应用。本文设计了一种基于卷积神经网络的活动识别分析与应用系统,通过分析基于Android搭建的前端采所集的三向加速度传感器数据,对用户的当前活动进行识别。实验表明活动识别准确率满足了应用需求。本文基于识别的活动进行卡路里消耗计算,根据用户具体的活动、时间以及体重计算出相应活