图神经网络GNN预训练技术进展概述

2024-04-13 20:48

本文主要是介绍图神经网络GNN预训练技术进展概述,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

来源:图与推荐本文约2800字,建议阅读5分钟本文为大家推荐四篇有关于GNN预训练的文章。

论文推荐 /introduction/

机器学习的成功很大程度上取决于数据。但是,高质量的标记数据通常很昂贵且难以获得,尤其是对于训练参数较多的模型。而我们却可以很容易地获取大量的无标记数据,其数量可能是标记数据的数千倍。

为了解决标注数据较少的问题,我们要尽可能利用其无标注数据,一个常规的做法是自监督的预训练(self-supervised pre-training)。其目标是设计合理的自监督任务,从而使模型能从无标注数据里学得数据的信息,作为初始化迁移到下游任务中。4

这里我们为大家推荐四篇有关于GNN预训练的文章:

  1. Learning to Pre-train Graph Neural Networks

  2. Pre-Training Graph Neural Networks for Cold-Start Users and Items Representation

  3. GPT-GNN: Generative Pre-Training of Graph Neural Networks

  4. Strategies for Pre-training Graph Neural Networks

  1 Strategies for Pre-training Graph Neural Networks

这篇文章是业界大牛Jure的文章,他的团队提出了一个新的策略和自监督方法来预训练GNN。

这个模型的中心思想是,在单个节点及整个图的层级上预训练GNN,这样GNN就可以同时学习到有用的局部和全局表示。

经过在多个图分类数据集上的研究,我们发现,传统的策略(要么在整个图上,要么在单个节点上预训练GNN)的性能提升是受限的,甚至可能会在下流任务上造成相反的迁移。而我们的策略避免了相反的迁移,并且在下流任务上提升了泛化能力。相较于SOTA模型能够得到高达9.4%的ROC-AUC提升。

图1

论文接下来分别介绍了节点层级和图层级的预训练。

对于GNN的节点级预训练,我们的方法是使用易于访问的未标记数据来捕获图中的特定领域的知识/规律。 在这里,我们提出了两种自我监督的方法,上下文预测和属性屏蔽。

图中展示了节点级预训练的方法。(a)在上下文预测中,子图是一个选定中心节点及周围的K跳邻居,K是GNN的层数(在上图中设置为2)。而上下文则被定义为从中心节点开始r1跳到r2跳的图结构(在上图中设置r1=1,r2=4)(b)在属性屏蔽中,输入 的节点/边属性会被随机地屏蔽,而GNN负责预测它们。

对于图层级的预训练,目标是确保节点和图嵌入都是高质量的,这样在下游任务上图嵌入就是鲁棒、可迁移的。图层级的预训练有两个选项:对全图特定领域属性做预测,或对图结构做预测。

总而言之,预训练策略是首先执行节点级自我监督的预训练,然后执行图级多任务监督的预训练。GNN预训练完成后,会在下游任务上微调预训练的GNN模型。具体来说,我们在图级表示之上添加线性分类器,以预测下游图标签。完整的模型(即预训练的GNN和下游线性分类器)随后以端到端的方式进行了微调。我们证明了我们的预训练方法在GNN中转发计算所需的计算开销很小。

表1

在GIN模型上,用不同的预训练模型,测试其ROC-AUC值。可以看到同时在图层级和节点层级上预训练的模型表现是最好的。

2 GPT-GNN: Generative Pre-Training of Graph Neural Networks

这篇论文提出了GPT-GNN框架,通过生成预训练来初始化GNN。GPT-GNN引入了自监督的属性图生成任务来预训练GNN,以便它可以捕获图的结构和语义属性。

我们将图生成分为两部分:

1.属性生成

2.边生成

通过对这两个部分建模,在生成过程中,GPT-GNN捕获了节点属性和图结构之间的固有依赖。

在百万级数据上进行的综合性实验证明,GPT-GNN比其他先进的GNN模型更有效,在下流任务上可以达到9.1%的效果。

图2

图2展示了GPT-GNN的预训练和微调流。首先,GNN可以通过自监督学习任务进行预训练,生成属性和边。然后,预训练的模型和他的参数可以被用来初始化模型。

为了同时捕获属性、结构信息,需要将节点的条件生成概率分解为特征生成和图结构生成。首先,通过已观测到的边来预测节点特征,然后,通过已观测到的边和预测的节点特征,预测剩下的边。

表2

将HGT,将GCN,GAT,RGCN,HAN作为基础模型,发现在经过预训练之后,他们的表现会更好。能达到10%以上的提升。

3 Learning to Pre-train Graph Neural Networks

这篇论文的作者来自北京邮电大学、腾讯、新加坡管理大学和鹏城实验室的。论文非常有趣,是讲怎样学习预训练GNN的。

传统的GNN预训练通常是遵循两步范式的:

1.在大量的无标签数据上进行预训练

2.在标签数据上进行微调

由于两步的目标不同,所以会存在一个偏差。针对于样的问题。

为了减少这个偏差,论文中提出了L2P-GNN,一个自监督的预训练策略。L2P-GNN的中心思想是,在预训练的过程中进行微调,使得模型可以快速适应新任务。这样学习到的初始化不仅对节点之间的局部连通性进行了编码和调整,还能泛化到图的不同子结构。

为了将局部和全局的信息考虑在内,L2P-GNN设计了一个在图层级和节点层级的双重适应机制。

最终在数据集上的实验表明,L2P-GNN是有效的。

图3

L2P-GNN的模型框架如图3所示。其中:

(a)表示输入的图,这里以输入一个图为例

(b)为任务的构建过程

(c)为双重适应自监督模型,用于学习图上的信息

表3

将L2P-GNN模型和SOTA预训练基线作比较。我们发现:

1.总体来讲,L2P-GNN模型可以获得更好的表现。在两个数据集上L2P-GNN模型可以获得高达6.27%、3.95%的提升。

2.此外,使用大量未标注数据对 GNN 进行预训练显然对下游任务有所帮助。因为相比于在两个数据集上未经过预训练的模型,L2P-GNN 分别带来了 8.19% 和 7.88% 的增益。

3.研究者还注意到,一些基线(即使用 EdgePred 和 AttrMasking 策略的 GAT 模型)在下游任务中的性能提升极为有限,并在下游任务上产生了负迁移。原因可能是这些策略学习的信息与下游任务无关,因而不利于预训练 GNN 的泛化。这一发现证实了先前的观察结果,即负迁移会限制预训练模型的使用性和可靠性。

4 Pre-Training Graph Neural Networks for Cold-Start Users and Items Representation

推荐系统可以根据用户的历史行为和兴趣来预测用户未来行为和兴趣,因此大量用户行为数据就成为推荐系统的重要组成部分和先决条件。

但是在推荐应用的开始阶段往往是没有大量数据的。如何在这种情况下设计让用户满意的推荐系统,就是冷启动问题。

尽管研究人员已经通过结合高阶协作信号来解决该问题,但是用户冷启动和物品冷启动问题并未得到明显优化。

而这篇论文提出,在应用GNN模型之前,先对其进行预训练。但是预训练的目的并不是为了做推荐,而是交互性模拟来自用户/项目的冷启动场景,并将嵌入重建作为任务,从而可以直接提高嵌入质量,从而适应新的冷启动用户/项目。

为了减少冷启动邻居的影响,加入了自监督的元聚集器来增强图卷积的聚集能力.

在三个公开推荐数据集上的实验证明我们的预训练GNN相比之前的GNN模型是有效的。

模型图如图4所示

图4

图中为预训练和微调GNN的总体框架。预训练GNN模型在每一个原始GNN模型聚集步骤中,加入了自监督元学习器的元聚集器,以及一个邻居取样器(根据来自预测嵌入和地面真实嵌入之间的余弦相似度的反馈,自适应地对邻居进行采样)。预训练好的GNN模型可以应用于微调下游的任务。

表4

从表4可以看到总体的推荐表现。可以看到经过预训练之后的GNN模型表现相比之前提高了0.4%-3.5%。可以证明预训练GNN模型是有效的。

编辑:王菁

校对:林亦霖

这篇关于图神经网络GNN预训练技术进展概述的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/901180

相关文章

水位雨量在线监测系统概述及应用介绍

在当今社会,随着科技的飞速发展,各种智能监测系统已成为保障公共安全、促进资源管理和环境保护的重要工具。其中,水位雨量在线监测系统作为自然灾害预警、水资源管理及水利工程运行的关键技术,其重要性不言而喻。 一、水位雨量在线监测系统的基本原理 水位雨量在线监测系统主要由数据采集单元、数据传输网络、数据处理中心及用户终端四大部分构成,形成了一个完整的闭环系统。 数据采集单元:这是系统的“眼睛”,

【专题】2024飞行汽车技术全景报告合集PDF分享(附原数据表)

原文链接: https://tecdat.cn/?p=37628 6月16日,小鹏汇天旅航者X2在北京大兴国际机场临空经济区完成首飞,这也是小鹏汇天的产品在京津冀地区进行的首次飞行。小鹏汇天方面还表示,公司准备量产,并计划今年四季度开启预售小鹏汇天分体式飞行汽车,探索分体式飞行汽车城际通勤。阅读原文,获取专题报告合集全文,解锁文末271份飞行汽车相关行业研究报告。 据悉,业内人士对飞行汽车行业

图神经网络模型介绍(1)

我们将图神经网络分为基于谱域的模型和基于空域的模型,并按照发展顺序详解每个类别中的重要模型。 1.1基于谱域的图神经网络         谱域上的图卷积在图学习迈向深度学习的发展历程中起到了关键的作用。本节主要介绍三个具有代表性的谱域图神经网络:谱图卷积网络、切比雪夫网络和图卷积网络。 (1)谱图卷积网络 卷积定理:函数卷积的傅里叶变换是函数傅里叶变换的乘积,即F{f*g}

金融业开源技术 术语

金融业开源技术  术语 1  范围 本文件界定了金融业开源技术的常用术语。 本文件适用于金融业中涉及开源技术的相关标准及规范性文件制定和信息沟通等活动。

Java 创建图形用户界面(GUI)入门指南(Swing库 JFrame 类)概述

概述 基本概念 Java Swing 的架构 Java Swing 是一个为 Java 设计的 GUI 工具包,是 JAVA 基础类的一部分,基于 Java AWT 构建,提供了一系列轻量级、可定制的图形用户界面(GUI)组件。 与 AWT 相比,Swing 提供了许多比 AWT 更好的屏幕显示元素,更加灵活和可定制,具有更好的跨平台性能。 组件和容器 Java Swing 提供了许多

【编程底层思考】垃圾收集机制,GC算法,垃圾收集器类型概述

Java的垃圾收集(Garbage Collection,GC)机制是Java语言的一大特色,它负责自动管理内存的回收,释放不再使用的对象所占用的内存。以下是对Java垃圾收集机制的详细介绍: 一、垃圾收集机制概述: 对象存活判断:垃圾收集器定期检查堆内存中的对象,判断哪些对象是“垃圾”,即不再被任何引用链直接或间接引用的对象。内存回收:将判断为垃圾的对象占用的内存进行回收,以便重新使用。

AI(文生语音)-TTS 技术线路探索学习:从拼接式参数化方法到Tacotron端到端输出

AI(文生语音)-TTS 技术线路探索学习:从拼接式参数化方法到Tacotron端到端输出 在数字化时代,文本到语音(Text-to-Speech, TTS)技术已成为人机交互的关键桥梁,无论是为视障人士提供辅助阅读,还是为智能助手注入声音的灵魂,TTS 技术都扮演着至关重要的角色。从最初的拼接式方法到参数化技术,再到现今的深度学习解决方案,TTS 技术经历了一段长足的进步。这篇文章将带您穿越时

系统架构设计师: 信息安全技术

简简单单 Online zuozuo: 简简单单 Online zuozuo 简简单单 Online zuozuo 简简单单 Online zuozuo 简简单单 Online zuozuo :本心、输入输出、结果 简简单单 Online zuozuo : 文章目录 系统架构设计师: 信息安全技术前言信息安全的基本要素:信息安全的范围:安全措施的目标:访问控制技术要素:访问控制包括:等保

MiniGPT-3D, 首个高效的3D点云大语言模型,仅需一张RTX3090显卡,训练一天时间,已开源

项目主页:https://tangyuan96.github.io/minigpt_3d_project_page/ 代码:https://github.com/TangYuan96/MiniGPT-3D 论文:https://arxiv.org/pdf/2405.01413 MiniGPT-3D在多个任务上取得了SoTA,被ACM MM2024接收,只拥有47.8M的可训练参数,在一张RTX

前端技术(七)——less 教程

一、less简介 1. less是什么? less是一种动态样式语言,属于css预处理器的范畴,它扩展了CSS语言,增加了变量、Mixin、函数等特性,使CSS 更易维护和扩展LESS 既可以在 客户端 上运行 ,也可以借助Node.js在服务端运行。 less的中文官网:https://lesscss.cn/ 2. less编译工具 koala 官网 http://koala-app.