【阅读笔记】Bringing Your Own View: Graph Contrastive Learning without Prefabricated Data Augmentations

本文主要是介绍【阅读笔记】Bringing Your Own View: Graph Contrastive Learning without Prefabricated Data Augmentations,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

【阅读笔记】WSDM 2022 - Bringing Your Own View: Graph Contrastive Learning without Prefabricated Data Augmentations

  • 1 引言
  • 2 相关工作
    • 2.1 Graph contrastive learning.
    • 2.2 Learnable prior.
    • 2.3 Graph generative model.
  • 3 方法
    • 3.1 可学习先验的图生成模型
    • 3.2 对比学习先验的原则
  • 4 实验
    • 4.1 与最先进水平的比较
      • 4.1.1 半监督学习
      • 4.1.2 迁移学习
    • 4.2 进一步分析
      • 4.2.1图形生成质量通常与下游性能保持一致
      • 4.2.2 单独使用分子特异性生成器对分子数据集没有显著的好处。
      • 4.2.3 调整原则性奖励超参数可以进一步增强竞争性能。
      • 4.2.4 生成图连接稀疏,以捕捉模式。
  • 5 总结

1 引言

非欧几里德结构化数据的自监督学习最近引起了广泛的兴趣,它能够从未标记的图数据中学习可推广、可转移和鲁棒性的表示。与图像、语音或自然语言不同,图形结构数据不是单态的,而是各种性质的抽象(例如社交网络、聚合物或电网)。然而,这种独特的异质性挑战在以前的自监督工作中没有得到充分解决。
现有方法的成功依赖于精心设计的具有领域专业知识的预测性借口任务(例如,上下文预测、元路径提取、图完成等),前提是指定的任务是所有数据集中通常有效的先验,而它并不总是得到保证,尤其是在提到的多样性上下文中。
最近出现的对比方法似乎没有设置借口,而借口以伪装的形式存在:需要构建适当的手工对比视图(例如全局-局部表示、扩散矩阵,γ-ego网络等),否则会导致性能下降。最先进的(SOTA)代表图对比学习(GraphCL),甚至通过额外的人工工作来应对这一挑战:它通过经验法则或试错法,通过手动选择和应用每个数据集的预制增强操作在增强图上进行对比。因此,它根据不同的图数据集更加灵活,尽管成本更高,因为规则是通过使用下游标签进行冗长的调优得到的,并且构建在预制先验池(即现成的增强)之上。
我们帮助缩小差距的观点是将预制的自我监督先验转化为可学习的先验。直观地说,与坚持不变的先验相比,遵循数据驱动理念的可学习先验更具通用性,与手工从现成的先验中挑选相比,要求资源更少。在视频生成、压缩感知和贝叶斯深度学习中探索了学习先验。然而,据我们所知,在离散和不规则的图形数据结构中尚未探讨这一观点。

  • 定义和追求可学习的自监督先验可以依赖的空间、原则和框架是什么?
    • 利用SOTA-GraphCL框架作为基础模型,我们创新性地将增强集中预制的离散先验扩展为可学习的连续先验,该先验由神经网络参数化,在对比训练期间自适应地动态地从数据中学习。
      (i) 先验空间由神经网络的参数空间决定,我们利用图生成模型进行参数化。
      (ii)采用信息最小化(InfoMin)和信息瓶颈(InfoBN)作为原则来正则化生成器优化。
      (iii)新方法为一个双层优化(框架)
  • 拟议的组件简要总结如下:
    • 由图生成模型参数化的可学习先验函数,该模型可能能够很好地从数据中捕获图先验(见第3.1节);
    • InfoMin和InfoBN的原理,用于在对比学习期间正则化发电机优化,避免崩溃的琐碎解决方案(见第3.2节)。

本文贡献:
(i)我们首次尝试将可学习先验与图形神经网络相结合,在有指导意义的先例假设下进一步利用丰富数据的力量;
(ii)我们在自适应和自动化方面学习,这不仅需要很少的人力来预制先验,即增强函数,但也以数据驱动、灵活和有原则的方式在自我监督过程中学习这些知识。这对于根据图多态性挑战实现更好的泛化至关重要,这是以数据驱动的方式实现的,无需手工知识或昂贵的试错,尤其是在大规模数据集上。
我们在图数据集上评估了我们提出的半监督学习和转移学习方法,包括社交网络、蛋白质相互作用网络、代码抽象语法树和分子。在数值上,我们表明,在小基准上,GraphCL中学习到的先验与SOTA竞争对手的性能相当,并且在大规模数据集上具有更好的泛化能力,而不需要任何人工劳动来预先定义扩充或繁琐的调整。

2 相关工作

2.1 Graph contrastive learning.

Alt

Alt

2.2 Learnable prior.

以图对比学习为例,我们通常会采用节点去除,边去除,节点特征掩膜等方法进行图增强。选用这些增强方法的一个前提是,我们知道这些增强方法不会改变图的语义信息。那么,这个前提实际就是prior.

2.3 Graph generative model.

我们在这里关注最近的基于学习的生成模型在输入图𝐺的条件,将𝜙-parameterized随机生成函数定义为𝑔𝜙:G→G,对目标的LGen (G,𝜙)进行优化。

3 方法

3.1 可学习先验的图生成模型

  • 在GraphCL中制定先验。
    作者把图对比学习中的prior定义为图流形中的随机映射m。这个随机映射是从一个图空间映射到另外一个图空间 m :G→G 。
  • 在对比学习中结合先前学习的图形生成模型的框架。
    具有学习先验的GraphCL的简单双层优化形式写为:

Alt

  • 图形发生器的奖励信号。
    公式(2)虽然合理,但在训练期间没有从上层优化传递到下层优化的消息。换言之,生成模型在(2)中训练,没有考虑GraphCL,这使得先验学习不适应对比学习,并可能导致先验的平凡解和对比学习的模式崩溃(例如,两个图生成器输出相同地分布,导致简单的对比优化)。为了将反馈传播到较低级别的生成器优化,我们另外给它一个“奖励”信号(如图2所示),并得出一个新的双层优化公式,如下所示:
    Alt
    奖励的形式很简单,𝑟 (G, 𝜙1, 𝜙2, 𝜃 ) = {1, given some condition ; 𝛿 ≪1, otherwise},如果条件不满足,奖励减弱到𝛿。

Alt
基于ogbg数据集的学习先验(LP)w/和w/o原理的初步实验。该原理是根据验证从{InfoMin,InfoBN}中选择的。红色字体表示最佳性能。

Alt图生成模型𝑔𝜙1、𝑔𝜙2生成对比视图进行自监督对比,并因参数更新而获得奖励。

3.2 对比学习先验的原则

在这里插入图片描述
InfoMin和InfoBN原则示意图,用于指导GraphCL中的先前学习。

  • 信息最小化原则(InfoMin):鼓励对比视图在最大化其潜在表达之间的一致性时共享更少的互信息(MI)。
    InfoMin奖励函数定义为 𝑟InfoMin (G, 𝜙1, 𝜙2, 𝜃 ) 在这里插入图片描述

  • 信息瓶颈原则(InfoBN):最初是为了阻止表示获取与预测目标无关的多余信息,以实现更好的通用性和鲁棒性。
    InfoBN奖励函数定义为为𝑟InfoBN (G, 𝜙1, 𝜙2, 𝜃, 𝜋) ={ 1, if LInfoBN (G,𝜙1,𝜙2,𝜃,𝜋 ) >threshold;𝛿 ≪1, otherwise

在这里插入图片描述
关于最小化 𝜋 。实现精确估计。这样,带有InfoBN的GraphCL写为:
在这里插入图片描述

  • 将InfoMin与InfoBN合并。
    最后,将InfoMin与InfoBN as Info(Min&BN)结合起来,以探索这两种原则的适当协作是否能够超越各自的表现。我们根据两个对比视图之间以及视图及其嵌入之间的估计MI的加权和构建协作奖励,表述为
    在这里插入图片描述

4 实验

4.1 与最先进水平的比较

4.1.1 半监督学习

在这里插入图片描述

4.1.2 迁移学习

在这里插入图片描述
Alt

4.2 进一步分析

4.2.1图形生成质量通常与下游性能保持一致

  • 表5显示,在InfoMin和InfoBN原则的指导下,生成器进行了更精确的链路预测(在AUROC和AUPRC中),导致8个数据集中有6个具有更好的下游性能。
    在这里插入图片描述

  • 如图4所示,在训练期间的不同检查点中观察到相同的趋势。
    在这里插入图片描述

4.2.2 单独使用分子特异性生成器对分子数据集没有显著的好处。

我们在表6中展示了纳入InfoMin原理的结果。
在这里插入图片描述

4.2.3 调整原则性奖励超参数可以进一步增强竞争性能。

在这里插入图片描述

4.2.4 生成图连接稀疏,以捕捉模式。

在这里插入图片描述

5 总结

结论在本文中,我们通过引入可学习先验和学习框架来实现更具自适应性、自动性和可推广性的图自监督学习。利用SOTA-GraphCL框架作为基础模型,我们将预制的离散先验扩展为可学习的连续先验,由图生成模型参数化。此外,还结合了InfoMin和InfoBN等原则,以避免陷入琐碎地解决方案中。由此产生的框架被表述为双层优化。从经验上看,这是首次尝试将自适应和动态学习的先验知识与GNN相结合,在小型基准测试上与SOTA竞争对手不相上下,并在大规模数据集上具有更好的泛化能力,而无需借助领域知识的专业知识或依赖下游验证的繁琐试错。我们提出的可学习先验进一步利用了图域中深度学习和大数据的能力,因此在推荐系统、药物发现和组合优化中具有广泛的兴趣和应用。

这篇关于【阅读笔记】Bringing Your Own View: Graph Contrastive Learning without Prefabricated Data Augmentations的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/315425

相关文章

JAVA智听未来一站式有声阅读平台听书系统小程序源码

智听未来,一站式有声阅读平台听书系统 🌟 开篇:遇见未来,从“智听”开始 在这个快节奏的时代,你是否渴望在忙碌的间隙,找到一片属于自己的宁静角落?是否梦想着能随时随地,沉浸在知识的海洋,或是故事的奇幻世界里?今天,就让我带你一起探索“智听未来”——这一站式有声阅读平台听书系统,它正悄悄改变着我们的阅读方式,让未来触手可及! 📚 第一站:海量资源,应有尽有 走进“智听

【学习笔记】 陈强-机器学习-Python-Ch15 人工神经网络(1)sklearn

系列文章目录 监督学习:参数方法 【学习笔记】 陈强-机器学习-Python-Ch4 线性回归 【学习笔记】 陈强-机器学习-Python-Ch5 逻辑回归 【课后题练习】 陈强-机器学习-Python-Ch5 逻辑回归(SAheart.csv) 【学习笔记】 陈强-机器学习-Python-Ch6 多项逻辑回归 【学习笔记 及 课后题练习】 陈强-机器学习-Python-Ch7 判别分析 【学

系统架构师考试学习笔记第三篇——架构设计高级知识(20)通信系统架构设计理论与实践

本章知识考点:         第20课时主要学习通信系统架构设计的理论和工作中的实践。根据新版考试大纲,本课时知识点会涉及案例分析题(25分),而在历年考试中,案例题对该部分内容的考查并不多,虽在综合知识选择题目中经常考查,但分值也不高。本课时内容侧重于对知识点的记忆和理解,按照以往的出题规律,通信系统架构设计基础知识点多来源于教材内的基础网络设备、网络架构和教材外最新时事热点技术。本课时知识

论文翻译:arxiv-2024 Benchmark Data Contamination of Large Language Models: A Survey

Benchmark Data Contamination of Large Language Models: A Survey https://arxiv.org/abs/2406.04244 大规模语言模型的基准数据污染:一项综述 文章目录 大规模语言模型的基准数据污染:一项综述摘要1 引言 摘要 大规模语言模型(LLMs),如GPT-4、Claude-3和Gemini的快

论文阅读笔记: Segment Anything

文章目录 Segment Anything摘要引言任务模型数据引擎数据集负责任的人工智能 Segment Anything Model图像编码器提示编码器mask解码器解决歧义损失和训练 Segment Anything 论文地址: https://arxiv.org/abs/2304.02643 代码地址:https://github.com/facebookresear

数学建模笔记—— 非线性规划

数学建模笔记—— 非线性规划 非线性规划1. 模型原理1.1 非线性规划的标准型1.2 非线性规划求解的Matlab函数 2. 典型例题3. matlab代码求解3.1 例1 一个简单示例3.2 例2 选址问题1. 第一问 线性规划2. 第二问 非线性规划 非线性规划 非线性规划是一种求解目标函数或约束条件中有一个或几个非线性函数的最优化问题的方法。运筹学的一个重要分支。2

【C++学习笔记 20】C++中的智能指针

智能指针的功能 在上一篇笔记提到了在栈和堆上创建变量的区别,使用new关键字创建变量时,需要搭配delete关键字销毁变量。而智能指针的作用就是调用new分配内存时,不必自己去调用delete,甚至不用调用new。 智能指针实际上就是对原始指针的包装。 unique_ptr 最简单的智能指针,是一种作用域指针,意思是当指针超出该作用域时,会自动调用delete。它名为unique的原因是这个

查看提交历史 —— Git 学习笔记 11

查看提交历史 查看提交历史 不带任何选项的git log-p选项--stat 选项--pretty=oneline选项--pretty=format选项git log常用选项列表参考资料 在提交了若干更新,又或者克隆了某个项目之后,你也许想回顾下提交历史。 完成这个任务最简单而又有效的 工具是 git log 命令。 接下来的例子会用一个用于演示的 simplegit

记录每次更新到仓库 —— Git 学习笔记 10

记录每次更新到仓库 文章目录 文件的状态三个区域检查当前文件状态跟踪新文件取消跟踪(un-tracking)文件重新跟踪(re-tracking)文件暂存已修改文件忽略某些文件查看已暂存和未暂存的修改提交更新跳过暂存区删除文件移动文件参考资料 咱们接着很多天以前的 取得Git仓库 这篇文章继续说。 文件的状态 不管是通过哪种方法,现在我们已经有了一个仓库,并从这个仓

忽略某些文件 —— Git 学习笔记 05

忽略某些文件 忽略某些文件 通过.gitignore文件其他规则源如何选择规则源参考资料 对于某些文件,我们不希望把它们纳入 Git 的管理,也不希望它们总出现在未跟踪文件列表。通常它们都是些自动生成的文件,比如日志文件、编译过程中创建的临时文件等。 通过.gitignore文件 假设我们要忽略 lib.a 文件,那我们可以在 lib.a 所在目录下创建一个名为 .gi