InfoGraph方法部分 (Unsupervised and Semi-supervised Graph-Level Representation Learning via Mutual Info)

本文主要是介绍InfoGraph方法部分 (Unsupervised and Semi-supervised Graph-Level Representation Learning via Mutual Info),希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

目录

摘要

贡献

方法

 问题定义

INFOGRAPH


论文链接:https://arxiv.org/abs/1908.01000

摘要

        本文研究了在无监督和半监督情况下学习整个图的表示。图级表示在各种现实应用中至关重要,例如预测分子的属性和社交网络中的社区分析。

        传统的基于图核的方法很简单,但对于获得图的固定长度表示很有效,但由于手工设计,它们的泛化能力很差。最近也有一些基于语言模型的方法(例如 graph2vec),但它们往往只考虑某些子结构(例如子树)作为图形代表。

        受最近无监督表示学习进展的启发,在本文中,我们提出了一种称为 InfoGraph 的新方法,用于学习图级表示。我们最大化图级表示与不同尺度子结构(例如,节点、边、三角形)的表示之间的互信息。通过这样做,图级表示对跨不同子结构规模共享的数据的各个方面进行编码。

        此外,我们进一步提出了 InfoGraph*,它是 InfoGraph 的半监督场景扩展。 InfoGraph* 最大化 InfoGraph 学习的无监督图表示与现有监督方法学习的表示之间的互信息。因此,监督编码器从未标记的数据中学习,同时保留当前监督任务青睐的潜在语义空间。

        图分类和分子特性预测任务的实验结果表明,InfoGraph 优于最先进的基线,InfoGraph* 可以实现与最先进的半监督模型相媲美的性能。

贡献

        我们提出了 InfoGraph,一种基于 Deep InfoMax (DIM) Hjelm 等人的无监督图表示学习方法。 (2018)。

        我们展示了InfoGraph 可以扩展到图上的半监督预测任务

        我们凭经验表明,InfoGraph 在使用无监督学习的图分类任务上超越了最先进的性能,并且在使用半监督学习的分子特性预测任务上获得了与最先进的方法相当的性能

方法

        最近关于图的工作集中在监督学习任务或学习节点表示上。然而,许多图分析任务(例如图分类、回归和聚类)需要将整个图表示为固定长度的特征向量。虽然图级表示可以通过节点级表示隐式获得,但显式提取图对于面向图的任务来说可能更直接和最佳

        另一个重要但在图相关文献中引起相对较少关注的场景是半监督学习。生物学预测任务中最大的挑战之一 Yan 等人。 (2017);杨等。 (2014) 或分子机器学习 Duvenaud 等人。 (2015);吉尔默等人。 (2017); Jia & Liang (2017) 是标记数据的极度稀缺。因此,将大量未标记样本与少量标记样本结合以提高模型准确性的半监督学习将在这些领域发挥关键作用

        在本节中,我们首先制定一个无监督的全图表示学习问题和一个半监督的图预测任务。然后,我们介绍了我们学习图级表示的方法。之后,我们提出了我们针对半监督学习场景提出的模型。

 

 问题定义

        无监督图表示学习。给定一组图 G = {G1, G2, ...} 和一个正整数 δ(预期嵌入大小),我们的目标是学习每个图 Gi ∈ G 的 δ 维分布式表示。我们将Gi中的节点数表示为 | Gi |。我们将所有图的表示矩阵表示为 Φ ∈ R | G | × δ。

        半监督图预测任务。给定一组标记图 GL = {G1, · · · , G|GL|} 以及相应的输出 {o1, · · · , o|GL |},以及一组未标记的样本 GU = {G|GL|+ 1, · · · , G|GL|+|GU |},我们的目标是学习一个可以对未见过的图做出预测的模型。请注意,在大多数情况下 |GU | 》|GL|。

INFOGRAPH

        我们专注于图神经网络 (GNN)——一类灵活的嵌入架构,它通过对局部节点邻域的重复聚合生成节点表示。节点的表示是通过聚合其邻域节点的特征来学习的,因此我们将这些称为补丁表示。 GNNs 利用 READOUT 函数将所有获得的补丁表示汇总为固定长度的图级表示

        形式上,GNN 的第 k 层是

         其中  是节点 v 在第 k 次迭代/层(或以节点 i 为中心的补丁表示)的特征向量,e_{uv} 是 u 和 v 之间边的特征向量,N (v) 是节点 v 的邻域。h^{(0)}_v 通常被初始化为节点特征。 READOUT 可以是一个简单的置换不变函数,例如平均或更复杂的图级池函数 Ying 等人。 (2018);张等。 (2018)。

        我们寻求通过最大化图形级和补丁级表示之间的互信息来获得图形表示。通过这样做,图表示可以学习对跨所有子结构共享的数据方面进行编码。假设给定我们一组训练样本 ,在输入空间上具有经验概率分布 P。设 \phi 表示 K 层图神经网络的参数集 .在图神经网络的第一个 k 层之后,将输入图编码成一组补丁表示 。接下来,我们将图形神经网络各个深度的特征向量汇总为一个单一的特征向量,以每个节点为中心捕获不同尺度的补丁信息。

        其中  是以节点 i 为中心的汇总补丁表示 是应用 READOUT 后的全局表示。请注意,这里我们稍微滥用了 h 的符号 

         我们在全局/局部对上定义我们的互信息 (MI) 估计器,最大化给定数据集 上的估计 MI

         Iφ,ψ 是由鉴别器 Tψ 建模并由具有参数 ψ 的神经网络参数化的互信息估计器。我们使用 Jensen-Shannon MI 估计器(遵循 Nowozin 等人 (2016) 的公式),

         其中x是输入样本,x′(负样本)是从\widetilde{P} = P采样的输入,一个与输入空间的经验概率分布相同的分布,sp(z) = log(1 + e^z )是softplus函数。在实践中,我们使用批处理中所有图形实例的全局和局部补丁表示的所有可能组合来生成负样本

        由于鼓励 Hφ(G) 具有包含所有尺度信息的补丁的高 MI,这有利于对跨补丁共享的数据方面和跨尺度共享的方面进行编码。该算法如图 1 所示。 

        需要注意的是,我们的模型类似于 Deep Graph Infomax (DGI) Veliˇckovi ́c 等人。 (2018),一种用于学习无监督节点嵌入的模型。但是,由于我们关注的问题不同,因此存在重要的设计差异。首先,在 DGI 中,他们使用随机抽样来获得负样本,因为他们主要专注于学习图上的节点嵌入。然而,对比方法需要大量的负样本才能具有竞争力 Hjelm 等人。 (2018),因此,当我们试图在给定许多图实例的情况下学习图嵌入时,使用分批生成负样本至关重要。其次,图卷积编码器的选择也很关键。我们使用 GIN Xu 等人。 (2018a) 而 DGI 使用 GCN Kipf & Welling (2016) 作为 GIN 为图级应用程序提供更好的归纳偏差。应仔细考虑图形神经网络设计,以便图形表示可以区分其他图形实例。例如,我们对 READOUT 使用 均值求和,这可以提供有关图形大小的重要信息。

这篇关于InfoGraph方法部分 (Unsupervised and Semi-supervised Graph-Level Representation Learning via Mutual Info)的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/243023

相关文章

Java中读取YAML文件配置信息常见问题及解决方法

《Java中读取YAML文件配置信息常见问题及解决方法》:本文主要介绍Java中读取YAML文件配置信息常见问题及解决方法,本文给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要... 目录1 使用Spring Boot的@ConfigurationProperties2. 使用@Valu

Java 方法重载Overload常见误区及注意事项

《Java方法重载Overload常见误区及注意事项》Java方法重载允许同一类中同名方法通过参数类型、数量、顺序差异实现功能扩展,提升代码灵活性,核心条件为参数列表不同,不涉及返回类型、访问修饰符... 目录Java 方法重载(Overload)详解一、方法重载的核心条件二、构成方法重载的具体情况三、不构

SQL中如何添加数据(常见方法及示例)

《SQL中如何添加数据(常见方法及示例)》SQL全称为StructuredQueryLanguage,是一种用于管理关系数据库的标准编程语言,下面给大家介绍SQL中如何添加数据,感兴趣的朋友一起看看吧... 目录在mysql中,有多种方法可以添加数据。以下是一些常见的方法及其示例。1. 使用INSERT I

Python中反转字符串的常见方法小结

《Python中反转字符串的常见方法小结》在Python中,字符串对象没有内置的反转方法,然而,在实际开发中,我们经常会遇到需要反转字符串的场景,比如处理回文字符串、文本加密等,因此,掌握如何在Pyt... 目录python中反转字符串的方法技术背景实现步骤1. 使用切片2. 使用 reversed() 函

Python中将嵌套列表扁平化的多种实现方法

《Python中将嵌套列表扁平化的多种实现方法》在Python编程中,我们常常会遇到需要将嵌套列表(即列表中包含列表)转换为一个一维的扁平列表的需求,本文将给大家介绍了多种实现这一目标的方法,需要的朋... 目录python中将嵌套列表扁平化的方法技术背景实现步骤1. 使用嵌套列表推导式2. 使用itert

Python使用pip工具实现包自动更新的多种方法

《Python使用pip工具实现包自动更新的多种方法》本文深入探讨了使用Python的pip工具实现包自动更新的各种方法和技术,我们将从基础概念开始,逐步介绍手动更新方法、自动化脚本编写、结合CI/C... 目录1. 背景介绍1.1 目的和范围1.2 预期读者1.3 文档结构概述1.4 术语表1.4.1 核

在Linux中改变echo输出颜色的实现方法

《在Linux中改变echo输出颜色的实现方法》在Linux系统的命令行环境下,为了使输出信息更加清晰、突出,便于用户快速识别和区分不同类型的信息,常常需要改变echo命令的输出颜色,所以本文给大家介... 目python录在linux中改变echo输出颜色的方法技术背景实现步骤使用ANSI转义码使用tpu

Conda与Python venv虚拟环境的区别与使用方法详解

《Conda与Pythonvenv虚拟环境的区别与使用方法详解》随着Python社区的成长,虚拟环境的概念和技术也在不断发展,:本文主要介绍Conda与Pythonvenv虚拟环境的区别与使用... 目录前言一、Conda 与 python venv 的核心区别1. Conda 的特点2. Python v

Spring Boot中WebSocket常用使用方法详解

《SpringBoot中WebSocket常用使用方法详解》本文从WebSocket的基础概念出发,详细介绍了SpringBoot集成WebSocket的步骤,并重点讲解了常用的使用方法,包括简单消... 目录一、WebSocket基础概念1.1 什么是WebSocket1.2 WebSocket与HTTP

SQL Server配置管理器无法打开的四种解决方法

《SQLServer配置管理器无法打开的四种解决方法》本文总结了SQLServer配置管理器无法打开的四种解决方法,文中通过图文示例介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的... 目录方法一:桌面图标进入方法二:运行窗口进入检查版本号对照表php方法三:查找文件路径方法四:检查 S