GNN教程:Weisfeiler-Leman算法-GNN能力到底有多强呢?(GCN的逐层传播公式理解)

本文主要是介绍GNN教程:Weisfeiler-Leman算法-GNN能力到底有多强呢?(GCN的逐层传播公式理解),希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

转载

目录

一、大纲

二、Weisfeiler-Leman 算法介绍

2.1 动机

2.2 Weisfeiler-Leman 算法思路

2.3 Weisfeiler-Leman 算法图形举例说明

三、Weisfeiler-Leman 算法与 GCN 间的转换

四、后话

参考


一、大纲

本文为GNN教程的第六篇文章 【Weisfeiler Leman算法】。前面的文章中,我们介绍了GNN的三个基本模型GCN、GraphSAGE、GAT,分析了经典的GCN逐层传播公式是如何由谱图卷积推导而来的。GNN模型现在正处于学术研究的热点话题,那么我们不经想问,GNN模型到底有多强呢?

我们的目的是分析GNN的表达能力,我们需要一个模型作为衡量标准。比如说如果我们想衡量GBDT的分类能力的话,通常情况下我们会使用同样的数据集,采用不同的分类模型如LR, RF, SVM等做对比。对于GNN模型,我们采用的对比模型叫做Weisfeiler-Leman,其常被用做图同构测试(Graph Isomorphism Test)图同构测试即给定两个图,返回他们的拓扑结构是否相同。图同构问题是一个非常难的问题,目前为止还没有多项式算法能够解决它,而Weisfeiler-Leman算法是一个多项式算法在大多数case上能够奏效,所以在这里我们用它来衡量GNN的表达能力,这篇博文详细介绍了Weisfeiler-Leman算法,作为我们分析GNN表达能力的基础。

图片

二、Weisfeiler-Leman 算法介绍

2.1 动机

Graph 的相似性问题是指判断给定两个 Graph 是否同构。如果两个图中对应节点的特征信息(attribute)和结构信息(structure)都相同,则称这两个图同构。因此我们需要一种高效的计算方法能够将的特征信息及结构位置信息(邻居信息)隐射到一个数值,我们称这个数值为节点的ID(Identification)。最后,两个图的相似度问题可以转化为两个图节点集合ID的 Jaccard 相似度问题

2.2 Weisfeiler-Leman 算法思路

一般地,图中的每个节点都具有特征(attribute)和结构(structure)两种信息,需要从这两方面入手,来计算几点ID。很自然地,特征信息(attribute)即节点自带的Embedding,而结构信息可以通过节点的邻居来刻画举个例子,如果两个节点Embedding相同,并且他们连接了Embedding完全相同的邻居,我们是无法区分这两个节点的,因此这两个节点ID相同。由此,可以想到,我们可以通过 hashing 来高效判断是否两个节点ID一致。1维的Weisfeiler-Lehman正是这样做的。

在上式中,F表示邻居Embedding的聚合函数,可以简单的将邻居Embedding排序后拼接起来(concatenate)。看到这里,有的读者可能产生了疑问,这个式子不是和之前GraphSAEG的跟新公式一样吗,那是不是意味着GraphSAGE具有和Weisfeiler-Leman算法相同的能力?确实这个式子在GraphSAGE中表示邻居节点的聚合(比如求和、Pooling等方式),而Hash在GraphSAGE中是一个单层的感知机。这些差别实际上导致了GraphSAGE并没有完全的Weisfeiler-Leman算法的能力,在后一篇博文中我们会详细说明它。

下面我们通过一个形象的例子来说明Weisfeiler-Leman算法具体是如何操作的。

2.3 Weisfeiler-Leman 算法图形举例说明

给定两个图G和G' ,其中每个节点的Embedding为这个节点的标签(实际应用中,有些时候我们并拿不到节点的标签,这时可以对节点都标上一个相同的标签如"1",这个时候我们将完全用节点位于图中的结构信息来区分节点,因为他们的Embedding都相同)

图片

如何比较  G和 G'的相似性问题呢?Weisfeiler-lehman 算法的思路如下:

1、对邻居节点标签信息进行聚合,以获得一个带标签的字符串(整理默认采用升序排序的方法进行排序)。

图片

第一步的结果,这里需要注意,图中利用逗号将两部分进行分开,第一部分是该节点的ID,第二部分是该节点的邻居节点ID按升序排序的结构(eg:对于节点 5,他的邻居节点为2,3,4,所以他的结果为"5,234")

2、为了能够生成一个一一对应的字典,我们将每个节点的字符串hash处理后得到节点的新ID。

图片

3、将哈希处理过的ID重新赋值给相应的结点,以完成第一次迭代。

图片

第一次迭代的结果为:

这样即可以获得图中每个节点ID。接下去,可以采用 Jaccard 公式计算G 和 G'的相似度。如果两个图同构的话,在迭代过程中和将会相同。

至此Weisfeiler-Leman算法就介绍完了,作为下一篇博文的引文,我们简要得分析一下Weisfeiler-Leman算法和GCN逐层更新公式的关系。

三、Weisfeiler-Leman 算法与 GCN 间的转换

GCN逐层更新公式为:

通过与 Weisfeiler-Lehman 算法的类比,我们可以理解即使是具有随机权重的未经训练的 GCN 模型也可以看做是图中节点的强大特征提取器。

四、后话

即使GCN、GraphSAGE、GAT和Weifeiler-Leman算法如此之像,但正如我们分析的那样,他们都做了一些近似,将Hash近似为单层感知机会导致一部分的精度损失,因为单层感知机不是单射函数。拼接邻居方式的近似引入了另一层精度损失,因为比如求和,pooling等邻居聚合方式可能作用于不同的邻居集合下而得到相同的结果,所以不管是哪个模型,都没有达到目前Weisfeiler-Leman算法在图同构问题上的能力。在下一篇博文中我们将会详细分析这些近似方法带来的损失,并给出如何解决这些问题。

参考

[1] SEMI-SUPERVISED CLASSIFICATION WITH GRAPH CONVOLUTIONAL NETWORKS
[2] Weisfeiler-Lehman Graph Kernels
[3]《Graph learning》 图传播算法(下)

这篇关于GNN教程:Weisfeiler-Leman算法-GNN能力到底有多强呢?(GCN的逐层传播公式理解)的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/395566

相关文章

深入理解C++ 空类大小

《深入理解C++空类大小》本文主要介绍了C++空类大小,规定空类大小为1字节,主要是为了保证对象的唯一性和可区分性,满足数组元素地址连续的要求,下面就来了解一下... 目录1. 保证对象的唯一性和可区分性2. 满足数组元素地址连续的要求3. 与C++的对象模型和内存管理机制相适配查看类对象内存在C++中,规

使用Nginx来共享文件的详细教程

《使用Nginx来共享文件的详细教程》有时我们想共享电脑上的某些文件,一个比较方便的做法是,开一个HTTP服务,指向文件所在的目录,这次我们用nginx来实现这个需求,本文将通过代码示例一步步教你使用... 在本教程中,我们将向您展示如何使用开源 Web 服务器 Nginx 设置文件共享服务器步骤 0 —

Golang使用minio替代文件系统的实战教程

《Golang使用minio替代文件系统的实战教程》本文讨论项目开发中直接文件系统的限制或不足,接着介绍Minio对象存储的优势,同时给出Golang的实际示例代码,包括初始化客户端、读取minio对... 目录文件系统 vs Minio文件系统不足:对象存储:miniogolang连接Minio配置Min

手把手教你idea中创建一个javaweb(webapp)项目详细图文教程

《手把手教你idea中创建一个javaweb(webapp)项目详细图文教程》:本文主要介绍如何使用IntelliJIDEA创建一个Maven项目,并配置Tomcat服务器进行运行,过程包括创建... 1.启动idea2.创建项目模板点击项目-新建项目-选择maven,显示如下页面输入项目名称,选择

Python基于火山引擎豆包大模型搭建QQ机器人详细教程(2024年最新)

《Python基于火山引擎豆包大模型搭建QQ机器人详细教程(2024年最新)》:本文主要介绍Python基于火山引擎豆包大模型搭建QQ机器人详细的相关资料,包括开通模型、配置APIKEY鉴权和SD... 目录豆包大模型概述开通模型付费安装 SDK 环境配置 API KEY 鉴权Ark 模型接口Prompt

在 VSCode 中配置 C++ 开发环境的详细教程

《在VSCode中配置C++开发环境的详细教程》本文详细介绍了如何在VisualStudioCode(VSCode)中配置C++开发环境,包括安装必要的工具、配置编译器、设置调试环境等步骤,通... 目录如何在 VSCode 中配置 C++ 开发环境:详细教程1. 什么是 VSCode?2. 安装 VSCo

Linux下MySQL8.0.26安装教程

《Linux下MySQL8.0.26安装教程》文章详细介绍了如何在Linux系统上安装和配置MySQL,包括下载、解压、安装依赖、启动服务、获取默认密码、设置密码、支持远程登录以及创建表,感兴趣的朋友... 目录1.找到官网下载位置1.访问mysql存档2.下载社区版3.百度网盘中2.linux安装配置1.

Python使用pysmb库访问Windows共享文件夹的详细教程

《Python使用pysmb库访问Windows共享文件夹的详细教程》本教程旨在帮助您使用pysmb库,通过SMB(ServerMessageBlock)协议,轻松连接到Windows共享文件夹,并列... 目录前置条件步骤一:导入必要的模块步骤二:配置连接参数步骤三:实例化SMB连接对象并尝试连接步骤四:

Linux使用粘滞位 (t-bit)共享文件的方法教程

《Linux使用粘滞位(t-bit)共享文件的方法教程》在Linux系统中,共享文件是日常管理和协作中的常见任务,而粘滞位(StickyBit或t-bit)是实现共享目录安全性的重要工具之一,本文将... 目录文件共享的常见场景基础概念linux 文件权限粘滞位 (Sticky Bit)设置共享目录并配置粘

Spring Security 从入门到进阶系列教程

Spring Security 入门系列 《保护 Web 应用的安全》 《Spring-Security-入门(一):登录与退出》 《Spring-Security-入门(二):基于数据库验证》 《Spring-Security-入门(三):密码加密》 《Spring-Security-入门(四):自定义-Filter》 《Spring-Security-入门(五):在 Sprin