图神经网络模型介绍(1)

2024-09-09 16:44
文章标签 介绍 模型 神经网络

本文主要是介绍图神经网络模型介绍(1),希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

        我们将图神经网络分为基于谱域的模型和基于空域的,并按照发展顺序详解每个类别中的重要模型。

1.1基于谱域的图神经网络

        谱域上的图卷积在图学习迈向深度学习发展历程中起到了关键的作用。本节主要介绍三个具有代表性的谱域图神经网络:谱图卷积网络、切比雪夫网络和图卷积网络。

(1)谱图卷积网络

卷积定理:函数卷积的傅里叶变换是函数傅里叶变换的乘积,即F{f*g}=F{f}·F{g}=f^.g^,F{f} 表示f的傅里叶变换得到对应的谱域信号f^。通过傅里叶逆变换F-1,  可以得到如下卷积形式

f*g=F-¹{F{f}·F{g}}。给定一个有n 个节点的图G, 若它的拉普拉斯矩阵L可特征分解为U\LambdaUT, 对于图信号x, 它的图论傅里叶变换为 F(x)=UTx,图论傅里叶逆变换为F-¹(x)=Ux  就得到了图信号x 与一个滤波器g 的卷积操作:

其中,\odot表示元素积(Hadamard Product)。根据这个公式,我们把UTg 整体当 作一个可参数化的卷积核θ,那么我们有

 其中,gθ是对角线元素为θ的对角阵。

总结一下,对于图卷积网络公式(3.3),我们可以将它看成一个图信号x,  行了如下三个步骤的变换:

(1)将空域的图信号x 进行图论傅里叶变换,得到F(x)=U\taux。

(2)在谱域上定义可参数化的卷积核gθ, 对谱域信号进行变换,得到gθUTx。

(3)将谱域信号进行图论傅里叶逆变换,将其转换成空域信号F- ¹(g₀UTx)=

UgθUTx。最终,得到一个简洁的图卷积的形式:

为了将这种图卷积应用到图数据上,我们还需要把上述图卷积的定义从n 维图信号x 扩展到n×d 维的图节点属性矩阵,体来说,假设在第1层节点状态为 X\iota, 它的维度为n×d\iota,那么我们可以更新节点状态为:

其中,x_{i}^{l}是矩阵x^{l}的第i列,也就是第i维的图信号;F_{i}^{l},j对应L层第i维图信号(x_{i}^{l})的卷积核; 果下一层的节点状态有 n×dL+1 维,那么在这一层就有dL×dl+1个卷积核。图卷积是可以重构出网格上的卷积神经网络的。虽然这个早期的模型为谱域上的图卷积指明了方向,但是它仍有诸多需要改善的地方。让我们看看实现这个神经网络所需要的代价。

(1)我们需要计算出图拉普拉斯矩阵的特征向量,这是一个O(n³) 杂度的操作(n 为节点数量),可想而知,当图很大的时候计算它是不现实的。

(2)每次向前传递,都要计算U_F{i}^{l},jUT,    这种矩阵运算是很费时的操作。

(3)每一层都需要n×dL×dL+1个参数来定义卷积核,当图很大时,参数可能过多,计算量大且不容易拟合。

(4)这种谱域卷积方式在空域上没有明确的意义,不能明确地局部化到顶点上。

接下来,介绍两个将谱域图卷积真正推向实用的模型。

        为了突破上述早期谱域图卷积网络的局限性,Deferard 人提出了一 个新的谱域图卷积网络,实现了快速局部化和低复杂度。由于使用了切比雪夫 多项式展开近似,这个网络被称为切比雪夫网络。回顾谱域图卷积操作g*x=Ug₉UT(转置)x ,从图信号分析的角度考虑,我们希望这个过滤函数g 能够有比较好的局部化, 也就是只影响图节点周围一个小区域的节点,因此我们可以把g 定义成一个拉普拉斯矩阵的函数 g_{\theta }(L), 因为作用一次拉普拉斯矩阵相当于在图上把信息扩散到距离为1的邻接点。信号x 被这个滤波器过滤后得到的结果可以写成:

y=g_{\theta }(L)x=g_{\theta }(U\LambdaUT)x=Ug_{\theta }(\Lambda)UTx   (3.8)也就是说,我们可以把谱域图卷积中的卷积核ge 看作拉普拉斯矩阵特征值\Lambda的函数 g_{\theta }(\Lambda)。通常,我们可以选择使用一个多项式卷积核:

        其中,参数θk是多项式的系数。通过这个定义,我们现在只需要K+1  个参数 (K<n),    这大大降低了参数学习过程的复杂度。相当于我们定义了因此信息在每个节点最多传播K步,这样我们就同时实现了卷积的局部化。而ChebyNet在此基础上提出了进一步的加速方案,把g_{\theta }(\Lambda) 近似为切比 雪夫多项式的K阶截断:

        其中,Tkk 阶切比雪夫多项式,Ã=2An/max-In 是一个对角阵,主要为了将特征值对角阵映射到[-1,1]区间。之所以采用切比雪夫多项式,是因为它可以循环递归求解(如式3.11)。

Tk(x)=2xTk-1(x)-Tk-2(x)                                        (3.11)

        从初始值To=1,T₁=x 开始,采用递归公式(3.11),可以轻易求得kTk的值。为了避免特征值分解,我们将式(3.8)写回为L的函数(3.12):

        其  i=2L/λmax-In这个式子是拉普拉斯矩阵的K次多项式,因此它仍然保持了K- 局部化(节点仅被其周围的K 阶邻居节点所影响)。在实际 应用中,我们经常用对称归一化拉普拉斯矩阵Lsym=D\tfrac{-1}{2} LD\tfrac{-1}{2}代替原本L

图卷积网络

       把切比雪夫网络中的多项式卷积核限定为1阶,这样图卷积(公式(3.12))就近似成了一个关于L^{\sim }的线性函数,大大减少了计算量。当然,这样也带来了一个问题,即节点只能被它周围的1阶邻接点所影响。不过,我们只需要叠加K层这样的图卷积层,就可以把节点的影响力扩展 K 阶邻居节点,这个问题也就迎刃而解了。事实上,叠加多层的1阶图卷积反而让节点对K 阶邻居节点的依赖变得更弹性,在实验中也取得了很好的效果。

        接下来,我们从切比雪夫网络的公式(3.12)出发,对图卷积网络进行推导。 取拉普拉斯矩阵的对称归一化版本。由于拉普拉斯矩阵的最大特征值可以近似 取λmax≈2,1 阶图卷积可以写为式3.13:

        为了进一步减少参数数量,防止过拟合,取θ¹=0o= -θ₁, 因此式(3.13)就变成了:

         观察矩阵,它的特征值范围为[0,2]。如果我们多次迭代这个操作,则有可能造成数值不稳定和梯度爆炸/弥散问题。为了缓解这个问题,需要再做一次归一化,让它的特征值落在[0,1]。我们定义Ã=A+In,  对角阵D^{\sim },则归一化后的矩阵变为:

         我们的卷积操作变成了。将图信号扩展到(相当于有几个节点,每个节点有c维的属性,X是所有节点的初始属性矩阵):\Theta∈Rc×d(上标) 是参数矩阵,Z∈Rn×d(上标) 是图卷积之后的输出。

        在实际应用中,我们通常可以叠加多层图卷积,得到一个图卷积网络。我们以H¹ 表示第L层的节点向量,W¹表示对应层的参数,定义,那么每层图卷积可以正式定义为:

        下面,我们以一个常用的两层图卷积网络来解释图卷积网络是怎么对节点进行半监督分类的。假设我们有一个n个节点的图G={v,8},  图中节点属性矩阵为XRn×d(上标),邻接矩阵为A,  图中每个节点可以被分为m 类中的一个。 我们采用以下方法来预测节点的标签:

        首先,我们输入整个图的节点属性矩阵X和邻接矩阵A, 通过一个两层图卷积网络,得到节点嵌入矩阵, 然后用Softmax函数输出预测的分类结果,最后在训练集的节点Vtrain上比较预测结果 Y^{\sim }真实标Y 的差距,计算它们之间的交叉熵,将其结果作为损失函数:

 通过随机梯度下降法进行训练,就可以得到这个网络的权重了。

 谱域图神经网络的局限和发展

        尽管谱域图神经网络有着坚实的理论基础,并且在实际任务中取得了很好的效果,但是也存在明显的局限性。首先,很多谱域图神经网络需要分解拉普拉斯矩阵得到特征值和特征向量,这是一个复杂度很高的操作。虽然切比雪夫和图卷积网络在做了简化之后已经不需要这一步了,但是它们在计算时仍然需要将全图存入内存,这是很消耗内存的。其次,谱域图神经网络的卷积操作通常作用在图拉普拉斯矩阵的特征值矩阵上,在换到另一个图上时,这些卷积核参数是没办法迁移的,因此谱域图神经网络通常只作用在一个单独的图上,这大大限制了这类模型的跨图学习和泛化能力。

        由于谱域图神经网络模型的复杂性一般很高(图卷积网络是个特例),局限性也很大,它的后续研究并没有空域图神经网络那么多。但是,图谱分析为我们提供了一个非常好的分析工具,对谱域图卷积的研究也一直没有停止。

这篇关于图神经网络模型介绍(1)的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1151712

相关文章

大模型研发全揭秘:客服工单数据标注的完整攻略

在人工智能(AI)领域,数据标注是模型训练过程中至关重要的一步。无论你是新手还是有经验的从业者,掌握数据标注的技术细节和常见问题的解决方案都能为你的AI项目增添不少价值。在电信运营商的客服系统中,工单数据是客户问题和解决方案的重要记录。通过对这些工单数据进行有效标注,不仅能够帮助提升客服自动化系统的智能化水平,还能优化客户服务流程,提高客户满意度。本文将详细介绍如何在电信运营商客服工单的背景下进行

性能测试介绍

性能测试是一种测试方法,旨在评估系统、应用程序或组件在现实场景中的性能表现和可靠性。它通常用于衡量系统在不同负载条件下的响应时间、吞吐量、资源利用率、稳定性和可扩展性等关键指标。 为什么要进行性能测试 通过性能测试,可以确定系统是否能够满足预期的性能要求,找出性能瓶颈和潜在的问题,并进行优化和调整。 发现性能瓶颈:性能测试可以帮助发现系统的性能瓶颈,即系统在高负载或高并发情况下可能出现的问题

水位雨量在线监测系统概述及应用介绍

在当今社会,随着科技的飞速发展,各种智能监测系统已成为保障公共安全、促进资源管理和环境保护的重要工具。其中,水位雨量在线监测系统作为自然灾害预警、水资源管理及水利工程运行的关键技术,其重要性不言而喻。 一、水位雨量在线监测系统的基本原理 水位雨量在线监测系统主要由数据采集单元、数据传输网络、数据处理中心及用户终端四大部分构成,形成了一个完整的闭环系统。 数据采集单元:这是系统的“眼睛”,

Hadoop数据压缩使用介绍

一、压缩原则 (1)运算密集型的Job,少用压缩 (2)IO密集型的Job,多用压缩 二、压缩算法比较 三、压缩位置选择 四、压缩参数配置 1)为了支持多种压缩/解压缩算法,Hadoop引入了编码/解码器 2)要在Hadoop中启用压缩,可以配置如下参数

Andrej Karpathy最新采访:认知核心模型10亿参数就够了,AI会打破教育不公的僵局

夕小瑶科技说 原创  作者 | 海野 AI圈子的红人,AI大神Andrej Karpathy,曾是OpenAI联合创始人之一,特斯拉AI总监。上一次的动态是官宣创办一家名为 Eureka Labs 的人工智能+教育公司 ,宣布将长期致力于AI原生教育。 近日,Andrej Karpathy接受了No Priors(投资博客)的采访,与硅谷知名投资人 Sara Guo 和 Elad G

Retrieval-based-Voice-Conversion-WebUI模型构建指南

一、模型介绍 Retrieval-based-Voice-Conversion-WebUI(简称 RVC)模型是一个基于 VITS(Variational Inference with adversarial learning for end-to-end Text-to-Speech)的简单易用的语音转换框架。 具有以下特点 简单易用:RVC 模型通过简单易用的网页界面,使得用户无需深入了

透彻!驯服大型语言模型(LLMs)的五种方法,及具体方法选择思路

引言 随着时间的发展,大型语言模型不再停留在演示阶段而是逐步面向生产系统的应用,随着人们期望的不断增加,目标也发生了巨大的变化。在短短的几个月的时间里,人们对大模型的认识已经从对其zero-shot能力感到惊讶,转变为考虑改进模型质量、提高模型可用性。 「大语言模型(LLMs)其实就是利用高容量的模型架构(例如Transformer)对海量的、多种多样的数据分布进行建模得到,它包含了大量的先验

秋招最新大模型算法面试,熬夜都要肝完它

💥大家在面试大模型LLM这个板块的时候,不知道面试完会不会复盘、总结,做笔记的习惯,这份大模型算法岗面试八股笔记也帮助不少人拿到过offer ✨对于面试大模型算法工程师会有一定的帮助,都附有完整答案,熬夜也要看完,祝大家一臂之力 这份《大模型算法工程师面试题》已经上传CSDN,还有完整版的大模型 AI 学习资料,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

【生成模型系列(初级)】嵌入(Embedding)方程——自然语言处理的数学灵魂【通俗理解】

【通俗理解】嵌入(Embedding)方程——自然语言处理的数学灵魂 关键词提炼 #嵌入方程 #自然语言处理 #词向量 #机器学习 #神经网络 #向量空间模型 #Siri #Google翻译 #AlexNet 第一节:嵌入方程的类比与核心概念【尽可能通俗】 嵌入方程可以被看作是自然语言处理中的“翻译机”,它将文本中的单词或短语转换成计算机能够理解的数学形式,即向量。 正如翻译机将一种语言

AI Toolkit + H100 GPU,一小时内微调最新热门文生图模型 FLUX

上个月,FLUX 席卷了互联网,这并非没有原因。他们声称优于 DALLE 3、Ideogram 和 Stable Diffusion 3 等模型,而这一点已被证明是有依据的。随着越来越多的流行图像生成工具(如 Stable Diffusion Web UI Forge 和 ComyUI)开始支持这些模型,FLUX 在 Stable Diffusion 领域的扩展将会持续下去。 自 FLU