图神经网络教程2——循环图神经网络-1

本文主要是介绍图神经网络教程2——循环图神经网络-1，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

介绍

循环图神经网络（Recurrent Graph Neural Network，RGNN）。在标准神经网络中，连续的学习权重层用于从输入张量中逐步提取更高级别的特征。在用于计算机视觉的神经网络中，低级特征(如短直线和曲线)的存在是由较早的层识别的，而高级特征(如复合形状)的存在是由较晚的层识别的。在被这些顺序层处理之后，所产生的高级特征可以提供给softmax层或单个神经元，以进行分类、回归或一些其他的下游任务(downstream task)。

注：短直线等举例仅仅是为便于读者理解，在计算机的实际操作过程中，其识别的“特征”在人看来是完全无序且杂乱的。

同样地，最早的GNN通过使用一系列的特征提取操作来从图中提取高层次的特征表示，然后将这些高层次的特征路由到输出函数。换句话说：它们将输入处理为有用的嵌入，然后将嵌入处理为有用的输出，使用两个不同的处理阶段。这些早期技术存在局限性：一些算法只能处理有向无环图（DAGs)，其他算法要求输入图具有“超源”（即有指向其他图中所有顶点的有向路径）的顶点，还有一些技术需要采用启发式方法来处理某些图的循环性。

通常，这些早期的递归方法依赖于将图的特殊情况“展开”为有限树(递归等价)，然后可以通过递归神经网络将其处理为有用的嵌入。递归GNN对此进行了扩展，从而提供了一种可应用于泛型图的解决方案。RGNN不是通过递归的编码网络为整个输入图创建嵌入，而是通过消息传递这一信息传播框架在顶点级别创建嵌入，这将在本节定义。

循环计算嵌入

注：此处所说嵌入，一般指的是对于（节点、边、状态的）信息进行向量化表示，嵌入为取embedding的直译意。

RGNN使用称为转移函数的确定性共享函数计算输入图中每个顶点的嵌入。它被称为过渡函数，因为它可以解释为从邻域的当前表示计算邻域的下一个表示。该转换函数可以对称地应用于任何顶点，即使顶点的邻域大小可能是可变的。这个过程如图2所示，其中过渡函数𝑓为周围的邻域计算每个顶点的嵌入。

这样，对于任意一个所给节点 $v_i$ ，其第k个嵌入 $h_i^{k}$ 的值依赖于以下几个量：

中心节点 $v_i^F$ 的特征
所有存在的邻接边 $e_{ij}^F$ 的特征
所有相邻顶点 $v_j^F$ 的特征
所有相邻节点上一次迭代的嵌入 $h_j^{k-1}$

对于一个简单输入图G(V, E)，具有|V| = 4， |E| = 4的RGNN正向传递。G经过𝑘层的处理。在每一层中，每个顶点的特征 $v_i^{F}$ (绿色)，邻域特征 $N_{v_i}^F$ (黄色)，以及前一个隐藏层(紫色)由状态转移函数𝑓处理并聚合，从而产生g的连续嵌入。注意，邻域特征必须聚合为固定的嵌入大小，否则𝑓将需要处理可变的输入大小。这将重复，直到嵌入收敛(即，连续嵌入之间的变化没有超过某个停止阈值)。在此阶段，嵌入被提供给执行某些下游任务的输出函数𝑔——在这种情况下，任务是顶点分类问题。请注意，𝑓和𝑔可以实现为神经网络，并通过展开的计算图通过监督误差信号的反向传播进行训练。请注意，在第𝑘层处理之后，每个顶点的嵌入包含了来自最大𝑘' hops '的信息。

注：这里我理解的嵌入（embedding）是类似于隐藏状态的一种变量，其表示循环神经网络处理过程中的阶段性变量，如在第一个过程中，输入节点1的信息及其嵌入，节点1的若干连接节点信息及其嵌入，使用𝑓，即使用全连接层FC进行运算，得到新的嵌入，即下一时刻嵌入，在下一时刻计算时，则输入此刻嵌入（新嵌入），而输入的X仍然是开始时的节点信息，边信息不变，可以看作是一个每时刻的输入一致的循环神经网络，通过这种方式汇聚信息，传递信息，最后通过一个g来完成Softmax归类操作。

为了反复应用这个学习到的转换函数来计算连续的嵌入，𝑓必须具有固定数量的输入和输出变量。那么它怎么依赖于邻近邻域呢?邻近邻域的大小可能会根据我们在图中的位置而变化。有两个简单的解决方案，第一个是设置“最大邻域大小”，并在处理具有不存在邻域的顶点时使用null向量。

注：这里我理解的含义是，假定最大邻接节点数量为5，则处处输入量为5个点和5个边，小于5个连接时，全部采用NULL进行替代，向量化表示可能是一个(1,0,0,...,0)的嵌入。而在无标度图中，节点连接数量变化大，用这种方式可能出现1000个输入只有几个不是NULL的情况。

第二种方法是以某种排列不变的方式聚合所有邻域特征，从而确保图中的任何邻域都由一个固定大小的特征向量表示。虽然这两种方法都是可行的，但第一种方法不能很好地扩展到无标度图，这种图的度分布遵循幂律。由于许多现实世界的图(例如社交网络)是无标度的，我们在这里将使用第二种解决方案。在数学上，这可以表述为方程(1)

我们可以看到，在这个公式方程1下，𝑓是很好的定义。它接受四个特征向量，它们都有定义的长度，无论考虑的是图中的哪个顶点或者是迭代重复计算的问题。这意味着过渡函数可以循环地应用，直到输入图中的所有顶点都达到稳定的嵌入。这个表达式可以被解释为在整个图中传递“消息”或特征;在每次迭代中，嵌入 $h_i^{k}$ 依赖于其邻居的特征和嵌入。这意味着，通过足够多的循环迭代，信息将在整个图中传播：在第一次迭代之后，任何顶点的嵌入编码了单条边范围内的邻域特征。在折中中，任何顶点的嵌入都是对邻域内两条边的特征进行编码，以此类推。迭代传递“信息”来生成图的编码是这个消息传递框架名字的来源。

注意，显式地将单位矩阵I𝑛添加到邻接矩阵A中是一种典型的行为，从而确保所有顶点都与自己相连（自环），这意味着一个顶点 $v_i \in N_{v_i}, \forall i \in v$ 。此外，这允许我们通过迭代邻接矩阵的单行直接访问邻域。通常对修改后的邻接矩阵进行归一化，以防止不必要的嵌入缩放。