【论文阅读】DMGI：Unsupervised Attributed Multiplex Network Embedding

本文主要是介绍【论文阅读】DMGI：Unsupervised Attributed Multiplex Network Embedding，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

无监督属性化多路复用网络嵌入

摘要
1 引言
2 问题陈述
3 Unsupervised Attributed Multiplex Network Embedding
- 3.1 Deep Multiplex Graph Infomax: DMGI
4 实验

摘要

多路复用网络中的节点由多种类型的关系连接。然而，大多数现有的网络嵌入方法都假设节点之间只存在一种单一的关系。即使对于考虑网络多重性的人，他们也会忽略节点属性，使用节点标签进行训练，并且无法对图的全局属性建模。受DGI最大化局部patches和整个图的全局表示之间的互信息的启发，我们提出了一种无监督网络嵌入方法DMGI。我们设计了一个系统的方法来联合集成多个图的节点嵌入，方法是：1）引入一致性正则化框架，最大限度地减少特定关系类型的节点嵌入之间的分歧；2）不管关系类型如何，都能区分真实样本的通用鉴别器。我们还表明，注意力机制推断了每种关系类型的重要性，因此可以作为预处理步骤用于过滤不必要的关系类型。对各种下游任务的大量实验表明，尽管DMGI是完全无监督的，但DMGI优于最先进的方法。

1 引言

其他多路复用网络嵌入的问题：

（1）专注于多个图的集成，但忽略了节点属性。

（2）考虑到了节点属性，但训练时需要节点标签。

（3）不能建模图的全局特性（因为它们都基于基于随机游走的skip-gram模型或GCN，这两者都可有效捕获局部图结构）。

DGI的优点：

（1）通过GCN自然地集成节点属性。

（2）以无监督方式训练。

（3）可以捕获整个图的全局结构。

2 问题陈述

定义：属性化多路复用网络（Attributed Multiplex Network）

$\mathcal{G}=\{\mathcal{G}^1,\mathcal{G}^2,...,\mathcal{G}^{\mathcal{|R|}}\}=\{\mathcal{V},\mathcal{E},\pmb{X}\}$ 。

其中， $\mathcal{G}^r=\{\mathcal{V},\mathcal{E}^{(r)},\pmb{X}\}$ 是关系类型 $r∈\mathcal{R}$ 的图， $\mathcal{V}$ 是 $n$ 个节点的集合， $\mathcal{E}=\bigcup_{r∈\mathcal{R}}\mathcal{E}^{(r)}\subseteq\mathcal{V}×\mathcal{V}$ 是关系类型为 $r∈\mathcal{R}$ 的所有边的集合， $\pmb{X}∈\mathbb{R}^{n×f}$ 是编码 $n$ 个节点属性信息的矩阵。

对于多路复用网络， $\mathcal{|R|}＞1$ ；对于单个网络， $\mathcal{|R|}=1$ 。

给定网络 $\mathcal{G}$ ， $\mathcal{A}=\{\pmb{A}^{(1)},...,\pmb{A}^{(|R|)}\}$ 是一组邻接矩阵，其中 $\pmb{A}^{(r)}∈\{0,1\}^{|V|×|V|}$ 是网络 $\mathcal{G}^r$ 的邻接矩阵。

任务：无监督属性化多路复用网络嵌入（Unsupervised Attributed Multiplex Network Embedding）

给定一个属性化多路复用网络 $\mathcal{G}=\{\mathcal{V},\mathcal{E},\pmb{X}\}$ 以及邻接矩阵的集合 $\mathcal{A}$ ，任务是在不使用任何标签的情况下，学习每个节点 $v_i∈\mathcal{V}$ 的 $d$ 维向量表示 $\pmb{z}_i∈\pmb{Z}∈\mathbb{R}^{n×d}$ 。

3 Unsupervised Attributed Multiplex Network Embedding

3.1 Deep Multiplex Graph Infomax: DMGI

我们首先描述如何独立地建模每个关系类型相关的图，然后解释如何联合集成它们，最终得到一致性节点嵌入矩阵。

（1）特定关系类型的节点嵌入

对于每个关系类型 $r∈\mathcal{R}$ ，我们引入一个特定关系类型的节点嵌入编码器 $g_r=\mathbb{R}^{n×f}×\mathbb{R}^{n×n}→\mathbb{R}^{n×d}$ 来生成 $\mathcal{G}^{(r)}$ 中节点的特定关系类型的节点嵌入矩阵 $\pmb{H}^{(r)}$ 。该编码器是一个单层的GCN：
在这里插入图片描述
其中，

$\pmb{W}^{(r)}$ 是特定关系类型编码器 $g_r$ 的可训练矩阵， $\sigma$ 是ReLU非线性函数。

与传统的GCN不同，我们通过引入权重 $w∈\mathbb{R}$ 来控制自连接的权重。较大的 $w$ 表明，节点本身在生成其嵌入中起着更重要的作用，这反过来又降低了其相邻节点的重要性。

然后，我们计算了总结图 $\mathcal{G}^{(r)}$ 的全局内容的图级summary representation $\pmb{s}^{(r)}$ 。我们使用一个Readout函数： $\mathbb{R}^{n×d}→\mathbb{R}^d$ ：
在这里插入图片描述
其中， $\sigma$ 是sigmoid函数， $h^{(r)}_i$ 表示矩阵 $\pmb{H}^{(r)}$ 的第 $i$ 行向量。我们还注意到，各种池化方法，如maxpool和SAGPool都可用作Readout(·)。

接下来，给定特定关系类型的节点嵌入矩阵 $\pmb{H}^{(r)}$ 及其summary representation $\pmb{s}^{(r)}$ ，我们计算了特定关系类型的交叉熵：
在这里插入图片描述
其中， $\mathcal{D}∈\mathbb{R}^d×\mathbb{R}^d→\mathbb{R}$ 是一个计算patch-summary表示对（即 $(\pmb{h}_i^{(r)},\pmb{s}^{(r)})$ ）分数的discriminator。在本文中，我们应用了一个简单的双线性评分函数，因为它在我们的实验中表现最好：
在这里插入图片描述
其中， $\sigma$ 是sigmoid函数， $\pmb{M}^{(r)}∈\mathbb{R}^{d×d}$ 是一个可训练的评分矩阵。

为了生成负节点嵌入 $\widetilde{h}_j^{(r)}$ ，我们通过逐行变换来破坏原始属性矩阵【只变换了节点的属性，故 $\pmb{A}^{(r)}、\pmb{W}^{(r)}$ 没变】，即 $\widetilde{\pmb{X}}←\pmb{X}$ ，并重复使用公式（2）中的编码器，即 $\widetilde{\pmb{H}}^{(r)}=g_r(\widetilde{\pmb{X}},\pmb{A}^{(r)}|\pmb{W}^{(r)})$ 。

（2）联合建模与一致性正则化

在此之前，通过独立地最大化与每个图 $\mathcal{G}^{(r)}$ （ $\forall r∈\mathcal{R}$ ）相关的局部patches $\{\pmb{h}^{(r)}_1,\pmb{h}^{(r)}_2,...,\pmb{h}^{(r)}_n\}$ 和图级summary $\pmb{s}^{(r)}$ 之间的平均MI，我们获得了特定关系类型的节点嵌入矩阵 $\pmb{H}^{(r)}$ ，它在 $\mathcal{G}^{(r)}$ 中捕获全局信息。

然而，由于每个 $\pmb{H}^{(r)}$ 都是为每个 $r∈\mathcal{R}$ 独立训练的，这些嵌入矩阵只包含关于每种关系类型的相关信息，因此无法利用网络的多重性。这促使我们开发一种系统的方法来联合集成来自不同关系类型的嵌入，以便促进它们相互帮助彼此学习高质量的嵌入。

为此，我们引入了一致性嵌入矩阵 $\pmb{Z}∈\mathbb{R}^{n×d}$ ，每个特定关系类型的节点嵌入矩阵 $\pmb{H}^{(r)}$ 都可以在其上一致。更准确地说，我们引入了一致性正则化框架，该框架包括：

一个正则化器，用来最小化原始节点嵌入 $\{\pmb{H}^{(r)}|r∈\mathcal{R}\}$ 与一致性嵌入 $\pmb{Z}$ 间的差异。
另一个正则化器，用来最大化 corrupted 节点嵌入 $\{\widetilde{\pmb{H}}^{(r)}|r∈\mathcal{R}\}$ 与与一致性嵌入 $\pmb{Z}$ 间的差异。

其表述如下：
在这里插入图片描述
其中， $\mathcal{Q}$ 是一个聚合函数，它将一组来自多个关系类型的节点嵌入矩阵组合到一个嵌入矩阵中，即 $\pmb{H}∈\mathbb{R}^{n×d}$ 。 $\mathcal{Q}$ 可以是任何可以处理序列不变量输入的池化方法，如 set2set 或 Set Transformer。然而，考虑到该方法的有效性，我们只是简单地使用平均池化，即计算嵌入矩阵集的平均值：
在这里插入图片描述
需要注意的是，公式（5）中的评分矩阵 $\pmb{M}(∗)$ 在所有的关系 $r∈\mathcal{R}$ 中共享。即 $\pmb{M}=\pmb{M}^{(1)}=\pmb{M}^{(2)}=...=\pmb{M}^{(|R|)}$ 。直觉是学习通用discriminator，它能够在不考虑关系类型的情况下，对真实对的评分高于负对。我们认为，通用discriminator促进了不同关系类型的联合建模以及一致性正则化。

最后，我们联合优化了公式（4）中所有特定关系类型损失的总和，以及公式（6）中的一致性正则化，获得最终目标 $\mathcal{J}$ ，如下所示：
在这里插入图片描述
其中 $α$ 控制了一致性正则化的重要性， $β$ 是 $Θ$ 上 $l 2$ 正则化项的系数， $Θ$ 是一组可训练的参数，即 $Θ=\{\{\pmb{W}^{(r)}|r∈\mathcal{R}\}、\pmb{M}、\pmb{Z}\}$ ， $\mathcal{J}$ 由Adam优化器进行优化。

图1说明了DMGI的概述。
在这里插入图片描述
（3）讨论

尽管效率很高，但公式（7）中平均池化方案平等地对待所有关系，然而，如实验所示，某些关系类型比其他类型更适合某个下游任务。

例如，与引文信息相比，两篇论文之间的合著信息在预测论文主题方面起着更重要的作用；最终，这两种信息相互帮助，可以更准确地预测论文的主题。

因此，我们可以采用注意力机制来区分不同的关系类型，如下所示：
在这里插入图片描述
其中， $a^{(r)}_i$ 表示关系 $r$ 在生成节点 $v_i$ 的最终嵌入时的重要性，其定义为：

其中， $\pmb{q}^{(r)}∈\mathbb{R}^d$ 是关系 $r$ 的特征向量。

（4）扩展到半监督学习

值得注意的是，DMGI是以一种完全无监督的方式进行训练的。然而，在实际上，节点有时与标签信息相关联，即使有少量的信息，这也可以指导节点嵌入的训练。为此，我们在我们的框架中引入了一个半监督模块，它从一致性嵌入 $\pmb{Z}$ 中预测标记节点的标签。更准确地说，我们最小化了标记节点上的交叉熵误差：
在这里插入图片描述
其中， $\mathcal{Y}_L$ 是带有标签的节点索引集， $Y∈\mathbb{R}^{n×c}$ 是ground truth标签， $\hat{Y}=softmax(f(\pmb{Z}))$ 是一个softmax层的输出， $f:\mathbb{R}^{n×d}→\mathbb{R}^{n×c}$ 是一个分类器，它从嵌入预测节点的标签，是一个单个的全连接层。