LUNAR：基于图神经网络统一局部异常检测算法

本文主要是介绍LUNAR：基于图神经网络统一局部异常检测算法，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

AAAI 2022上的论文《LUNAR: Unifying Local Outlier Detection Methods via Graph Neural Networks》提出了一种基于图神经网络进行异常检测的框架，统一了常见局部异常检测方法的同时，也一定程度上解决了局部异常检测算法超参数无法学习，难于优化的问题。

研究动机

提到异常检测算法，最常见的思路往往是基于局部近邻距离来判断样本点是否为异常点。这种局部异常检测的方法，比如LOF，DBSCAN，KNN，在基于特征的非结构化的数据集上往往有不错的表现。但是，这些算法普遍缺乏可学习的参数，这使得他们难以适应不同的数据集。同时由于异常检测算法往往是无监督学习，上述算法的超参数，比如KNN和LOF中k值的选取，很难基于表现进行调优，而这些超参数的影响又很大。因此，现有局部异常检测的方法很难在不同数据集中取得同样稳定的表现。

基于神经网络的异常检测方法，由于有标注的异常点数据有限以及其主要是针对如图像数据的高维度结构化数据集的原因，在基于特征的低结构化数据集上的表现始终不尽人意。目前缺乏一种在这一类数据的异常检测中表现优异且稳定的，具有一定可学习参数的算法模型。

解决的问题

作者首先提出了目前的局部异常检测算法在图神经网络(Graph Neural Networks)上的统一框架。之后，基于这个图神经网络的框架，作者提出了LUNAR(Learnable Unified Neighbourhood-based Anomaly Ranking)。凭借更多的可训练参数，LUNAR在多个数据集中的灵活度与适应性要强于现有的局部异常检测算法。在性能上和健壮性上，LUNAR也比传统的异常检测算法以及基于神经网络的异常检测算法表现更好。

所提的方法

引入图神经网络，将现有局部异常检测算法与图模型进行结合，从而得到一个统一的框架。

图神经网络(GNNs)

图 $G (V, E)$ 由节点集 $V$ 和边集 $E$ 构成。两个相邻节点 $j\in V$ ，其连接的边记作 $(j,i)\in E$ 。边可以是无向的，信息在无向边上可以双向流动。边也可以是有向的，即信息只能由源节点流向目标节点。节点和边都可以具有特征向量，节点 $i$ 的特征向量记作 $x_i$ ，边 $(j, i)$ 的特征向量记做 $e_{j,i})$ 。

每个节点都具有一个节点向量。依靠一个消息传递方案，GNNs可以基于神经网络为每个节点进行分类。消息传递方案由消息，聚合，和更新三部分构成。消息函数 $\phi$ 决定了从每个相邻节点发送至当前节点的信息。聚合函数 $\square$ 将这些相邻节点传来的信息汇总为一个信息，比较常见的方式是使用平均或者最大池化。更新函数 $\gamma$ 使用聚合后的信息为当前节点更新其向量。在一个GNN的第k层，节点的向量值计算可以表示为：
$\textup{h}_{\mathcal{N}_i}^{(k)}=\square_{j\in \mathcal{N}_i}\phi^{(k)}(\textup{h}_i^{(k-1)}, \textup{h}_j^{(k-1)}, \textup{e}_{j,i})$
$\textup{h}_i^{(k)}=\gamma^{(k)}(\textup{h}_i^{(k-1)}, \textup{h}_{\mathcal{N}_i}^{(k)})$
其中 $\textup{h}_i^{(0)}=\textup{x}_i$ ， $\mathcal{N}_i$ 是节点 $i$ 的相邻节点集合， $\textup{h}_{\mathcal{N}_i}^{(k)}$ 是相邻节点传来的消息的聚合结果。

问题定义

假设我们有 $m$ 个训练样本 $\textup{x}_1^{(train)}, ..., \textup{x}_m^{(train)}\in\R^d$ 以及 $n$ 个测试样本 $\textup{x}_1^{(test)}, ..., \textup{x}_n^{(test)}\in\R^d$ ，每个样本都可能是正常的或异常的。算法为每一个测试样本 $\textup{x}_i^{(test)}$ 输出一个异常分 $s(\textup{x}_i^{(test)})$ ，分数高意味着其为异常值，分数低则为正常值。局部异常检测的算法可以被理解为，如何将 $\textup{x}_i^{(test)}$ 到其最近样本的距离用于计算其异常分。

统一框架

局部异常检测的方法是从邻近样本点收集信息，计算出一个统计量，然后根据这个统计量来判断当前样本点是否为异常点。下面以KNN为例，将这一过程结合到GNNs的消息传递框架中。

KNN可以被认为是在一个有向图中，每个节点 $i$ 最近的 $k$ 个近邻节点 $j\in N_i$ 依次与其有一条有向边 $(j, i)$ ，由邻近节点 $j$ 向当前节点 $i$ 传输信息。边的权重 $e_{j,i}$ 等于有向边 $(j, i)$ 的边长，即：
$\textup{e}_{j,i}=\left\{ \begin{aligned} &\textup{dist}(\textup{x}_i,\textup{x}_j) & \textup{if} \ j\in \mathcal{N}_i \\ &0 & \textup{otherwise} \end{aligned} \right.$
由于 $j\in N_i \nRightarrow i\in N_j$ ，沿有向边 $(j, i)$ 的信息流仅能由源节点 $j$ 发送至目标节点 $i$ 。在这样的图中，KNN可以被等效为以下消息，聚合，更新三部分：

消息：
$\phi^{(1)}:= \textup{e}_{j,i}$
聚合：
$\textup{h}_{N_i}^{(1)}:=\max_{j\in N_i}\phi^{(1)}$
更新：
$\gamma^{(1)}=\textup{h}_{N_i}^{(1)}$
同样的，使用两层消息传递就可以获得LOF和DBSCAN在图模型上的等效。
请添加图片描述

可学习的重要性

论文中的实验表明，在选取不同的k值时，LOF的变化相对较大，而LUNAR则有更为健壮的表现。请添加图片描述

LUNAR

LUNAR首先为数据集构建一个k-NN图，将数据集中的每个样本作为节点，将每个节点的k个近邻与其进行有向连接。消息是有向边的向量，不同于其他GNNs的一点是，LUNAR中的聚合函数是一个可学习的聚合函数。

LUNAR不仅仅可以针对图数据进行建模，同时对于基于特征的结构化数据也可以建模。

模型设计

LUNAR在聚合时，并没有对k个近邻传来的信息采取统一的最大池化将其转化为一个最终信息，而是将这k个信息编码为一个k维的向量，并送入神经网络进行运算，从而通过神经网络的权重更新来实现聚合时的策略的可学习性。

由神经网络运算得到的聚合结果最终用于分类，0为正常样本，1为异常样本。由于训练集中的数据我们认为均是正常样本，因此需要一个合理的异常样本生成策略，使模型学到区分正负样本的分界线。

生成负样本

均匀分布

第一种方法是通过均匀分布生成负样本：
$\textup{x}^{(negative)}\sim~\mathcal{U}(-\varepsilon, 1+\varepsilon)\in \R^d$
其中 $\varepsilon$ 是一个极小的正数，为了方便，原文中所有的实验 $\varepsilon$ 均设为0.1。训练数据标准化至的范围。由于异常样本可能距离正常样本距离过远导致模型难以学习到决策边界，因此需要生成一些更靠近正常样本的，分辨难度更高的异常样本。

子空间扰动

第二种方法，是在正常样本的所有特征维度中选取一个子空间，通过向子空间内的特征添加高斯噪声从而生成负样本：
$\textup{z}\sim\mathcal{N}(0, I)\in\R^d$
$\textup{x}_i^{(negative)}=\textup{x}_i^{(train)}+\textup{M}\circ\varepsilon \textup{z}$
其中 $\varepsilon$ 为一个极小的正整数， $\textup{M}\in\R^d$ 是一个二进制随机变量构成的向量， $\textup{M}$ 中的每个元素均有 $p$ 的概率为1， $(1 - p)$ 的概率为0。每个置为1的维度将会受到噪声干扰。原文的所有实验中， $p$ 均被设为0.3。