CVPR 2023 | 多样性可测量异常检测（DMAD）

本文主要是介绍CVPR 2023 | 多样性可测量异常检测（DMAD），希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

来源：投稿作者：橡皮
编辑：学姐

[Paper] https://arxiv.org/pdf/2303.05047.pdf

[Code] https://github.com/FlappyPeggy/DMAD

0.背景：

视觉异常检测是计算机视觉领域的一个基础和重要问题，在视频监控和工业检测中有着广泛的应用。它的目的是从可见类中检测异常值，从看不见类中检测新模式。这项任务非常具有挑战性，因为异常数据分布多样，收集成本高昂。因此，我们必须在无监督环境下仅基于正常样本构建模型，目标是正常样本和异常样本之间的高度区分。

然而，基于重建的异常检测方法的性能长期以来一直受到一个棘手问题的限制，即重建多样的正常和检测未知异常之间的权衡。

解决上述权衡问题的关键是找到正常和异常样本所具有的多样性的适当测量值，这与异常的严重程度呈正相关。有了这样的测量，我们不需要对抗正常的不完美重建或异常的非期望重建，因为通过多样性测量和重建误差可以更准确地检测异常。

注意，逐像素重建误差不是多样性的理想测量，因为高误差区域经常将异常与不同的法线混淆，例如具有结构变形的法线和具有接近背景的颜色的异常可能产生不可靠的重建误差。

1.主要贡献：

引入了多样性可测量异常检测框架，该框架允许基于重建的模型在重建不同正常和检测未知异常之间实现更好的权衡。

提出了金字塔变形模块来实现多样性测量，其中变形信息被明确地从紧凑类原型中分离出来，并且由此产生的多样性测量与异常呈正相关。

提出的方法优于以前在视频异常检测和工业缺陷检测方面的工作，在受污染的数据和异常法线面前工作良好，证明了其广泛的适用性和稳健性。

2.网络介绍： PDM/PPDM

两个版本的多样性可测量异常检测框架。多尺度金字塔变形场估计为 O ，反向过程为 $O^T$ 。

a） PDM版本计算重建后的正向变形 O。

b） PPDM版本采用循环一致的前后变形，并且向前变形应用于输入。

3.1方法细节：框架

在本节中，首先分析了基于重建的异常检测的目标，并提出了一个多样性可测量的框架来解决现有工作中的权衡问题。然后，介绍了信息压缩模块和金字塔变形模块（PDM）作为该框架的实现。最后，解释了训练和推理过程，以及如何将该框架应用于PDM变体的缺陷检测。

给定输入 x，基于自动编码器的方法旨在通过最小化以下重建损失来对正态数据分布进行建模（‖·‖_2 只是重建损失的一种类型）：

关于编码器f(·)、解码器g(·)，潜在变量z（在这些情况下指离散存储器项）和与其约束 $R_1$ (φ)相对应的约束特征映射函数φ(·)。引入跳过连接和级联[·, ·]来生成不同的正常模式：

然而，由于数据分布的多样性，以前的方法不得不面临表示不同正常和检测异常之间的冲突。其内在原因在于分集[·, f(x)]的编码包含无法精确测量的冗余信息。

3.1方法细节：DMAD

我们提出了一个原则性框架，即多样性可测量异常检测（DMAD），以缓解冲突。其基本思想是在测量和建模剩余部分的多样性的同时，限制传输到g(·)的异常信息。为此，我们在DMAD框架下设计了信息压缩模块φ(·)和多样性感知模块ψ(·)：

其中 ◦ 指聚合运算符。通过适当设计φ(·)、ψ(·)和约束条件，优化重建损失可以提高特征嵌入的紧凑性。从而通过φ(·)将不同的表示映射到存储器中的紧凑原型。输入x相对于其重构的多样性由ψ(·)表示。

低估的重建误差可以通过以ψ(·)为单位测量的多样性来补偿，这是有助于准确异常评分的关键因素。

该框架可以在满足以下条件（下图）的前提下实现我们的目标：

Ψ(·)可以学习从原型模式到任何正常输入的所有不同信息，以确保正常样本不会产生高异常分数；
ψ(·)产生的形变与多样性测度呈正相关；
关于ψ(·)表示的 x 的原型信息需要最小化。在下面的小节中，我们将解释如何设计满足这些条件的模块。

3.2方法细节：Information compression module 信息压缩模块

具有低信息容量的 Skip-connection 也可以进一步提高重建质量，而不会带来过度的泛化（即，对于折减因子为16或更大的中间特征，具有停止梯度算子的Conv层）。

3.3方法细节： Pyramid deformation module 金字塔变形模块

我们将未知异常分为以下三种类型：不可见类（如新物体）、全局异常（如意外移动）和局部异常（如奇怪行为和工件损坏）。根据重建结果，不可见类很容易被检测到，但后两种类型通常与不同的正常混淆。为了将这些异常与正常异常区分开来，使用重建的参考和原始输入之间的可测量变形来表示差异，从而在正常情况下发生轻微变形，而在异常情况下发生剧烈变形。

受STN和DCN的启发，引入了金字塔变形模块（PDM），该模块以层次尺度显式学习变形场，以对不同异常类型的运动、行为和缺陷进行建模。具体而言，在特征提取后，ψ(·)使用K个head来计算偏移O={ $O_1$ ,··, $O_k$ }，对应于K个粗到细变形：

其中 ◦ 是网格采样函数，在此实现中具有参考坐标。然而，最小化关于ψ(x)的无约束重建损失可能会导致编码器f(·)的退化解。为了解决这个问题，我们添加了通过梯度运算使用平滑度损失和强度损失的约束，如下所示：

3.4方法细节： Foreground-background selection 前景背景选择

将背景信息存储在内存中会打破嵌入的紧凑性，并需要大量的内存项。此外，变形估计不应应用于背景。一些方法使用外部估计器来去除背景干扰，但不能保证在不同场景下的泛化，并且不可避免地会引入额外的噪声。得益于固定视图视频的强大先验，我们使用可学习模板 $x_{bg}$ 对背景进行建模，并生成二进制掩码，以指示像素是属于前景还是属于 $f_m$ (·)的背景。第k个头的最终重建为：