监控领域的物理对抗攻击综述——Physical Adversarial Attacks for Surveillance: A Survey

本文主要是介绍监控领域的物理对抗攻击综述——Physical Adversarial Attacks for Surveillance: A Survey，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

介绍

文章贡献

框架提出：提出了一个新的分析框架，用于理解和评估生成和设计物理对抗性攻击的方法。
全面调查：对物理对抗性攻击在监控系统中的四个关键任务—检测、识别、跟踪和行为识别—进行了全面的调查和分析。
跨领域探索：讨论了物理对抗性攻击在可见光域之外的应用，包括红外、LiDAR和多光谱谱段。
方法分析：从四个关键任务的角度回顾、讨论、总结了现有的攻防策略。
未来研究方向：从监控角度指出生成成功的物理对抗性攻击的挑战、现有方法的局限性，并提出了未来研究的关键方向。

文章架构
在这里插入图片描述

文章所提到的四类主要任务
在这里插入图片描述

PRACTICAL ADVERSARIAL ATTACKS IN HUMAN SURVEILLANCE FRAMEWORK

对抗扰动的特性（数字域）

普遍性：所有机器学习和深度学习模型都存在对抗性例子。
可转移性：在一个模型上学到的对抗性例子可以有效地应用于另一个不同的模型。
形状和大小的多样性：对抗性例子可以是各种形状和大小，从单个像素到各种几何图形。

物理对抗攻击的挑战（物理域）

Fabrication of the adversarial accessories：物理世界中的对抗性附件在打印过程中可能会丢失细节，影响攻击效果。（对抗性附件的制作）
Imaging conditions：现实环境中的光照和照明变化，以及成像设备的分辨率、色彩深度等因素，对监控系统的成像质量构成挑战。（成像条件的复杂性）
Non-rigid nature of adversaries：人类等非刚性目标的身体部位组合可能会造成严重的形变，影响监控系统的识别准确性。（非刚性目标的特性）
Dynamics of adversaries：监控目标的角度、距离、遮挡、运动等动态变化增加了监控的复杂度。（目标的动态性）
Multi-camera nature of surveillance systems：多摄像头系统需要处理不同摄像头的参数和配置，实现有效的协同工作。（多摄像头监控系统的复杂性）
Multimodal recognition：实际应用中可能需要同时使用多种模态进行检测和识别，增加了系统的复杂性和对不同模态间协同的要求。（多模态识别的挑战）

图1：研究现代物理对抗攻击的拟议框架，包括基于帧的检测和识别以及基于视频的跟踪和动作识别任务。虽然所有方法都可以在同一框架下观察到，但我们可以很容易地进行比较和对比，以了解在构建有效的对抗性物理攻击方面的贡献和缺失。
在这里插入图片描述

对抗映射 Adversarial Mapping M( pt−1, x): 将当前的对抗pattern 𝑝𝑡−1 映射到配件上，使对抗性配件成为对抗性配件。然后将对抗附件映射到图像上。（在图像上添加扰动）
物理成像仿真Physical Imaging Emulation ˆ x = T (M( pt−1, x)) ：应用各种变换，如随机改变照明/亮度或随机模糊来模拟成像;或随机调整大小和仿射以模拟被摄体相机放置。（风格变换）

应用：通过各种任务去识别这个图像；（识别应用）
计算损失与反向传播：计算检测损失与物理损失，并通过反向传播更新模型参数，从而进一步优化生成对抗样本。（在生成）

攻击

基于人为设计的对抗攻击（Human-designed Adversarial Attacks）

文章从3-D Face Mask（3D面罩）、Face Projector（面部投影）、Scarf（披巾）、Makeups（化妆）、Artifacts（人工制品）、Glasses（眼睛）、Face Masks（面罩）、Adversarial Fashion（对抗性服装）介绍了人为设计的对抗性攻击。
在这里插入图片描述

基于机器学习的对抗攻击（Machine-learned Adversarial Attacks）

1.人为设计的对抗攻击存在局限性：

a.只能误导简单的检测器。
b.只能执行非目标攻击。

2.对抗攻击利用学习算法后能够：

a.误导最先进的模型。（检测器、识别器、跟踪器、动作识别器）
b.执行目标攻击和非目标攻击。

Surveillance Human Detection Attacks

在这里插入图片描述

1.patch transformer，是对补丁进行随机变换，包括旋转、缩放、添加噪声、调整亮度和对比度；
2.通过反向传播（Backpropagation），根据损失函数的梯度来更新补丁。这个过程的目的是最小化损失函数，从而生成一个能够有效降低目标检测器识别准确性的对抗性补丁。
3.这种方法的损失函数为：L = Lobj + Lcls + αLnps + βLTV，其中Lobj + Lcls 表示检测器识别时的损失， αLnps + βLTV表示数字域转物理域损失（ αLnps打印损失， βLTV迫使颜色平滑过渡和防止噪声图像的总损失）
4.图义：
- a.将对抗补丁经过一定的风格转换后应用到数据集中；
- b.例如YOLO的检测器再检测上一步的数据，并计算目标监测损失与分类损失；
- c.最后进行反向传播，更新优化补丁，然后再次循环之前的步骤，以此生成一个能够保持打印性能的同时又可以有效降低检测器准确性的补丁。

在这里插入图片描述
1.变换操作：

Tr：模拟外部环境条件，如视角和光照变化。
TC：可能指模拟纹理约束或特定于材料的变换，以适应物体表面的物理特性。

2.Classification类别分类，Regression边界回归，NMS是非极大值抑制（以去除冗余的检测结果并保留最佳的检测框）
3.图义：

a.带有扰动的补丁与训练数据一同输入到风格转换器里（用于模拟自然界外部条件造成的干扰），以此生成对抗样本；
b.将对抗样本输入到区域建议网络（RPN）中，以此得到一个低质量的候选区域，这个网络的作用是要减少有效候选域的数量；
c.再将RPN网络的结果输入到分类与回归器中，再通过非极大值抑制（NMS）处理，选择置信度最高的候选区域作为扰动图案；
d.再次将步骤3中生成的扰动图案经过一定的风格变换（模拟纹理约束或特定于材料的变换）后反馈给步骤1，以此展开新一轮的训练。

在这里插入图片描述

1.原文并未对图6做出解释，图中的S暂且称之为检测器，用于计算每一个对象的得分。（这张图我感觉不是特别好理解）

这个里的S暂且称之为检测器，用于计算每一个对象的得分；
TV§ 是总变分项，它衡量了图案P的空间梯度的大小，从而确保图案中没有过于突兀的像素变化，保持了一定的平滑性。

给定一个补丁和一个图像，渲染函数使用平移和缩放，加上随机增强，将补丁叠加到检测到的人物上。然后更新贴片，以最小化检测器产生的客观性分数，同时保持其平滑度。

Baidu Invisible Cloak
方法提出：百度的研究人员提出了一种扩展的期望变换（Expectation over Transformation, EoT）方法，用于设计物理攻击中的对抗性贴纸。
传统EoT的局限性：传统的EoT方法仅在二维空间内对数字图像进行变换、旋转和缩放等操作。
3D世界中的变换考虑：百度的研究人员在生成数字变换时，考虑了贴纸在现实三维世界中的变换。
在这里插入图片描述

Naturalistic Physical Adversarial Patch：目标是在保持自然特征的同时生成有效的物理对抗性补丁

在这里插入图片描述

Surveillance Human Identification Attacks

在这里插入图片描述
1.𝒯𝜃(𝐺)表示空间变压网络，作用是在网络上表示目标样本，相应的网格 𝒯𝜃(𝐺)，G表示网格上的像素点（图中的乘法是矩阵乘法）
2.快速梯度符号法（FGSM），指通过向初始图像添加扰动来生成对抗样本；动量快速梯度符号法（MI-FGSM），指通过向初始图像添加扰动来生成对抗样本

在这里插入图片描述
1.面部标记点检测：使用面部标记检测器提取面部的标记点。
2.将面具像素映射到面部图像：利用上一步骤中提取的面部标记点，将面具像素映射到相应位置的面部图像上。
3.提取面部的深度特征：将面部图像传递给3D面部重建模型以获取深度特征。
4.将2D面部图像转换到UV空间：使用深度特征将面部图像重新映射到UV空间。
5.增强面具：为了提高对抗性面具的鲁棒性，应用随机的几何变换和基于颜色的增强（参数化为θ）：

a.几何变换：添加随机平移和旋转，以模拟面具在真实世界中放置在脸上可能发生的扭曲。
b.基于颜色的增强：添加随机对比度、亮度和噪声，以模拟由于各种因素（例如照明、相机捕捉图像时引起的噪声或模糊）可能导致的面具外观变化。

6.组合和重建：将面部图像和面具的UV表示组合起来，并将组合后的图像重建成常规的2D空间，从而产生一个戴面具的面部图像。
7.转换到UV空间：允许更精确地模拟面部特征和变形，在能够保留面部的详细特征。

在这里插入图片描述

1.首先将矩形贴纸 𝜹 送入数转物理（D2P）模块 𝑓𝐷2𝑃 ，以模拟打印机和相机引起的色差。
2.然后引入一个贴纸变换模块 𝒯𝐴 ，用于模拟粘贴到真实世界人脸时贴纸 𝜹 的变化。
3.同时，还 𝒯𝐴 通过与打开 𝜹 的转换共享转换来输入初始蒙版 𝑚 ，生成混合蒙版 𝑀 。
4.在这些之后，根据混合面具 𝑀 将贴纸与随机选择的面部图像 𝒙 进行混合，从而产生初始对抗图像 𝒙^ 。
5.将𝒙^ 输入一个转换模块 𝒯𝐵 ，以模拟环境变化，如不同的姿势和照明条件，从而产生最终的对抗性面部图像 𝒙𝑎𝑑𝑣 。
6.注意：我们采用一种矩形贴纸 𝜹 粘贴在攻击者的额头上，而不覆盖面部器官。

在这里插入图片描述
1.进行不同位置和角度采样，以此确保无论在哪个角度捕获图像都能够有效；
2.进行物理动态建模，通过模拟物理动态条件来优化生成补丁；
3.进行特征提取放大，增强不同摄像头视角下同一人的图像之间的差异性，最终要有助于误导系统；
4.advPattern这一步骤我认为是应用作者提出的攻击方法，用于生成对抗模式，用于在现实世界中攻击深度学习识别系统

Surveillance Human Tracking Attacks

在这里插入图片描述

1.原文 https://arxiv.org/abs/1904.11042
2. GOTURN 是一种基于深度学习设计的目标跟踪算法。
3.从纹理X0开始，通过小批量梯度下降的方法通过计算损失函数来优化像素扰动，从而修改、细化纹理特征。
4.每个纹理都会经过当前帧与上一帧（在目标跟踪中可借助前一帧预测当前帧的目标），围绕给定目标在前一帧的实际位置 𝑙𝑗−1 相应缩放区域并裁剪这两帧；通过 GOTURN 网络对裁剪后的帧进行调整大小和处理，以预测目标在当前帧中的边界框位置 𝑙𝑗，并计算损失；从组合损失目标 𝐿 反向传播所有偏导数路径到纹理空间，以此来对纹理信息进一步优化。最后，通过EOT算法对纹理信息进行随机变换，并再次对其进行优化

Surveillance Action Recognition Attacks

在这里插入图片描述

1.利用环境光闪烁实现的对抗攻击，这种扰动通常比较自然、不易察觉且不受时间与目标限制，因此这种攻击比较难以察觉。原文链接 https://arxiv.org/pdf/2002.05123

Adversarial Attacks Beyond Visible

在这里插入图片描述

1.原文 https://arxiv.org/pdf/2101.08154
2.Lobj是目标监测的损失，Ltv是添加补丁（patch）后图像变化的损失

在这里插入图片描述

通过热成像技术获取的样本，当转换为RGB格式时，能够保留并展示出一定的特征信息。然而，将RGB摄像机所拍摄的图像转换为热成像图片格式后，往往无法捕捉到任何显著的图像特征。

防御

1.防御人员检测攻击（Defending Surveillance Human Detection Attacks）

Universal Defensive Frame: 提出了一种迭代竞争优化过程，其中对抗性补丁和防御性框架相互竞争。具体来说，作者首先创建由从原始图像的数据分布中采样的M张图像组成的子图像集。然后，使用这些图像创建M张对抗图像，并优化一个防御模式，以减少M张对抗图像和M张干净图像之间的差异。
Adversarial YOLO (Ad-YOLO): 在YOLO检测系统上增加了一个插件防御组件，能够直接检测输入中的对抗性对象。

在这里插入图片描述

2.防御监控人员身份攻击（Defending Surveillance Human Identification Attacks）

Adversarial Patch Detector: 在输入图像被送入面部识别系统之前，检查输入图像以检测可疑的对抗性补丁。
Adversarial Image Puriﬁers: 使用贝叶斯CNN来量化输入图像是否为对抗性图像，如果是，则通过一系列净化器进行净化。
Adversarial Occlusions: 提出了一种基于遮挡的对抗性攻击方法，通过迭代搜索放置矩形区域并生成对抗性扰动。
MultiExpert Adversarial Attack Detection: 使用不同结构的多个人物重识别网络作为专家模型，通过检测上下文不一致性来防御。
Adversarial Metric Defence: 对行人重识别使用的距离度量进行攻击，并破坏图像之间的成对距离。(以此生成对抗样本，后续再通过对抗训练来防御这类攻击)

3.防御监视行动识别攻击（Defending Surveillance Action Recognition Attacks）

Inpainting with Laplacian Prior: 检测图像梯度域中的高频对抗性噪声补丁，并使用阈值操作定位，然后进行修复而不是抑制对抗性噪声。（数字域有验证）

总结

对抗性示例的威胁：深度学习算法虽然取得了巨大成功，但它们容易受到对抗性示例的影响，这在监控场景中构成了真正的威胁，无论是在数字领域还是物理领域。
物理领域攻击的挑战：与数字对抗性攻击相比，物理领域的攻击探索较少，因为现实世界条件的多变性和高维度因素，以及需要实际操纵对象、物体或场景。
监控任务的研究现状：目前的研究主要集中在人类检测的对抗性攻击上，而其他任务如步态生物识别和人体行为识别等视频基础任务尚未充分探索，但它们在监控中至关重要。
视频基础任务的挑战：视频基础方法利用空间信息和空间特征的时间进展进行识别，但目前还没有系统研究利用时间域生成对抗性攻击的方法。
多光谱监控的挑战：除了可见光，红外和高光谱、雷达等在监控中也很重要，但对抗性攻击对这些光谱的影响尚未探索。
多模态监控的挑战：多模态监控系统使用多种模态提高性能，但针对这些系统的对抗性攻击方法非常有限，需要考虑在所有感知模态下都可见和有效的扰动。
防御对抗性攻击的探索：防御物理对抗性攻击的领域也较少被探索，大多数对抗性防御框架仅在数字攻击设置下进行了评估，需要在不同的捕获条件、照明条件和多样化的攻击类型下验证其有效性。

这篇关于监控领域的物理对抗攻击综述——Physical Adversarial Attacks for Surveillance: A Survey的文章就介绍到这儿，希望我们推荐的文章对编程师们有所帮助！