论文阅读——Imperceptible Adversarial Attack via Invertible Neural Networks

本文主要是介绍论文阅读——Imperceptible Adversarial Attack via Invertible Neural Networks，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

Imperceptible Adversarial Attack via Invertible Neural Networks

作者：Zihan Chen, Ziyue Wang, Junjie Huang*, Wentao Zhao, Xiao Liu, Dejian Guan

解决的问题：虽然视觉不可感知性是对抗性示例的理想特性，但传统的对抗性攻击仍然会产生可追踪的对抗扰动。
代码：https://github.com/jjhuangcs/AdvINN
类型：黑盒目标攻击，

摘要：

作者利用可逆神经网络(AdvINN)方法进行对抗性攻击，生成鲁棒且难以察觉的对抗性示例。AdvINN利用INN的信息保留属性，添加目标类的指定信息、删除与原始类别不同的信息来生成对抗样本。

引言部分引出对抗攻击示例

虽然对抗样本的存在可能会阻碍深度学习在风险敏感领域的应用，但它进一步促进了对深度学习鲁棒性的研究。

现有对抗样本的类别：

在原始图像上添加扰动来生成对抗样本：FGSM系列的对抗攻击方法+混合其他类别的信息来生成对抗样本，这种方法可能会导致噪声被感知和图像存储容量的增加；
在原始图像上丢弃部分信息来生成对抗样本，这种方法可能会影响目标攻击的性能。

方法整体概述

给定一张良性图像 $x_{cln}$ ，其标签为 $c$ ，作者的目标是通过丢弃类 $c$ 的discriminant information和添加target image $x_{tgt}$ 的对抗细节，同时能够通过残差图像 $x_r$ 解析添加和丢弃的特征信息。方案整体包含Invertible Information Exchange Module (IIEM)和目标图像选择和学习（Target image selection and learning）两个模块，整体概述如下图所示：
在这里插入图片描述

IIEM模块： $\theta$ 是 ${f_\theta }({\cdot})$ 的参数，由Invertible Information Exchange Module (IIEM), Target Image Learning Module (TILM) 和loss functions三个模块组成用于优化；IIEM由损失函数驱动，通过执行 ${x_{cln }}$ 和 ${x_{tgt}}$ 的信息交换来生成对抗图像。由于IIEM的保留属性，输入图像 ${x_{cln}},{x_{tgt}})$ 和输出图像 ${x_{adv}},{x_{r}})$ 是相同的且 $({x_{adv}},{x_r})= {f_\theta }^{ - 1}({x_{cln }},{x_{tgt}})$ 。AdvINN生成对抗样本的目标函数定义如下：

$\mathcal{L_{adv}}( \cdot )$ 表示对抗损失， $\mathcal{L_{rec}}( \cdot )$ 表示重构损失， ${\lambda _{adv}}$ 表示正则参数， $\varepsilon$ 表示对抗扰动预算。

-target image选择： target image是对抗信息的来源，可以从highest confidence target image (HCT)、universal adversarial perturbation (UAP)或online learned classifier guided target image( CGT)中选择；

方法详细阐述：

Invertible Information Exchange Module (IIEM)

该模块主要包括离散小波变换和仿射偶尔两个模块，示意图如下：
在这里插入图片描述

离散小波变换：作者使用离散小波变换（正文使用的是哈儿小波变换）用以区分输入干净和目标图像分解为低频和高频成分。分解低频和高频特征有助于修改输入图像的高频成分，因而可以产生更不易察觉的对抗样本（注意：修改高频成分生成的对抗样本更不易被察觉。）离散小波变换 $\mathcal{T}(\cdot)$ 中，输入图像 $x$ 可被转换成小波域 $\mathcal{T}(x)$ ，该域上包含一个低频子带特征和3个高频子带特征。在IIEM的输出端，逆离散小波变换 ${\mathcal{T}^{-1}}( \cdot )$ 用于重构特征到图像域。
仿射耦合模块：可逆信息交换模块由 $M$ 个Affine Coupling Blocks（仿射耦合模块）组成。 $w_{cln }^i$ 和 $w_{tgt}^i$ 表示第 $i$ 个Affine Coupling Blocks的输入特征， $w_{cln }^i = T({x_{cln }})$ , $w_{tgt}^i = T({x_{tgt}})$ 。第 $i$ 个Affine Coupling Blocks的前向过程可表示为：

$\Theta$ 表示两个矩阵对应相乘， $\alpha$ 表示一个sigmod 函数乘以一个常数因子， $\psi ( \cdot ),\rho ( \cdot ),\eta ( \cdot )$ 表示dense network architecture。给定第M个仿射耦合模块的输出，利用逆小波变换可获得对抗图像和残差图像： ${x_{adv}} = {T^{ - 1}}(w_{cln }^M),{x_r} = {T^{ - 1}}(w_{tgt}^M)$
信息保留属性：由于DWI和IDWT的可逆性， $w_{cln }^M, w_{tgt}^M)$ 可以被保存在 ${x_{adv}}, {x_r})$ ， $w_{cln }^{i - 1},w_{tgt}^{i - 1})$ 可以被保存在 $w_{c\ln }^{i },w_{tgt}^{i})$

IIEM是完全可逆，输出图像 ${x_{adv}},{x_r})$ 和输入图像 ${x_{cln}},{x_tgt})$ 包含相同的信息。他们之间的联系可表示如下：

$\sigma$ 表示干净图像上丢弃的信息， $\delta$ 表示添加到干净图像上目标图像的判别信息。

目标图像选择和学习（Target image selection and learning）

选取最高置信类的图像：选取最高置信的图像作为目标图像可能包含大量目标类的无关信息，例如背景纹理和其他的类的信息。这将会影响攻击成功率和寻优过程；
通用对抗扰动：作者沿用该方法，利用优化后的通用对抗摄动作为目标图像，加快收敛速度；
目标图像学习模块：该模块学习分类器引导的目标图像，而不是使用固定的图像作为目标图像。目标图像被设置为一个可学习的变量，该变量用一个恒定的图像初始化(即所有像素设置为0.5)，然后根据攻击分类器的梯度进行更新。这样，自适应生成的目标图像可以嵌入目标类的更多判别信息，从而辅助生成对抗样例。