CW攻击(论文笔记）

本文主要是介绍CW攻击(论文笔记），希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

摘要

1.介绍

2.背景

2.1 攻击模型

2.2 神经网络和符号

2.3 攻击样例

2.4 距离度量

3 攻击算法

3.1 L-BFGS

3.2 FGSM

3.3 JSMA

3.4 Deepfool

4. 实验

5. 作者的方法

5.1 目标函数

5.2 盒约束

5.3 各种方法的评估

摘要

摘要大概介绍了对抗学习的背景以及本文的创新点。神经网络很容易受到攻击，我们在输入一个样本x到一个模型model中，只要在x上添加少量噪声，就可以在人看不出来的情况下改变模型model的输出。背景可以参照《Adversarial Learning Targeting Deep Neural Network Classification: A Comprehensive Review of Defenses Against Attacks》，这是一篇介绍比较全面的综述论文。最近提出了一种蒸馏算法，这个算法可以提高神经网络的鲁棒性，使当前的算法的攻击成功率从95%降低到0.5%。本文提出了三种新的攻击算法，成功攻击了蒸馏和未蒸馏的神经网络，且成功率达到了100%。

这边安利李宏毅老师的机器学习课程，里面也讲到了对抗学习的入门知识。

原文链接：https://arxiv.org/abs/1709.03842

1.介绍

介绍大概讲了下载神经网络应用非常广，但是又非常容易收到攻击，防御蒸馏算法是一种非常厉害的算法，击败了现有的攻击算法（FGSM和JSMA）。作者构造了三种攻击（基于 $L_1$ ， $L_2$ 和 $L_\infty$ 距离度量）的算法。还建议了使用搞置信度对抗样本评估模型的鲁棒性。也评估了目标函数的选择。

2.背景

2.1 攻击模型

没啥好讲的

2.2 神经网络和符号

假设神经网络是一个函数 $F(x)$ ，是一个m分类器，输入是一个n为向量，输出是一个有后验概率组合的向量y。输出是经过softmax函数处理的。神经网络有n层，每一层都是一个子函数 $F_i$ ，数据网络可以表示为：

$F = softmax \circ F_n \circ F_{n-1} \circ ... \circ F_1$

每一层函数

$F_i = \sigma(\theta_i \cdot x ) + \hat{\theta_i}$

2.3 攻击样例

作者提出了三种选择攻击的目标类的方法。

平均情况：随机选择不正确的标签
最好情况：选择攻击难度最小的标签
最坏情况：选择攻击难度最难的标签

2.4 距离度量

距离度量函数为 $L_p$ ，可定义为

$L_p = {||x - x'||}_p$

{||x - x'||}_p定义为

${||x'||}_p = (\sum_{i=1}^{n}{|v_i|^p})^\frac{1}{p}$

$L_\infty$ 定义为 $max(|x_1 - x_1'|,|x_2 - x_2'|,...,|x_n - x_n'|)$

3 攻击算法

3.1 L-BFGS

Szegedy等作者将攻击的问题转化为约束最小化问题，给定一个imagex，找到另外一个imagex0，imagex和imagex0距离相似，但是输出标记不同。这个问题定义为

minimize $||x - x'||_2^2$

such that $C(x') = l$

$x' \in [0,1]^n$

这个问题很难处理，这个作者转化为

minimize $c \cdot ||x - x'||_2^2 + loss_{F,l}(x')$

such that $x' \in [0,1]^n$

3.2 FGSM

这个比较简单，略

3.3 JSMA

对于一对像素点（p,q)，定义了两个参数

$\alpha_{pq} = \sum_{i \in \{ p,q \}}{\frac{\partial Z(x)_t}{\partial x_i}}$

$\beta_{pq} = (\sum_{i \in \{ p,q \}} \sum_{j} {\frac{\partial Z(x)_t}{\partial x_i}) -\alpha_{pq}$

这个算法选择

$(p^*,q^*) = argmax_{(p,q)}(-\alpha_{pq} \cdot \beta_{pq}) \cdot (\alpha_{p,q} > 0) \cdot (\beta_{pq} < 0)$

3.4 Deepfool

Deepfool是一种基于超平面分类的攻击算法。比较复杂，想知道参考原著。

4. 实验

图4.1

图4.1是运用的模型的结构和超参数。作者训练的模型的准确率达到了99.5%和80%。

5. 作者的方法

作者将问题转化为

minimize $D(x,x+\delta)$

such that $C(x+\delta) = t$

$x + \delta \in [0,1]^n$

$\delta$ 是加入的扰动， $t$ 是攻击的标签， $D$ 是距离度量，作者使用了 $L_0$ ， $L_2$ 和 $L_\infty$ 。这样问题就转化为了优化问题。

5.1 目标函数

$C(x+\delta) = t$ 是一个高度非线性的等式，很难求解上述公式，所以作者采用了目标函数 $f$ 替代，并且 $C(x+\delta) = t$ 当且仅当 $f(x+\delta) \leq 0$ 。下列列举了一些目标函数 $f$ 。

$f_1(x')= -loss_{F,t}(x') + 1$

$f_2(x')=(\underset{i \neq t}{max}(F(x')_i) - F'(x')_t)^+$

$f_3(x') = softplus(\underset{i \neq t}{max}(F(x')_i) - F'(x')_t) - log(2)$

$f_4(x') = (0.5 - F(x')_t)^+$

$f_5(x')=-log(2F(x')_t)^+$

$f_6(x') = (\underset{i \neq t}{max}(Z(x')_i) - Z'(x')_t)$

$f_7(x') = softplus(\underset{i \neq t}{max}(Z(x')_i) - Z'(x')_t) - log(2)$

$(e)^+$ 表示 $max(e,0)$ ， $softplus(x)$ 表示 $log(1+exp(x))$ 。 $loss_{F,s}(x)$ 代表x的交叉熵损失。

优化问题进一步转化为

minimize $D(x,x+\delta)$

such that $f(x+\delta) \leq 0$

$x + \delta \in [0,1]^n$

不等式优化可以转化为等式优化问题

minimize $D(x,x+\delta) + c \cdot f(x+\delta)$

such that $x + \delta \in [0,1]^n$

如果 $D(x,x+\delta)$ 实体化后，问题就变成了给出x，求 $\delta$ 的问题了。公式中c是一个常数，用来调节优化效果和噪声大小的偏重。作者做了c和攻击成功概率关系的实验。

图5.1

5.2 盒约束

对于任何的 $\delta$ ，需要保证 $0 \leq x_i + \delta \leq 1$ ，为了保证这个条件，作者研究了三种方法解决这个问题。

1）Projected gradient descent

2）Clipped gradient descent

将 $f(x+\delta)$ 替代为 $f(min(max(x+\delta,0),1))$

3）Change of variables

将 $\delta_i$ 转化为 $\frac{1}{2}(tanh(w_i)+1)-x_i$ ，因为 $tanh(x)$ 的值域在-1到1之间，所以保证了 $\delta_i + x_i$ 的值在0到1之间。

5.3 各种方法的评估

之后就是一些实验和评估，不赘述了。

这篇关于CW攻击(论文笔记）的文章就介绍到这儿，希望我们推荐的文章对编程师们有所帮助！

CW攻击(论文笔记）

摘要

1.介绍

2.背景

2.1 攻击模型

2.2 神经网络和符号

2.3 攻击样例

2.4 距离度量

3 攻击算法

3.1 L-BFGS

3.2 FGSM

3.3 JSMA

3.4 Deepfool

4. 实验

5. 作者的方法

5.1 目标函数

5.2 盒约束

5.3 各种方法的评估

相关文章

利用Python快速搭建Markdown笔记发布系统

web网络安全之跨站脚本攻击(XSS)详解

AI hospital 论文Idea

【学习笔记】陈强-机器学习-Python-Ch15 人工神经网络（1）sklearn

系统架构师考试学习笔记第三篇——架构设计高级知识（20）通信系统架构设计理论与实践

论文翻译：arxiv-2024 Benchmark Data Contamination of Large Language Models: A Survey

论文阅读笔记: Segment Anything

数学建模笔记—— 非线性规划

【C++学习笔记 20】C++中的智能指针

查看提交历史 —— Git 学习笔记 11