decision-based adversarial attacks_reliable attacks against black-box machine learning models

本文主要是介绍decision-based adversarial attacks_reliable attacks against black-box machine learning models,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

Decision-based adversarial attacks: Reliable attacks against black-box machine learning models

Decision-based adversarial attacks: Reliable attacks against black-box machine learning models

本文提出了一种boundary-based的攻击方法,本方法不需要模型的梯度信息或score信息,因此可进行白盒和黑盒攻击。本方法还攻破了防御蒸馏(defensive distillation),顺便对一大类通过隐藏梯度的防御方法判了死刑。

1. Introduction

首先比较了目前方法的优缺点:

Motivations

本文提出的原因:

  • score-based方法相比,decision-based攻击方法与真实世界相关性更强(where confidence scores or logits are rarely accessible. );
  • decision-based攻击方法相较于其它防御方法具有更加鲁棒的潜力;
  • transfer-based方法相比,decision-based方法需要的信息更少。

本文的工作及限定:

image-20201031233957106

  • 本文考虑的对抗场景:攻击者目的是要通过对抗样本统计改变模型的边界(目标/无目标),
  • 攻击者可以观察得到模型的最终决策,并且知道至少一个扰动(无论扰动多大)大扰动的的对抗样本。
Contributions
  • 强调了decision-based的攻击方法是非常重要的,且和真实世界更加的紧密相关,对于估量模型的鲁棒性是一个很重的方法;
  • 第一次提出了一种高效的decision-based的方法,可适用于不同复杂机器学习模型和数据集。边界攻击包括:1. 概念上非常简单的;2. 非常灵活的;3. 需要少量的超参调整;4. 可与最好的gradient-based攻击方法相媲美;
  • 提出的Boundary-attack可以打破之前建议的防御方法(防御蒸馏);
  • 展示了本方法在两个黑盒攻击下的实际应用效果。

2. boundary attack

总结:

  • Direct attacks that solely rely on the final decision pf the model;
  • Starts from a large adversarial perturbation and then seeks to reduce the perturbation while staying adversarial.

image-20201101094416057

在游走的时候,落入边界内的都是能正确分类的,然后即使这样在边界上也能找到一个距离original image最近的点。

image-20201101093723874

算法流程:

输入:原始图片+对抗扰动准则,模型的决策

输出:满足条件最小的对抗样本

  • 选择一个对抗样本作为初始点(start from a point that is already adversarial);
  • 然后进行随机游走(random walk),一方面要使得图片仍然是对抗样本;另一方面和原始图片的“distance”不能太远

执行完每一迭代步后:

  • Be an image([0, 255]);
  • don’t change too much;
  • be closer to original.

如何更新下一步的扰动(对抗图片)本质上是在对抗/非对抗边界上进行拒绝采样。

2.1 如何选择初始点

Boundary attack需要起始点就是对抗样本,因此如何选择初始点是个问题。

  • 在无目标攻击中,从一个可行域(是图片,[0, 255])中通过最大化化交叉分布抽样得到原始图片;
  • CV中,因为图片约束在[0,255],因此直接从[0,255]中均匀抽样得到初始点。(拒绝不是对抗样本的图片)
  • 对于目标攻击,直接选择被分类为目标类别的图片。
2.2 Proposal distribution

proposal distribution的选择决定了算法的效率,即如何选择游走方向。最佳的proposal distribution同样应该取决于要攻击的区域或模型,但是对于vision-related的问题,下面简单的分布就能满足要求:

image-20201101094620169

即扰动样本是图片;扰动不能太大;下一次游走的方向应该是要减小和原图片的distance。( d d d是根据模型的输出来决定的,如何决定?)

实际中选择的分布是一种更简单的启发式分布:

  • 首先,从标准高斯分布中抽样: η i k ∼ N ( 0 , 1 ) \eta_i^k \sim \mathcal{N}(0,1) ηikN(0,1),然后再对其进行rescaleclip,使得其满足上面的(1)、(2);
  • 第二步,将扰动 η k \eta^k ηk投影到一个以原始图片为中心的超球上,并满足: d ( o , o ~ k − 1 + η k ) = d ( o , o ~ k − 1 ) d\left(o, \tilde{o}^{k-1}+\eta^{k}\right)=d\left(o, \tilde{o}^{k-1}\right) d(o,o~k1+ηk)=d(o,o~k1),即分类仍然是错误的类别(对抗样本)。
  • 第三步,朝着原始图片移动一小步,使得(1)、(3)式满足。
2.3 Adversarial criterion

即如何判断一个被分类为对抗样本的图片是否是误分类。

一个可能的选择是模型预测的top-k误分类,或是某些置信度分数的top-k阈值中不包括原始的分类标签。

2.4 Hyper-parameter adjustment

image-20201101190629309

Boundary attack有两个相关的参数:

  • 最终的扰动大小 δ \delta δ
  • 朝着原始图片的步长 ϵ \epsilon ϵ

这两个参数都会随着边界的局部几何情况进行动态调整。方法受Trust Region method的启发。

一个点更新到下一个点的过程可分为两步,首先是在以原始图片为中心的超球上走一步,保证下一步得到的图片仍然是对抗样本,然后再朝着原始样本走一步。这两个步长都需要动态调整:

  • 首先是orthogonal step,这一步是在以原始图片为中心的超球上游走,是为了确定下一步游走的方向,以及这一步需要足够小。如上图所示,如果是对抗样本的概念大于50%,则增大步长;反之则减小步长。
  • 如果仍然是对抗样本,则再朝着原始图片走一小步。

3. Comparison with other attacks

首先对攻击成功率的评估指标定义两个一个metric
S A ( M ) = median ⁡ i ( 1 N ∥ η A , M ( o i ) ∥ 2 2 ) \mathcal{S}_{A}(M)=\operatorname{median}_{i}\left(\frac{1}{N}\left\|\boldsymbol{\eta}_{A, M}\left(\boldsymbol{o}_{i}\right)\right\|_{2}^{2}\right) SA(M)=mediani(N1ηA,M(oi)22)
式中, η A , M ( o i ) ∈ R N \eta_{A, M}\left(\boldsymbol{o}_{i}\right) \in \mathbb{R}^{N} ηA,M(oi)RN,表示的是攻击方法 A A A在模型 M M M下第 i i i-th样本上的扰动。 S A \mathcal S_A SA是最终的得分,定义为攻击方法 A A A下所有样本的 L 2 L_2 L2距离。

如下所示,gradient-basedTransfer-basedScore-based和本文提出的Boundary-based方法可分别进行目标/目标共攻击,本文仅比较gradient-based的三种方法,即FGSMDeepFoolC&W方法。

image-20201101203029482

3.1 Untargeted attack

image-20201101195729230

不同数据集得到的对抗样本和扰动

image-20201101195805111

上面的评价指标

image-20201101200005384

Boundary attack攻击作用过程示意,图片上面是需要调用模型的次数,下面是与原始图片的MSE

这样看来也有generative properties??

image-20201101202008142

  • 不同的初始图片,在扰动大小相同的情况下,最后得到的扰动情况也是相同的,即本方法的稳定性。
  • 与基于梯度方法相比,本方法不需要模型的详细信息,但是代价就是需要更多的迭代步才能收敛;
  • 不需要backward求解计算(不需要梯度)。
3.2 Targeted attack

image-20201101202555794

image-20201101203300710

4. The Importance of decision-based attacks to evaluate model robustness

Attack Defensive Distillation

image-20201101204530788

image-20201101204555754

  • 蒸馏模型对基于梯度的方法能有效防御(FGSM),但是对于Boundary Attack的方法无效(Defensive Distillation仍然是”隐藏“了梯度);
  • 对于本文提出的Boundary Attack可以攻破防御蒸馏,同时扰动变化的不大。一方面说明蒸馏防御并不能有效的提高模型的鲁棒性;另一方面也说明了Gradient Masking这一大类方法的失效。

5. Attacks on real-world applications

In many real-world machine learning applications the attacker has no access to the architecture or the training data but can only observe the final decision.

image-20201101205338559

攻击基于Clarifai的两个模型:一个是识别品牌的模型;一个是识别名人的模型。

6. Discussion & Outlook

  • 提出了Boundary Attack方法:decision-based black-box attack;
  • Pros:
    • 提出的方法可进行黑盒攻击,实用性很强,在真是物理世界中更有意义;
    • 不需要梯度等信息(没有模型的backward),因此基于”隐藏“梯度策略类方法并不能防御住本方法的攻击.
  • Cons:
    • 需要多次调用模型来达到收敛(forward);
    • 可能陷入局部极小值。

ion-based black-box attack;

  • Pros:
    • 提出的方法可进行黑盒攻击,实用性很强,在真是物理世界中更有意义;
    • 不需要梯度等信息(没有模型的backward),因此基于”隐藏“梯度策略类方法并不能防御住本方法的攻击.
  • Cons:
    • 需要多次调用模型来达到收敛(forward);
    • 可能陷入局部极小值。

这篇关于decision-based adversarial attacks_reliable attacks against black-box machine learning models的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/328337

相关文章

Retrieval-based-Voice-Conversion-WebUI模型构建指南

一、模型介绍 Retrieval-based-Voice-Conversion-WebUI(简称 RVC)模型是一个基于 VITS(Variational Inference with adversarial learning for end-to-end Text-to-Speech)的简单易用的语音转换框架。 具有以下特点 简单易用:RVC 模型通过简单易用的网页界面,使得用户无需深入了

论文翻译:arxiv-2024 Benchmark Data Contamination of Large Language Models: A Survey

Benchmark Data Contamination of Large Language Models: A Survey https://arxiv.org/abs/2406.04244 大规模语言模型的基准数据污染:一项综述 文章目录 大规模语言模型的基准数据污染:一项综述摘要1 引言 摘要 大规模语言模型(LLMs),如GPT-4、Claude-3和Gemini的快

论文翻译:ICLR-2024 PROVING TEST SET CONTAMINATION IN BLACK BOX LANGUAGE MODELS

PROVING TEST SET CONTAMINATION IN BLACK BOX LANGUAGE MODELS https://openreview.net/forum?id=KS8mIvetg2 验证测试集污染在黑盒语言模型中 文章目录 验证测试集污染在黑盒语言模型中摘要1 引言 摘要 大型语言模型是在大量互联网数据上训练的,这引发了人们的担忧和猜测,即它们可能已

速通GPT-3:Language Models are Few-Shot Learners全文解读

文章目录 论文实验总览1. 任务设置与测试策略2. 任务类别3. 关键实验结果4. 数据污染与实验局限性5. 总结与贡献 Abstract1. 概括2. 具体分析3. 摘要全文翻译4. 为什么不需要梯度更新或微调⭐ Introduction1. 概括2. 具体分析3. 进一步分析 Approach1. 概括2. 具体分析3. 进一步分析 Results1. 概括2. 具体分析2.1 语言模型

简单的Q-learning|小明的一维世界(3)

简单的Q-learning|小明的一维世界(1) 简单的Q-learning|小明的一维世界(2) 一维的加速度世界 这个世界,小明只能控制自己的加速度,并且只能对加速度进行如下三种操作:增加1、减少1、或者不变。所以行动空间为: { u 1 = − 1 , u 2 = 0 , u 3 = 1 } \{u_1=-1, u_2=0, u_3=1\} {u1​=−1,u2​=0,u3​=1}

简单的Q-learning|小明的一维世界(2)

上篇介绍了小明的一维世界模型 、Q-learning的状态空间、行动空间、奖励函数、Q-table、Q table更新公式、以及从Q值导出策略的公式等。最后给出最简单的一维位置世界的Q-learning例子,从给出其状态空间、行动空间、以及稠密与稀疏两种奖励函数的设置方式。下面将继续深入,GO! 一维的速度世界 这个世界,小明只能控制自己的速度,并且只能对速度进行如下三种操作:增加1、减

深度学习--对抗生成网络(GAN, Generative Adversarial Network)

对抗生成网络(GAN, Generative Adversarial Network)是一种深度学习模型,由Ian Goodfellow等人在2014年提出。GAN主要用于生成数据,通过两个神经网络相互对抗,来生成以假乱真的新数据。以下是对GAN的详细阐述,包括其概念、作用、核心要点、实现过程、代码实现和适用场景。 1. 概念 GAN由两个神经网络组成:生成器(Generator)和判别器(D

ZOJ 3324 Machine(线段树区间合并)

这道题网上很多代码是错误的,由于后台数据水,他们可以AC。 比如这组数据 10 3 p 0 9 r 0 5 r 6 9 输出应该是 0 1 1 所以有的人直接记录该区间是否被覆盖过的方法是错误的 正确方法应该是记录这段区间的最小高度(就是最接近初始位置的高度),和最小高度对应的最长左区间和右区间 开一个sum记录这段区间最小高度的块数,min_v 记录该区间最小高度 cover

MACS bdgdiff: Differential peak detection based on paired four bedGraph files.

参考原文地址:[http://manpages.ubuntu.com/manpages/xenial/man1/macs2_bdgdiff.1.html](http://manpages.ubuntu.com/manpages/xenial/man1/macs2_bdgdiff.1.html) 文章目录 一、MACS bdgdiff 简介DESCRIPTION 二、用法

Neighborhood Homophily-based Graph Convolutional Network

#paper/ccfB 推荐指数: #paper/⭐ #pp/图结构学习 流程 重定义同配性指标: N H i k = ∣ N ( i , k , c m a x ) ∣ ∣ N ( i , k ) ∣ with c m a x = arg ⁡ max ⁡ c ∈ [ 1 , C ] ∣ N ( i , k , c ) ∣ NH_i^k=\frac{|\mathcal{N}(i,k,c_{