论文翻译 - Defending Against Alignment-Breaking Attacks via Robustly Aligned LLM

本文主要是介绍论文翻译 - Defending Against Alignment-Breaking Attacks via Robustly Aligned LLM,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

论文链接:https://arxiv.org/pdf/2309.14348.pdf

Defending Against Alignment-Breaking Attacks via Robustly Aligned LLM

  • Abstract
  • 1 Introduction
  • 2 Related Works
  • 3 Our Proposed Method
    • 3.1 Threat Model
    • 3.2 Our Proposed Method
    • 3.3 Practical Designs
    • 3.4 Theoretical Analysis
  • 4 Experiments
    • 4.1 Experimental Settings
    • 4.2 Experimental Results
    • 4.3 Handcrafted Jailbreak Prompts
    • 4.4 Ablation Study
    • 4.5 Computational Cost
  • 5 Conclusion and Future Work

Abstract

最近,大型语言模型 (LLM) 取得了重大进展,现在广泛用于各个领域。不幸的是,人们越来越担心llm可能被滥用来生成有害或恶意的内容。尽管一项研究侧重于将 LLM 与人类值对齐并防止它们产生不适当的内容,但这种对齐通常很容易受到攻击,并且可以通过对抗性优化或手工制作的越狱提示来绕过对齐进行攻击。在这项工作中,我们引入了一个鲁棒对齐LLM (RA-LLM)来防御潜在的对齐破坏攻击。RA-LLM 可以直接在现有对齐的 LLM 上构建,并具有稳健的对齐检查功能,而无需对原始 LLM 进行任何昂贵的再训练或微调过程。此外,我们还对 RA-LLM 进行了理论分析,以验证其在防御对齐破坏攻击方面的有效性。通过对开源大型语言模型的真实世界实验,我们证明了 RA-LLM 可以通过将攻击成功率从近 100% 降低到大约 10% 或更低,成功地防御最先进的对抗性提示和流行的手工破坏提示。

1 Introduction

被在互联网上广泛的文本数据上进行训练,大型语言模型 (LLM) 在泛化能力 (OpenAI, 2023; Touvron et al., 2023b) 和各个领域的广泛应用如金融(Wu et al., 2023)、法律 (Nguyen, 2023) 和医疗保健行业 (Thiruunavukarasu et al., 2023) 等方面表现出令人兴奋的改进。虽然 LLM 表现出令人印象深刻的潜力,但一个日益增长的担忧是,它们也可以被恶意利用来生成偏离人类值的内容(例如,有害的响应和非法建议)(Hazell, 2023; Kang et al., 2023),因为它们的训练数据中存在大量不受欢迎的材料。

为了解决这个问题,一项研究侧重于将 LLM 与人类偏好对齐并防止它们产生不适当的内容 (Ouyang et al., 2022; Bai et al., 2022; Go et al., 2023; Korbak et al., 2023)。这些对齐通常采用来自人类反馈 (Ouyang et al., 2022) and AI feedback (Bai et al., 2022) 的强化学习来微调 LLM 以与人类值对齐。尽管有这些努力,一类新兴的越狱攻击仍然可以绕过对齐并从 LLMs 引发有害的反应(Yuan et al., 2023; Shen et al., 2023; Wei et al., 2023; Zou et al., 2023)。这些对齐破坏攻击,通过设计精细的角色扮演(Shen et al., 2023)或简单地要求 LLM 从“Absolutely!here’s”(Wei et al., 2022)开始给出响应,来手动制作对抗性提示。此外,自动的越狱提示生成方法也被开发出来,通过对话加密(Yuan et al., 2023)或贪婪和基于梯度的搜索组合的方法(Zou et al., 2023)。图 1 显示了一个示例,即在后面添加一个对抗性提示的一个恶意问题可以成功地破坏安全的对齐。最近,(Zou et al., 2023) 已经证明 越狱的尝试可以在不同的 LLMs 之间生效和转移。这种现象表明,现有的安全对齐对于防御精心设计的对抗性提示并不是鲁棒的。

到目前为止,很少有人尝试设计用于抵抗对齐破坏攻击的专用机制。目前采用的基本防御依赖于外部工具重新评估LLM 响应的潜在危害。例如,它可以将目标 LLM 中的每个潜在响应输入到第三方 LLM 中,以确定响应是否有害(Helbling et al., 2023).。虽然这种策略能够过滤掉可能的有害响应,但有几个主要的缺点限制了它们的实用性:1)现有的 LLMs 对输入中出现的有害关键字非常敏感,并且很有可能将良性内容错误分类为有害,即使整个句子不谈论任何有害行为(例如,陈述新闻或提供指导/警告)。这可能会导致有害内容检测的高误报率; 2)该方法严重依赖于用作有害鉴别器的 LLM 的性能,而 LLM 本身不是设计为准确的有害鉴别器。其决策的基础仍然模棱两可,这意味着有害的评估过程可能是不透明的; 3) 有更多的对齐类型不能简单地总结为“有害”(例如,隐私、伦理、人类值等),因此这种类型的方法不能同时涵盖这种情况。鉴于 LLM 在各种方面的广泛应用,寻找一种有效的、实用的防御方法来抵抗潜在的对齐破坏攻击是既紧迫又具有挑战性的。

在这项工作中,我们设计了一个鲁棒对齐的 LLM (RA-LLM)来防御潜在的对齐破坏攻击,该攻击建立在已经对齐的LLM之上,并使现有的对齐更不容易被对抗性提示规避。具体来说,我们的关键思想是,尽管对齐 LLM 可以在一定程度上识别输入请求是否良性,但我们不能直接依赖它,因为它可能不可靠。只有当我们随机丢弃一部分请求,而 LLM 在大多数情况下仍然认为它是良性的时,我们才认为这个输入请求是良性的。直观地说,这种随机丢弃操作会使对齐破坏攻击中的对抗性提示无效,因为这些攻击通常对小扰动是敏感的;另一方面,对于良性请求,即使随机丢弃一部分,LLM 拒绝良性请求的可能性也相对较低。因此,这种机制自然会导致一个鲁棒对齐的LLM。

请注意,我们的 RA-LLM 不需要任何外部“有害性”检测器,相反,我们的策略仅依赖于 LLM 内部的现有对齐能力。由于同样的原因,我们的方法不限于任何特定的对齐类型(例如有害性),但对所有现有的模型对齐都具有鲁棒性。此外,我们提供了理论分析来验证我们提出的 RA-LLM 的有效性。我们在开源大型语言模型上的实验结果表明,RA-LLM 可以通过将攻击成功率从近 100% 降低到大约 10% 或更低,来成功地防御目前最先进的对抗性提示和流行的手工的越狱提示。

2 Related Works

Aligning LLMs with Human Preferences 基础大型语言模型在广泛的文本语料库 (Brown et al., 2020; Chowdhery et al., 2022; Touvron et al., 2023a) 上进行了预训练,它为 LLM 配备了世界知识并促进其在专业应用中的部署。尽管 LLMs 的性能优异,但由于未过滤的训练数据中存在的大量不适当的内容,LLMs 会生成偏离人类期望(例如有害响应和非法建议)的输出。为了解决这个问题,一系列工作集中在将 LLMs 与人类值对齐 (Xu et al., 2020b; Ouyang et al., 2022; Bai et al., 2022; Go et al., 2023; Korbak et al., 2023)。具体来说,Ouyang et al. (2022) 通过使用来自人类反馈 (RLHF (Christiano et al., 2017; Stiennon et al., 2020)) 的强化学习来对齐 LLM,以人类偏好微调预训练的 LLM 作为奖励信号,这减少了有毒内容的生成。Bai et al. (2022) 训练一个不太有害的系统,通过规范一个简短的原则列表,并通过在监督学习和强化学习阶段引入思维链风格推理(Wei et al., 2022)来进一步提高人类判断的性能。Go et al. (2023) 认为将 LLMs 对齐看作是近似一个表示某些期望行为的目标分布,并相应地提出了一个新的框架来微调 LLMs,用 f-散度最小化去逼近任意目标分布。除了在微调阶段对齐LLM外,Korbak et al. (2023) 还提出了将 LLMs 与替代目标联系起来,这些目标指导它们生成与人类偏好一致的文本,并通过条件训练显著降低生成不良内容的概率(Keskar et al., 2019)。

Alignment-breaking Attacks and defenses in LLMs 尽管已经开发了各种对齐策略来引导 LLMs 生成符合人类伦理原则的内容,但一类新兴的对齐破坏攻击(即 jailbreak 攻击,越狱攻击)仍然可以绕过保护措施并引发 LLMs 产生有害和有毒的反应(Wolf et al., 2023; Li et al., 2023; Shen et al., 2023; Yuan et al., 2023; Wei et al., 2023; Zou et al., 2023),这对 LLM 的实际部署构成了重大威胁。特别是,受传统计算机安全的启发,Kang et al. (2023) 对 LLMs 进行混淆、代码注入/有效负载拆分、以及可视化攻击,导致了 LLMs 生成包含仇恨言论、网络钓鱼攻击和诈骗的内容。Wei et al. (2023) 假设竞争的目标和不匹配的泛化是 LLM 中两种安全训练的故障模式,并通过利用两种故障模式来制作有效的故障破坏攻击。Zou et al. (2023) 不是手动制作对抗性提示,而是通过使用贪婪和基于梯度的搜索方法自动生成可转移的对抗性后缀,以最大化生成肯定响应的概率。Yuan et al. (2023) 通过对话加密绕过安全对齐。Shen et al. (2023)系统地分析了野生的越狱提示的特点,表明越狱提示随着长度减少、毒性增加和语义的转移而变得更加隐蔽和有效。请注意,一些并发工作也旨在防御对齐破坏攻击:Kumar et al. (2023) 通过枚举所有可能的被部分擦除的输入,并使用安全过滤器来识别输入内容的危害,来提供可验证的安全保证。Jain et al. (2023) 提出通过检查提示的困惑度是否大于阈值来检测对抗性提示。

Traditional Text Adversarial Attack and Defenses 传统的文本对抗性攻击主要关注文本分类任务,旨在通过对抗性扰动原始文本来强制目标模型最大化其错误预测(Ebrahimi et al., 2017; Jin et al., 2020; Li et al., 2018; Maheshwary et al., 2021; Ye et al., 2023)。对抗性扰动可以被精心制造出来,通过执行字符级转换 (Gao et al., 2018) 或使用同义词替换原始单词,同时保持语义和句法相似 (Alzantot et al., 2018)。根据目标模型的能被访问的程度,对抗样本的生成可以分为“白盒”设置和“黑盒”设置(Xu et al., 2020a)。HotFlip (Ebrahimi et al., 2017) 作为一种具有代表性的白盒方法,在其 one-hot 的编码表示上使用离散文本结构的梯度信息来构建对抗性示例。在黑盒设置中,Li et al. (2018); Jin et al. (2020); Ren et al. (2019) 利用所有类别的预测分数分布来制作对抗性文本,而无需指导参数梯度。Maheshwary et al. (2021)专注于更现实的场景,即攻击者只知道 top-1 的预测,他们提出使用基于种群的优化来构建对抗文本。Ye et al. (2022)遵循相同的场景,并使用词嵌入空间来指导对抗性示例的生成。

为了防御对抗性攻击,已经提出了许多经验防御方法。特别是,基于对抗训练的方法 (Miyato et al., 2016; Zhu et al., 2019) 将对抗性扰动合并到词嵌入中,并通过最小化对抗性损失来稳健地训练模型。Zhou et al. (2021); Dong et al. (2021) 利用对抗性数据增强,将原词替换为同义词,使模型对相似的对抗性扰动具有鲁棒性。这些方法对对抗性攻击取得了经验上的成功。为了提供对对抗性单词替换的可证明鲁棒性,Jia et al. (2019) 通过训练模型来优化区间有界传播(IBP)的上限来使用可证明的稳健训练。Shi et al. (2020)采用基于线性松弛的扰动分析(Xu et al., 2020c),开发了一种对 transformer 的鲁棒性验证方法。Zeng et al. (2023)提出了一种基于随机平滑技术 (Cohen et al. 2019) 的可证明鲁棒防御方法。

3 Our Proposed Method

在本节中,我们介绍了所提出的鲁棒地对齐的 LLM,用于防御对齐破坏攻击。在详细介绍之前,我们首先讨论本文重点关注的威胁模型。

3.1 Threat Model

对齐破坏攻击试图绕过一个对齐的 LLM 的安全检查,通过在一个原始的恶意问题上引入附加的对抗性提示。令 x \mathrm{x} x 表示一个恶意问题, p a d v \mathrm{p_adv} padv 表示对齐破坏攻击生成的对抗性提示。令 x a d v = x ⊕ p a d v \mathrm{x_{adv}=x\oplus p_{adv}} xadv=xpadv 表示整个输入(恶意问题和对抗性提示),其中 ⊕ \oplus 表示插入操作。虽然大多数现有的攻击通常在请求的结束位置放置对抗性提示 Zou et al. (2023),但我们实际上考虑了更一般的情况,也就是对抗性提示也可以插入到恶意问题前面或插入到中间。

我们还假设目标LLM f ( ⋅ ) f(\cdot) f() 是一个已经对齐的 LLM,它具有一定的能力来拒绝普遍地看到的恶意请求。换句话说,当恶意问题 x \mathrm{x} x 直接输入目标 LLM f ( ⋅ ) f(\cdot) f() 时,在大多数情况下,它通过输出类似于“"I am sorry, but I cannot talk about [a malicious request]…”的响应来拒绝回答这个问题。相反,对齐破坏攻击者的目标是通过找到一个对抗性提示 p a d v \mathrm{p_adv} padv 来打破目标LLM的现有对齐,那么 x a d v = x ⊕ p a d v \mathrm{x_{adv}=x\oplus p_{adv}} xadv=xpadv 会误导 LLM 对这样的一个恶意问题提供一个肯定的答案 Zou et al. (2023) ,例如“Sure, here is how to do [a malicious request]…”。

3.2 Our Proposed Method

我们的动机建立在目标 LLM 已经对齐并能够拒绝普遍看到的恶意请求这一事实之上。更具体地说,我们可以根据对齐的 LLM f ( ⋅ ) f(\cdot) f() 构建一个对齐检查函数 AC ( ⋅ ) \text{AC}(\cdot) AC():当检测到 f ( ⋅ ) f(\cdot) f() 的输出中含有的典型对齐文本时返回 F a i l Fail Fail,例如“"I am sorry, but I cannot answer this …”,否则返回 P a s s Pass Pass。给定对齐检查函数 AC ( ⋅ ) \text{AC}(\cdot) AC(),可以通过以下方式构造一个“假设的” LLM:

f ′ ( x ) = { Reject the response, , if AC ( f ( x ) ) = F a i l f ( x ) , if AC ( f ( x ) ) = P a s s f'(\mathrm{x})=\begin{cases} \text{Reject the response,} & \text{, if AC}(f(\mathrm{x})) = Fail\\ f(\mathrm{x})& \text{, if AC}(f(\mathrm{x})) = Pass \end{cases} f(x)={Reject the response,f(x), if AC(f(x))=Fail, if AC(f(x))=Pass

这里 f ′ ( x ) f'(\mathrm{x}) f(x) 表示用对齐检查函数 AC ( ⋅ ) \text{AC}(\cdot) AC() 构造的“假设的” LLM。而 f ′ ( x ) f'(\mathrm{x}) f(x) 似乎是“无用的”,因为在现实中它会和 f ( x ) f(\mathrm{x}) f(x) 给出相同的结果,这展示了如何用一个对齐检查函数构造一个新的对齐的LLM。

Robust Alignment Check Function 这里要注意的一件事是,先前定义的对齐检查函数 AC ( ⋅ ) \text{AC}(\cdot) AC() 仅依赖于目标 LLM 内的现有对齐。然而,对齐破坏攻击的存在,例如对抗性提示 Zou et al. (2023) 已经证明这种对齐检查并不稳健:它可以通过精心设计的扰动或后缀提示来轻松操纵和规避。因此,很自然地考虑我们如何设计一个鲁棒的对齐检查函数,该函数可以增强对齐 LLM 的对齐检查能力,而无需微调或修改模型本身。

我们在这里的直觉非常简单:由于现有的对齐检查函数 AC ( ⋅ ) \text{AC}(\cdot) AC() 不足以用于对齐破坏提示,因此它直接返回的 P a s s Pass Pass 决定不能完全说服我们该请求是良性的,相反,我们需要一个更强的证据和更严格的检查。具体来说,我们会认为输入请求是良性的,只有当我们随机删除请求的某些部分并且相应的响应在大多数情况下仍然可以通过对齐检查函数 AC ( ⋅ ) \text{AC}(\cdot) AC()。为了将这一要求转化为数学公式,我们基于对齐的LLM f ( ⋅ ) f(\cdot) f()和对齐检查函数 AC ( ⋅ ) \text{AC}(\cdot) AC() 定义了以下鲁棒对齐检查函数 RAC ( ⋅ ) \text{RAC}(\cdot) RAC():

RAC ( x ) = { F a i l , if AC ( f ( x ) ) = F a i l F a i l , if  P r ∼ U ( p ) ( AC ( f ( [ x ] r ) ) = F a i l ) > t P a s s , otherwise  \text{RAC}(\mathrm{x})=\begin{cases} Fail, & \text{ if AC} (f(\mathrm{x}))=Fail \\ Fail, & \text{ if } \underset{r\sim U(p)}{\mathbb{P}}(\text{AC}(f(\mathrm{[x]}_{r}))=Fail)>t \\ Pass, & \text{ otherwise } \end{cases} RAC(x)= Fail,Fail,Pass, if AC(f(x))=Fail if rU(p)P(AC(f([x]r))=Fail)>t otherwise 

这里 r \mathrm{r} r 指均匀采样的索引掩码来指示要保留的标记, U ( p ) U(p) U(p) 是指在均匀丢弃索引的百分之 p p p 的索引(没有替换)后,可能掩码的分布, [ x ] r \mathrm{[x]_{r}} [x]r 指执行丢弃操作后, x \mathrm{x} x 中保留的索引 r \mathrm{r} r。大体上,对于长度为 L L L 的输入 x \mathrm{x} x,每个可能的 [ x ] r \mathrm{[x]_{r}} [x]r 仅包含由 r \mathrm{r} r 索引的 ( 1 − p ) L (1 - p)L (1p)L 个标记。

等式 2 指出鲁棒对齐检查函数 RAC ( ⋅ ) \text{RAC}(\cdot) RAC() 不仅需要原始响应 f ( x ) f(\mathrm{x}) f(x) 显示没有对齐的迹象,还需要随机丢弃后的响应仍然在大多数情况下显示没有对齐的迹象。相反,如果 AC ( x ) \text{AC}(\mathrm{x}) AC(x) 已经失败,或来自随机丢弃的输入的响应,有超过一定比率(例如,> t)未能通过 AC \text{AC} AC,那么 RAC ( ⋅ ) \text{RAC}(\cdot) RAC() 也会失败。因此,很容易看出,与 AC ( ⋅ ) \text{AC}(\cdot) AC() 相比,这样的设计肯定有助于我们构建一个更鲁棒的对齐检查函数。

基于鲁棒对齐检查函数 RAC ( ⋅ ) \text{RAC}(\cdot) RAC(),我们可以通过简单地将等式 1 中的普通对齐检查函数 AC ( ⋅ ) \text{AC}(\cdot) AC()替换为 RAC ( ⋅ ) \text{RAC}(\cdot) RAC() 来进一步构造一个鲁棒对齐的 LLM:

f r o b ( x ) = { Reject the response, , if RAC ( f ( x ) ) = F a i l f ( x ) , if RAC ( f ( x ) ) = P a s s f_{\mathrm{rob}}(\mathrm{x})=\begin{cases} \text{Reject the response,} & \text{, if RAC}(f(\mathrm{x})) = Fail\\ f(\mathrm{x})& \text{, if RAC}(f(\mathrm{x})) = Pass \end{cases} frob(x)={Reject the response,f(x), if RAC(f(x))=Fail, if RAC(f(x))=Pass

通过这种简单的对齐检查函数的重建,我们可以构建一个鲁棒对齐的 LLM,而不需要额外的资源或整个模型的再训练。图 2 说明了我们提出的 RAC 在面对恶意或良性请求时的效果。

3.3 Practical Designs

现在让我们深入研究我们提出的鲁棒对齐LLM的实际设计,它本质上近似于上面提到的 f r o b f_{\mathrm{rob}} frob。算法1总结了构建的鲁棒对齐LLM的详细步骤。

Approximation of AC(·) 之前,我们模糊地将对齐检查函数 AC ( ⋅ ) \text{AC}(\cdot) AC() 定义为在检测到典型的对齐输出时返回 F a i l Fail Fail ,否则返回 P a s s Pass Pass。在实践中,我们通过前缀检查来近似这个对齐检查函数:我们观察到各种对齐的输出通常共享相似的前缀,例如“I can not”、“I’m sorry”。因此,我们可以构建一个前缀集,如果集合中的任意前缀出现在LLM的输出中,对齐检查函数 AC ( ⋅ ) \text{AC}(\cdot) AC() 返回 f a i l fail fail;否则,它返回 P a s s Pass Pass。请注意,我们只检查前缀。为此,我们只需要生成一定数量的令牌(例如 10)来进行稳健的对齐检查。这可以大大减少我们的计算开销。

Monte Carlo Sampling 获得 P r ∼ U ( p ) ( AC ( f ( [ x ] r ) ) = F a i l ) \mathbb{P}_{r\sim U(p)}(\text{AC}(f(\mathrm{[x]}_{r}))=Fail) PrU(p)(AC(f([x]r))=Fail) 概率的精确值实际上是不可行的,因为它需要我们枚举所有可能的随机丢弃情况,并且在计算上是难以处理的。因此,在实践中,我们进行蒙特卡罗采样来近似真实概率:我们随机抽取 n n n 个索引掩码,以获得具有随机丢弃的输入请求的 n n n 个版本;然后,我们征求 LLM 对这些 n n n 个请求的响应,并计算对齐检查函数 AC ( ⋅ ) \text{AC}(\cdot) AC() 给出故障决策的情况的频率。

The Practical Choice of t t t 另一个重要的选择是实践中使用的阈值 t t t。特别是,一个看似合乎逻辑的选择是设置 t → 0 t \to 0 t0,这样能使得每当 AC ( ⋅ ) \text{AC}(\cdot) AC() 从随机丢弃的请求中检测到任何失败案例时, RAC ( ⋅ ) \text{RAC}(\cdot) RAC() 会直接返回失败请求。然而,在实践中,这样的设置可能太极端,因为丢弃操作中引入的随机性也可能影响LLM对良性输入的响应:随机丢弃有时可能导致基本信息的丢失,在这种情况下,LLM也可能产生类似于典型对齐响应的响应。例如,“Do you like apples?”可能在随机丢弃后会变成“Do you apples?” ,导致 LLM 无法回答这个不清楚的问题。这可能会被 AC ( ⋅ ) \text{AC}(\cdot) AC() 误检测为 F a i l Fail Fail,如果阈值 t → 0 t \to 0 t0,它将导致 RAC ( ⋅ ) \text{RAC}(\cdot) RAC() F a i l Fail Fail,并被我们的稳健对齐 LLM 拒绝。因此,在实践中,我们没有将阈值 t t t 设置为零,而是保持相对较小的阈值。

3.4 Theoretical Analysis

在本节中,我们从理论上分析了所提出的鲁棒对齐 LLM,并在面对对齐破坏攻击时,与原始 LLM 相比,什么情况下它提供了更健壮的对齐。

我们的定理基于对鲁棒对齐检查函数 RAC 的分析。我们将证明 RAC 对长度为 M 的任何对抗性提示 p a d v \mathrm{p_{adv}} padv 的对齐恶意文本 x \mathrm{x} x 更稳健,并且可以插入到任何位置(例如,在 x \mathrm{x} x 的前面、后面或中间)。

**定理 3.1 ** 考虑一个恶意的输入 x \mathrm{x} x 和它对应的对抗性提示 p a d v \mathrm{p_{adv}} padv x a d v = x ⊕ p a d v \mathrm{x_{adv}=x\oplus p_{adv}} xadv=xpadv 可以击破 LLM f ( ⋅ ) f(\cdot) f() 的对齐。假设 x \mathrm{x} x 包含 N N N 个标记, p a d v \mathrm{p_{adv}} padv 包含 M M M 个标记,并且 p a d v \mathrm{p_{adv}} padv 可以插入到 x \mathrm{x} x 中的任何位置 j ∈ [ 0 , . . . , N ] j\in[0,...,N] j[0,...,N]。用 x p a d j \mathrm{x}^{j}_{pad} xpadj 代表填充文本,它通过在 x \mathrm{x} x 中的位置 j j j 插入 M M M 个填充标记来构造。如果 N ≥ M ( 1 − p ) p N\ge \frac{M(1-p)}{p} NpM(1p) ,并且

min ⁡ j P r ∼ U ( p ) ( AC ( f ( [ x ] p a d j ) ) = F a i l ) > t + c \underset{j}{\min} \underset{r\sim U(p)}{\mathbb{P}}(\text{AC}(f(\mathrm{[x]}_{pad}^{j}))=Fail)>t+c jminrU(p)P(AC(f([x]padj))=Fail)>t+c

这里 c = 1 − ( N ( N + M ) ( 1 − p ) ) ( N + M ( N + M ) ( 1 − p ) ) c=1-\frac{\binom{N}{(N+M)(1-p)}}{\binom{N+M}{(N+M)(1-p)}} c=1((N+M)(1p)N+M)((N+M)(1p)N) t t t 是算法 1 中的阈值,那么我们算法1中的,带着足够大的随机丢弃试验 n n n 的鲁棒对齐的 LLM 会拒绝 x a d v = x ⊕ p a d v \mathrm{x_{adv}=x\oplus p_{adv}} xadv=xpadv 的请求

定理 3.1 的证明在附录 A 中提供。定理 3.1 分析了什么时候我们的鲁棒对齐 LLM 可以从对齐破坏攻击中拒绝请求,而原始 LLM 实际上无法防御此类对抗性提示。具体来说,给定一个特定的恶意输入 x \mathrm{x} x,其响应已由目标 LLM f ( ⋅ ) f(\cdot) f() 对齐,尽管我们无法知道攻击者使用什么样的对抗性提示,或者攻击者将在什么位置插入对抗性提示,只要我们有 min ⁡ j P r ∼ U ( p ) ( AC ( f ( [ x ] p a d j ) ) = F a i l ) > t + c \underset{j}{\min} \underset{r\sim U(p)}{\mathbb{P}}(\text{AC}(f(\mathrm{[x]}_{pad}^{j}))=Fail)>t+c jminrU(p)P(AC(f([x]padj))=Fail)>t+c ,那么由 x ⊕ p a d v \mathrm{x\oplus p_{adv}} xpadv 组成的任何对齐破坏攻击 x a d v \mathrm{x_{adv}} xadv 将被我们的稳健对齐的 LLM 拒绝。

4 Experiments

在本节中,我们旨在从两个方面验证我们的 RA-LLM 的功效:1)RA-LLM 可以有效降低对抗性提示的攻击成功率; 2)RA-LLM 对良性样本的输出产生的影响很小。在下文中,我们首先介绍我们的实验设置,并对我们的实验结果和消融研究进行了详细的分析。

4.1 Experimental Settings

Dataset 我们在两个数据集上评估了我们的方法:AdvBench (Zou et al., 2023) 和 MS MARCO (Nguyen et al., 2016). 数据集。AdvBench 数据集包含两种类型的数据,分别对应于有害字符串攻击和有害行为攻击。具体来说,用于有害字符串攻击的数据由 500 个与有害或有毒内容相关的字符串组成,例如威胁、歧视性评论、犯罪方法和危险建议等。用于有害行为攻击的数据由 500 个问题组成,这些问题可以诱使 LLM 产生有害输出,主题类似于有害字符串。MS MARCO 是一个问答数据集,其中所有问题都来自 Bing 上的真实用户查询。我们从这三个数据集中的每个数据集中抽取 150 条数据进行实验评估。

Attack Setting 我们主要在最先进的对齐破坏攻击下评估我们的防御,也就是使用 (Zou et al., 2023) 提出的有害行为攻击。有害行为攻击的目标是诱导 LLM 对恶意查询有效地响应,而这种恶意查询正常情况下会被对齐的 LLMs 拒绝。有害行为攻击旨在绕过对齐 LLMs 的保护措施,并使它们产生有害内容。我们使用 (Zou et al., 2023) 中提供的默认超参数计算所有对抗性提示。

4.2 Experimental Results

在表 1 中,我们展示了有害行为攻击的两种攻击模式的实验结果:个体攻击和迁移攻击,针对 Vicuna-7B-v1.3-HF 和 Guanaco-7B-HF 模型。个体攻击旨在直接优化特定模型和特定的恶意请求的对抗性提示,而迁移攻击旨在优化跨多个模型和多个恶意请求的通用的对抗性提示。我们使用良性请求和带有对抗性提示的恶意请求来测试原始对齐的LLM和我们的鲁棒对齐LLM。随后,我们通过 LLM 的输出评估这些输入是否激活了对齐机制。

具体来说,我们考虑了两个主要指标来评估我们模型的性能:攻击成功率 (ASR) 和良性回答率 (BAR)。攻击成功率衡量对抗性提示成功规避模型对齐机制的数量。当 LLM 产生有意义的响应而不是用典型的对齐文本来拒绝时,攻击被认为是成功的。为了确保防御机制不会过度杀伤并拒绝回答良性问题,我们还测试了良性回答率,它表示成功识别良性请求时的模型精度(不拒绝回答良性请求)。我们的防御目标是尽可能最小化攻击成功率,同时以一个高良性回答率来正确识别良性样本。

从表 1 可以看出,对于个体攻击,对抗性提示在两个模型上分别导致 98.7% 和 96.0% 的高恶意响应成功率。然而,在使用我们稳健对齐的LLM时,这些成功率下降到10.7%和6.7%。同样,对于迁移攻击,我们的鲁棒对齐 LLM 的应用将攻击成功率从83.3%和78.7%降低到11.3%和8.7%。这表明我们的策略有效地减轻了对抗性攻击。此外,我们的方法保持了良好的良性响应率,这表明我们的方法对LLM对良性输入的响应几乎没有不利影响。

4.3 Handcrafted Jailbreak Prompts

在实践中,另一种常见的对齐破坏攻击是手工制作的 越狱提示。这些手工制作的对抗性提示通常通过设计详细的角色扮演场景,或者要求 LLM 从“Sure, here it is” 等肯定响应开始给出响应,迫使LLM生成有害内容。一般来说,手工制作的越狱攻击提示是更广泛地被采用的对齐破坏攻击类型,因为它根本不需要计算,因此,手工制作的越狱攻击提示引起的威胁是不能忽视的。

我们还评估了我们的鲁棒对齐 LLM 对这些精心设计的越狱提示的防御能力。具体来说,我们从 jailbreakchat.com 中选择了前五个 jailbreak 提示,这些提示由在线用户根据其有效性投票。对于这些手工制作的 越狱提示中的每一个,我们从 Harmful Behaviors 数据集中随机选择 30 个问题,最终得到一组 150 个手工制作的越狱提示样本。

表 2 显示了在手工制作的越狱提示数据集上,我们的防御方法对三种不同 LLM,Vicuna-7B-chat-HF、Guanaco-7B-HF、GPT-3.5-turbo-0613 的影响,所有这些 LLMs 都经历了安全对齐。我们发现,我们的鲁棒对齐 LLM 也对此类手工制作的越狱提示同样表现得非常好。如表 2 所示,手工制作的越狱提示在 Vicuna-7B-chat-HF、Guanaco-7B-HF 和 GPT-3.5-turbo-0613 模型上实现了 98.4%、94.7% 和 82.0% 的攻击成功率,当除了对齐之外没有额外的防御时。然而,当应用我们的鲁棒对齐的LLM时,攻击成功率下降到12%、9.3%和8.08%,与上一节的对抗性提示攻击相比,结果甚至更好。同时,RA-LLM 对 BAR 没有显着影响,特别是对于 GPT-3.5-turbo-0613 等更大的模型,这些模型本质上具有很强的语义理解能力。

4.4 Ablation Study

在本节中,我们分析了三种超参数在我们的方法中的影响:随机丢弃率 p p p、阈值 t t t 和随机丢弃试验的数量 n n n。对于我们的默认参数,这些参数设置为 n n n = 20, p p p = 0.3, t t t = 0.2。我们使用攻击成功率和良性回答率来评估这些超参数对 Vicuna-7B-chat-HF 模型中有害行为攻击的影响。评估结果如图 3 所示。

The Effect of Dropping Ratio p p p 如图 3a 所示,我们注意到较大的随机丢弃率 p p p 可以进一步降低攻击成功率。然而,它也可能导致良性回答率显着下降,这表明它可能具有更严格的规则,因此认为许多良性请求是恶意的。当随机丢弃率 p p p 较小时,良性样本的准确率保持在较高水平,但它也会影响鲁棒对齐检查函数的功效,从而导致更高的攻击成功率。

The Effect of Threshold t t t 同样,从图 3b 中,我们可以观察到太小的 t t t 会降低良性样本的准确性,因为随机丢弃的良性样本有时会混淆 LLM 的理解,因此也被拒绝回答。相反,一个非常大的 t t t 会使得很难达到阈值,来触发拒绝回答值,这导致了一个有限的对攻击成功率的降低。

The Effect of Monte Carlo trials n n n 此外,如图 3c 所示,我们的方法在各种蒙特卡罗试验下仍然表现出良好的性能。即使像15和10这样的很少的蒙特卡洛试验,我们的鲁棒对齐LLM保持了接近100%的良性应答率和相对较低的攻击成功率。这表明减少蒙特卡洛试验的数量是在保持稳定防御性能的同时减少计算开销的潜在策略。

4.5 Computational Cost

在本节中,我们将讨论与原始 LLM 相比,鲁棒对齐的LLM 所产生的额外计算成本。假设对话中输入内容和 LLM 响应的标记数分别为 l in l_{\text{in}} lin l out l_{\text{out}} lout,每个输入和响应的token 的计算成本分别为 c in c_{\text{in}} cin c out c_{\text{out}} cout。原始 LLM 的总代价为: C LLM = l in × c in + l out × c out C_{\text{LLM}}=l_{\text{in}} \times c_{\text{in}} + l_{\text{out}}\times c_{\text{out}} CLLM=lin×cin+lout×cout。对于我们的鲁棒对齐的LLM,蒙特卡洛采样过程引入了额外的成本。设蒙特卡罗采样数为 n n n,每个采样中随机丢弃的输入标记的比例为 p p p。此外,为了降低计算成本,我们将输出令牌的最大数量限制为 t max t_{\text{max}} tmax。因此,如果 AC ( x ) \text{AC}(\mathrm{x}) AC(x) 返回 F a i l Fail Fail,我们防御的额外成本是:

C extra = ( 1 − p ) l in × c in × n + l out × c out × n , C_{\text{extra}}=(1-p)l_{\text{in}}\times c_{\text{in}}\times n + l_{\text{out}}\times c_{\text{out}}\times n, Cextra=(1p)lin×cin×n+lout×cout×n, where l out ≤ t max l_{\text{out}}\le t_{\text{max}} louttmax

额外成本与没有防御的情况下的 LLM 的计算成本之比为:

C extra C LLM = ( 1 − p ) l in × c in × n + l out × c out × n l in × c in + l out × c out ≤ ( 1 − p ) l in × c in × n + t max × c out × n l in × c in + l out × c out \frac{C_{\text{extra}}}{C_{\text{LLM}}}=\frac{(1-p)l_{\text{in}}\times c_{\text{in}}\times n + l_{\text{out}}\times c_{\text{out}}\times n}{l_{\text{in}}\times c_{\text{in}}+l_{\text{out}}\times c_{\text{out}}} \le \frac{(1-p)l_{\text{in}}\times c_{\text{in}}\times n + t_{\text{max}}\times c_{\text{out}}\times n}{l_{\text{in}}\times c_{\text{in}}+l_{\text{out}}\times c_{\text{out}}} CLLMCextra=lin×cin+lout×cout(1p)lin×cin×n+lout×cout×nlin×cin+lout×cout(1p)lin×cin×n+tmax×cout×n

如果我们使用我们的实验数据估计 C extra C LLM \frac{C_{\text{extra}}}{C_{\text{LLM}}} CLLMCextra 的值,平均的输入标记数为 l in = 22.58 l_{\text{in}}=22.58 lin=22.58,输出的为 l out = 275.25 l_{\text{out}}=275.25 lout=275.25。对于我们的默认参数,即 n = 20 , p = 0.3 , t = 0.2 , t max = 10 n = 20, p = 0.3, t = 0.2, t_{\text{max}} = 10 n=20,p=0.3,t=0.2,tmax=10。为了计算每个标记的平均计算成本,我们参考 ChatGPT API 的定价。具有 8K 上下文的 GPT-4 模型以 $0.03 / 1K 个标记的价格为输入,输出为 $0.06 / 1K 个标记,而具有 16K 上下文的 GPT-3.5 Turbo 模型以 $0.003 / 1K 个标记的价格为输入,输出为 $0.004 / 1K 个标记。

经过计算, C extra C LLM \frac{C_{\text{extra}}}{C_{\text{LLM}}} CLLMCextra 在 GPT-4的价格下大概是 1.250,在GPT-3.5 Turbo 的价格下大概是 1.496。我们认为这个成本是合理的,考虑到它能提供的防御性能。如果计算成本是一个真正的问题,我们可以通过调整消融研究中建议的超参数(例如 p、t 和 n)来进一步权衡一些防御性能以降低成本。

5 Conclusion and Future Work

虽然已经提出了各种对齐策略来指导大型语言模型遵守人类伦理原则,但最近的工作表明,这些对齐很容易受到攻击,并且可以通过精心设计的对抗性提示进行对齐破坏攻击绕过。在这项工作中,我们提出了鲁棒对齐 LLM ,它建立在现有的对齐 LLM 和鲁棒对齐检查函数的基础上,以防御对齐破坏攻击。我们的方法的一个主要优点是不需要昂贵地为了防御而重新训练或微调原始的 LLM。我们还提供了一个理论分析来验证我们提出的防御的有效性。详尽的实验结果清楚地表明,我们的方法可以有效地防御自动生成的对抗性提示和手工制作的越狱提示。

请注意,由于我们的随机丢弃机制的不可微性,直接将当前的对齐破坏攻击策略(例如 Zou 等人(2023))应用于我们稳健对齐的 LLM 几乎是不可能的,因为这使得基于梯度的搜索或者文本优化很难执行。到目前为止,攻击者是否可以根据我们的防御细节的知识来精心设计更强大、更有效的攻击还有待探索。我们将此留作我们未来的工作。

这篇关于论文翻译 - Defending Against Alignment-Breaking Attacks via Robustly Aligned LLM的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/850191

相关文章

AI hospital 论文Idea

一、Benchmarking Large Language Models on Communicative Medical Coaching: A Dataset and a Novel System论文地址含代码 大多数现有模型和工具主要迎合以患者为中心的服务。这项工作深入探讨了LLMs在提高医疗专业人员的沟通能力。目标是构建一个模拟实践环境,人类医生(即医学学习者)可以在其中与患者代理进行医学

论文翻译:arxiv-2024 Benchmark Data Contamination of Large Language Models: A Survey

Benchmark Data Contamination of Large Language Models: A Survey https://arxiv.org/abs/2406.04244 大规模语言模型的基准数据污染:一项综述 文章目录 大规模语言模型的基准数据污染:一项综述摘要1 引言 摘要 大规模语言模型(LLMs),如GPT-4、Claude-3和Gemini的快

论文阅读笔记: Segment Anything

文章目录 Segment Anything摘要引言任务模型数据引擎数据集负责任的人工智能 Segment Anything Model图像编码器提示编码器mask解码器解决歧义损失和训练 Segment Anything 论文地址: https://arxiv.org/abs/2304.02643 代码地址:https://github.com/facebookresear

论文翻译:ICLR-2024 PROVING TEST SET CONTAMINATION IN BLACK BOX LANGUAGE MODELS

PROVING TEST SET CONTAMINATION IN BLACK BOX LANGUAGE MODELS https://openreview.net/forum?id=KS8mIvetg2 验证测试集污染在黑盒语言模型中 文章目录 验证测试集污染在黑盒语言模型中摘要1 引言 摘要 大型语言模型是在大量互联网数据上训练的,这引发了人们的担忧和猜测,即它们可能已

OmniGlue论文详解(特征匹配)

OmniGlue论文详解(特征匹配) 摘要1. 引言2. 相关工作2.1. 广义局部特征匹配2.2. 稀疏可学习匹配2.3. 半稠密可学习匹配2.4. 与其他图像表示匹配 3. OmniGlue3.1. 模型概述3.2. OmniGlue 细节3.2.1. 特征提取3.2.2. 利用DINOv2构建图形。3.2.3. 信息传播与新的指导3.2.4. 匹配层和损失函数3.2.5. 与Super

BERT 论文逐段精读【论文精读】

BERT: 近 3 年 NLP 最火 CV: 大数据集上的训练好的 NN 模型,提升 CV 任务的性能 —— ImageNet 的 CNN 模型 NLP: BERT 简化了 NLP 任务的训练,提升了 NLP 任务的性能 BERT 如何站在巨人的肩膀上的?使用了哪些 NLP 已有的技术和思想?哪些是 BERT 的创新? 1标题 + 作者 BERT: Pre-trainin

[论文笔记]LLM.int8(): 8-bit Matrix Multiplication for Transformers at Scale

引言 今天带来第一篇量化论文LLM.int8(): 8-bit Matrix Multiplication for Transformers at Scale笔记。 为了简单,下文中以翻译的口吻记录,比如替换"作者"为"我们"。 大语言模型已被广泛采用,但推理时需要大量的GPU内存。我们开发了一种Int8矩阵乘法的过程,用于Transformer中的前馈和注意力投影层,这可以将推理所需

excel翻译软件有哪些?如何高效提翻译?

你是否曾在面对满屏的英文Excel表格时感到头疼?项目报告、数据分析、财务报表... 当这些重要的信息被语言壁垒阻挡时,效率和理解度都会大打折扣。别担心,只需3分钟,我将带你轻松解锁excel翻译成中文的秘籍。 无论是职场新人还是老手,这一技巧都将是你的得力助手,让你在信息的海洋中畅游无阻。 方法一:使用同声传译王软件 同声传译王是一款专业的翻译软件,它支持多种语言翻译,可以excel

LLM系列 | 38:解读阿里开源语音多模态模型Qwen2-Audio

引言 模型概述 模型架构 训练方法 性能评估 实战演示 总结 引言 金山挂月窥禅径,沙鸟听经恋法门。 小伙伴们好,我是微信公众号《小窗幽记机器学习》的小编:卖铁观音的小男孩,今天这篇小作文主要是介绍阿里巴巴的语音多模态大模型Qwen2-Audio。近日,阿里巴巴Qwen团队发布了最新的大规模音频-语言模型Qwen2-Audio及其技术报告。该模型在音频理解和多模态交互

MonoHuman: Animatable Human Neural Field from Monocular Video 翻译

MonoHuman:来自单目视频的可动画人类神经场 摘要。利用自由视图控制来动画化虚拟化身对于诸如虚拟现实和数字娱乐之类的各种应用来说是至关重要的。已有的研究试图利用神经辐射场(NeRF)的表征能力从单目视频中重建人体。最近的工作提出将变形网络移植到NeRF中,以进一步模拟人类神经场的动力学,从而动画化逼真的人类运动。然而,这种流水线要么依赖于姿态相关的表示,要么由于帧无关的优化而缺乏运动一致性