Who‘s Harry Potter? Approximate Unlearning in LLMs

本文主要是介绍Who‘s Harry Potter? Approximate Unlearning in LLMs，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

本文是LLM系列文章，针对《Who’s Harry Potter? Approximate Unlearning in LLMs》的翻译。

哈利波特是谁？LLMs中的近似遗忘

摘要
1 引言
2 我们方法的描述
3 评估方法
4 结果
5 结论

摘要

大型语言模型（LLM）是在大量的互联网语料库上训练的，这些语料库通常包含受版权保护的内容。这给这些模型的开发人员和用户，以及原始作者和出版商带来了法律和道德挑战。在本文中，我们提出了一种新的技术，用于从LLM中忘记训练数据的子集，而不必从头开始重新训练。
我们评估了我们在从Llama2-7b模型（Meta最近开源的生成语言模型）中忘记哈利波特书的任务上的技术。虽然该模型花费了超过184K个GPU小时进行预训练，但我们发现，在大约1个GPU小时的微调中，我们有效地消除了该模型生成或回忆哈利波特相关内容的能力，而其在常见基准测试（如Winogrande、Hellaswag、arc、boolq和piqa）上的性能几乎不受影响。据我们所知，这是第一篇在生成语言模型中提出有效的遗忘技术的论文。
我们的技术由三个主要组成部分组成：首先，我们使用一个在目标数据上进一步训练的强化模型，通过将其logits与基线模型的logits进行比较，来识别与遗忘目标最相关的token。其次，我们将目标数据中的特殊表达式替换为通用表达式，并利用模型自己的预测为每个token生成替代标签。这些标签旨在近似尚未在目标数据上训练的模型的下一个标记预测。第三，我们在这些替代标签上对模型进行微调，无论何时提示其上下文，这都会有效地从模型的内存中删除原始文本。

1 引言

2 我们方法的描述

3 评估方法

4 结果

5 结论

教授大型语言模型（LLM）以选择性遗忘，或“忘记”的雄心勃勃的努力，证明了人工智能和机器学习世界中固有的微妙复杂性。人们普遍认为这是一项艰巨的任务，任何在LLM中启用此类功能的尝试都是创新解决方案的先锋，因此，我们的概念验证可以说强调了进步。
首先，我们的研究表明，正如我们对Llama2-7b模型的实验中的积极结果所表明的那样，忘记学习虽然具有挑战性，但并不是一项不可逾越的任务。然而，这一成就必须以审慎的态度来看待。我们目前的方法——基于向模型提供的提示进行评估，并评估由此产生的完成情况——尽管在某些情况下有效，但可能对提取信息的更具对抗性的方法视而不见。可以想象，非传统或复杂的方法，如深入研究token概率分布，可能会无意中揭示模型对未学习内容的潜在熟悉程度。
深入探究我们的技术潜在的普遍性，当考虑到《哈利·波特》系列的独特属性时，会出现一个相关的观察结果。这些书充满了独特的表达方式和独特的名字——事后看来，这些特征可能助长了我们的遗忘策略。在许多LLM的训练数据中，哈利波特主题的明显存在进一步加剧了挑战。鉴于这种广泛的表现，即使是提示中的最轻微提示也可能引发一连串相关的填充，突显出模型中根深蒂固的记忆深度。
我们方法论的一个细微之处在于依赖GPT-4对哈利波特宇宙的现有知识。为了检测特定的锚定术语并设计通用的对应术语，GPT-4的专业知识被证明是有用的。这就提出了一个问题，如果没有如此丰富的先验知识，我们的技术是否能达到类似的效果。初步实验表明，在缺乏这些知识的情况下，实体提取仍然是有效的，我们推测，对特质表达的不熟悉可以通过简单的n-gram频率分析来解决，但我们为未来的工作留下了更彻底的研究。
将我们的方法扩展到其他类型的内容，特别是非小说或教科书，也带来了一系列挑战。与哈利波特的虚构世界不同，非虚构内容将不会拥有相同密度的独特术语或短语。此外，非虚构文本通常嵌入更高层次的结构，如思想、概念或文化视角。目前还不确定我们的技术能在多大程度上有效地处理和消除这些更抽象的元素。这显然需要对我们的技术进行调整。
总之，虽然我们的技术提供了一个有希望的开端，但它在各种内容类型中的适用性仍有待彻底测试。所提出的方法提供了一个基础，但还需要进一步的研究来完善和扩展LLM中更广泛的遗忘任务的方法。

这篇关于Who‘s Harry Potter? Approximate Unlearning in LLMs的文章就介绍到这儿，希望我们推荐的文章对编程师们有所帮助！