Who‘s Harry Potter? Approximate Unlearning in LLMs

2023-10-30 18:44

本文主要是介绍Who‘s Harry Potter? Approximate Unlearning in LLMs,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

本文是LLM系列文章,针对《Who’s Harry Potter? Approximate Unlearning in LLMs》的翻译。

哈利波特是谁?LLMs中的近似遗忘

  • 摘要
  • 1 引言
  • 2 我们方法的描述
  • 3 评估方法
  • 4 结果
  • 5 结论

摘要

大型语言模型(LLM)是在大量的互联网语料库上训练的,这些语料库通常包含受版权保护的内容。这给这些模型的开发人员和用户,以及原始作者和出版商带来了法律和道德挑战。在本文中,我们提出了一种新的技术,用于从LLM中忘记训练数据的子集,而不必从头开始重新训练。
我们评估了我们在从Llama2-7b模型(Meta最近开源的生成语言模型)中忘记哈利波特书的任务上的技术。虽然该模型花费了超过184K个GPU小时进行预训练,但我们发现,在大约1个GPU小时的微调中,我们有效地消除了该模型生成或回忆哈利波特相关内容的能力,而其在常见基准测试(如Winogrande、Hellaswag、arc、boolq和piqa)上的性能几乎不受影响。据我们所知,这是第一篇在生成语言模型中提出有效的遗忘技术的论文。
我们的技术由三个主要组成部分组成:首先,我们使用一个在目标数据上进一步训练的强化模型,通过将其logits与基线模型的logits进行比较,来识别与遗忘目标最相关的token。其次,我们将目标数据中的特殊表达式替换为通用表达式,并利用模型自己的预测为每个token生成替代标签。这些标签旨在近似尚未在目标数据上训练的模型的下一个标记预测。第三,我们在这些替代标签上对模型进行微调,无论何时提示其上下文,这都会有效地从模型的内存中删除原始文本。

1 引言

2 我们方法的描述

3 评估方法

4 结果

5 结论

教授大型语言模型(LLM)以选择性遗忘,或“忘记”的雄心勃勃的努力,证明了人工智能和机器学习世界中固有的微妙复杂性。人们普遍认为这是一项艰巨的任务,任何在LLM中启用此类功能的尝试都是创新解决方案的先锋,因此,我们的概念验证可以说强调了进步。
首先,我们的研究表明,正如我们对Llama2-7b模型的实验中的积极结果所表明的那样,忘记学习虽然具有挑战性,但并不是一项不可逾越的任务。然而,这一成就必须以审慎的态度来看待。我们目前的方法——基于向模型提供的提示进行评估,并评估由此产生的完成情况——尽管在某些情况下有效,但可能对提取信息的更具对抗性的方法视而不见。可以想象,非传统或复杂的方法,如深入研究token概率分布,可能会无意中揭示模型对未学习内容的潜在熟悉程度。
深入探究我们的技术潜在的普遍性,当考虑到《哈利·波特》系列的独特属性时,会出现一个相关的观察结果。这些书充满了独特的表达方式和独特的名字——事后看来,这些特征可能助长了我们的遗忘策略。在许多LLM的训练数据中,哈利波特主题的明显存在进一步加剧了挑战。鉴于这种广泛的表现,即使是提示中的最轻微提示也可能引发一连串相关的填充,突显出模型中根深蒂固的记忆深度。
我们方法论的一个细微之处在于依赖GPT-4对哈利波特宇宙的现有知识。为了检测特定的锚定术语并设计通用的对应术语,GPT-4的专业知识被证明是有用的。这就提出了一个问题,如果没有如此丰富的先验知识,我们的技术是否能达到类似的效果。初步实验表明,在缺乏这些知识的情况下,实体提取仍然是有效的,我们推测,对特质表达的不熟悉可以通过简单的n-gram频率分析来解决,但我们为未来的工作留下了更彻底的研究。
将我们的方法扩展到其他类型的内容,特别是非小说或教科书,也带来了一系列挑战。与哈利波特的虚构世界不同,非虚构内容将不会拥有相同密度的独特术语或短语。此外,非虚构文本通常嵌入更高层次的结构,如思想、概念或文化视角。目前还不确定我们的技术能在多大程度上有效地处理和消除这些更抽象的元素。这显然需要对我们的技术进行调整。
总之,虽然我们的技术提供了一个有希望的开端,但它在各种内容类型中的适用性仍有待彻底测试。所提出的方法提供了一个基础,但还需要进一步的研究来完善和扩展LLM中更广泛的遗忘任务的方法。

这篇关于Who‘s Harry Potter? Approximate Unlearning in LLMs的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/309888

相关文章

透彻!驯服大型语言模型(LLMs)的五种方法,及具体方法选择思路

引言 随着时间的发展,大型语言模型不再停留在演示阶段而是逐步面向生产系统的应用,随着人们期望的不断增加,目标也发生了巨大的变化。在短短的几个月的时间里,人们对大模型的认识已经从对其zero-shot能力感到惊讶,转变为考虑改进模型质量、提高模型可用性。 「大语言模型(LLMs)其实就是利用高容量的模型架构(例如Transformer)对海量的、多种多样的数据分布进行建模得到,它包含了大量的先验

[论文笔记]QLoRA: Efficient Finetuning of Quantized LLMs

引言 今天带来LoRA的量化版论文笔记——QLoRA: Efficient Finetuning of Quantized LLMs 为了简单,下文中以翻译的口吻记录,比如替换"作者"为"我们"。 我们提出了QLoRA,一种高效的微调方法,它在减少内存使用的同时,能够在单个48GB GPU上对65B参数的模型进行微调,同时保持16位微调任务的完整性能。QLoRA通过一个冻结的4位量化预

【HDU】3986 Harry Potter and the Final Battle 最短路

传送门:【HDU】3986 Harry Potter and the Final Battle 题目分析:先求一次最短路,同时记录在最短路上的顶点以及以该顶点为弧尾的最短路上的边。然后枚举删除每一条边,分别求一次最短路,其中最大的即答案。当然不可达输出-1。 测试发现堆优化的dij不如slf优化的spfa。。可能图太稀疏了吧。。。反正我觉得我写的挺搓的了。。。 代码如下:

风趣图解LLMs RAG的15种设计模式-第二课

全部用的是Midjourney连续性一致性绘图画成

开源模型应用落地-LlamaIndex学习之旅-LLMs-集成vLLM(二)

一、前言     在这个充满创新与挑战的时代,人工智能正以前所未有的速度改变着我们的学习和生活方式。LlamaIndex 作为一款先进的人工智能技术,它以其卓越的性能和创新的功能,为学习者带来前所未有的机遇。我们将带你逐步探索 LlamaIndex 的强大功能,从快速整合海量知识资源,到智能生成个性化的学习路径;从精准分析复杂的文本内容,到与用户进行深度互动交流。通过丰富的实例展示和详细的操作指

如何使用未标注数据对LLMs进行微调

Abstract 本研究专注于利用和选择大量的未标注开放数据来对预训练语言模型进行预微调。目标是尽量减少后续微调中对成本高昂的特定领域数据的需求,同时达到期望的性能水平。尽管许多数据选择算法是为小规模应用设计的,这使得它们不适用于作者的场景,但一些新兴方法确实适用于语言数据规模。然而,它们通常优先选择与目标分布对齐的数据。当从零开始训练模型时,这种策略可能很有效,但当模型已经在一个不同的分布

大模型LLMs很火,作为新生小白应该怎么入门 LLMs?是否有推荐的入门教程推荐?

很明显,这是一个偏学术方向的指南要求,所以我会把整个LLM应用的从数学到编程语言,从框架到常用模型的学习方法,给你捋一个通透。也可能是不爱学习的劝退文。 通常要达到熟练的进行LLM相关的学术研究与开发,至少你要准备 数学、编码、常用模型的知识,还有LLM相关的知识的准备。 TL;DR 要求总结: 数学知识:线性代数、高数、概率开发语言:Python, C/C++开发框架:Numpy/Pyt

Large Language Models(LLMs) Concepts

1、Introduction to Large Language Models(LLM) 1.1、Definition of LLMs Large: Training data and resources.Language: Human-like text.Models: Learn complex patterns using text data. The LLM is conside

AI推介-大语言模型LLMs论文速览(arXiv方向):2024.08.10-2024.08.15

文章目录~ 1.W-RAG: Weakly Supervised Dense Retrieval in RAG for Open-domain Question Answering2.Dynamic Adaptive Optimization for Effective Sentiment Analysis Fine-Tuning on Large Language Models3.Fact

构建生产环境中的大型语言模型(LLMs)——LLM架构与现状

理解Transformer Transformer架构在各种应用中展示了其多才多艺的特性。最初的网络被提出作为一个用于翻译任务的编码器-解码器架构。Transformer架构的下一次演进是引入了仅编码器模型,如BERT,随后是仅解码器网络,即GPT模型的首次迭代。 这些区别不仅体现在网络设计上,还包括学习目标。这些不同的学习目标在塑造模型的行为和结果方面起着至关重要的作用。理解这些差异对于选择