Unlearn What You Want to Forget: Efficient Unlearning for LLMs

2023-11-07 12:45

本文主要是介绍Unlearn What You Want to Forget: Efficient Unlearning for LLMs,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

本文是LLM系列文章,针对《Unlearn What You Want to Forget: Efficient Unlearning for LLMs》的翻译。

遗忘你想忘记的东西:LLM的高效遗忘

  • 摘要
  • 1 引言
  • 2 相关工作
  • 3 LLM的高效遗忘
  • 4 实验
  • 5 结论
  • 6 局限性

摘要

大型语言模型(LLM)在对各种文本数据进行预训练和记忆方面取得了重大进展,然而,这一过程可能会受到隐私问题和违反数据保护法规的影响。因此,从这样的模型中容易地删除与个人用户相关的数据,同时在删除后不恶化其预测质量的能力变得越来越重要。为了解决这些问题,在这项工作中,我们提出了一个有效的遗忘框架,通过在Transformer中引入以选择性师生目标学习的轻量级遗忘层,该框架可以有效地更新LLM,而不必在数据删除后对整个模型进行再训练。此外,我们引入了一种融合机制来有效地组合不同的遗忘层,学习遗忘不同的数据集来处理一系列遗忘操作。分类和生成任务的实验表明,与最先进的基线相比,我们提出的方法是有效的。

1 引言

2 相关工作

3 LLM的高效遗忘

4 实验

5 结论

在这项工作中,我们提出了EUL,这是一种有效的LLM遗忘方法,它可以通过选择性教师-学生目标学习遗忘层来有效地遗忘用户请求的数据。我们进一步引入了一种融合机制,可以将不同的遗忘层合并为一个统一的层,以动态地遗忘数据序列。在不同设置(不同的数据集、不同的模型大小、不同的遗忘集大小)上的实验证明了与最先进的基线相比,我们提出的EUL方法的有效性。

6 局限性

在这项工作中,我们主要在具有微调任务的T5 base/3b模型上进行实验。我们鼓励未来的工作探索如何更新更大尺寸的不同骨干模型,如LLAMA模型,甚至是像ChatGPT这样的近源模型,以忘记所需的数据,如预训练语料库中的隐私相关数据、有毒数据或错误信息。此外,我们主要遵循之前的工作,通过测试集、保留集和遗忘集的表现来衡量遗忘,以及MLM损失。未来的工作可能会探索如何更全面地评估遗忘方法,例如模型是否能回忆起遗忘的内容,或者方法是否能识别遗忘的数据。此外,我们在模拟环境中进行所有实验。未来的工作可能会将我们的方法应用于现实世界的应用程序,以处理实际用例,或者引入新的基准来评估遗忘方法。

这篇关于Unlearn What You Want to Forget: Efficient Unlearning for LLMs的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/363695

相关文章

透彻!驯服大型语言模型(LLMs)的五种方法,及具体方法选择思路

引言 随着时间的发展,大型语言模型不再停留在演示阶段而是逐步面向生产系统的应用,随着人们期望的不断增加,目标也发生了巨大的变化。在短短的几个月的时间里,人们对大模型的认识已经从对其zero-shot能力感到惊讶,转变为考虑改进模型质量、提高模型可用性。 「大语言模型(LLMs)其实就是利用高容量的模型架构(例如Transformer)对海量的、多种多样的数据分布进行建模得到,它包含了大量的先验

[论文笔记]QLoRA: Efficient Finetuning of Quantized LLMs

引言 今天带来LoRA的量化版论文笔记——QLoRA: Efficient Finetuning of Quantized LLMs 为了简单,下文中以翻译的口吻记录,比如替换"作者"为"我们"。 我们提出了QLoRA,一种高效的微调方法,它在减少内存使用的同时,能够在单个48GB GPU上对65B参数的模型进行微调,同时保持16位微调任务的完整性能。QLoRA通过一个冻结的4位量化预

风趣图解LLMs RAG的15种设计模式-第二课

全部用的是Midjourney连续性一致性绘图画成

《Efficient Batch Processing for Multiple Keyword Queries on Graph Data》——论文笔记

ABSTRACT 目前的关键词查询只关注单个查询。对于查询系统来说,短时间内会接受大批量的关键词查询,往往不同查询包含相同的关键词。 因此本文研究图数据多关键词查询的批处理。为多查询和单个查询找到最优查询计划都是非常复杂的。我们首先提出两个启发式的方法使关键词的重叠最大并优先处理规模小的关键词。然后设计了一个同时考虑了数据统计信息和搜索语义的基于cardinality的成本估计模型。 1.

开源模型应用落地-LlamaIndex学习之旅-LLMs-集成vLLM(二)

一、前言     在这个充满创新与挑战的时代,人工智能正以前所未有的速度改变着我们的学习和生活方式。LlamaIndex 作为一款先进的人工智能技术,它以其卓越的性能和创新的功能,为学习者带来前所未有的机遇。我们将带你逐步探索 LlamaIndex 的强大功能,从快速整合海量知识资源,到智能生成个性化的学习路径;从精准分析复杂的文本内容,到与用户进行深度互动交流。通过丰富的实例展示和详细的操作指

《The Power of Scale for Parameter-Efficient Prompt Tuning》论文学习

系列文章目录 文章目录 系列文章目录一、这篇文章主要讲了什么?二、摘要中T5是什么1、2、3、 三、1、2、3、 四、1、2、3、 五、1、2、3、 六、1、2、3、 七、1、2、3、 八、1、2、3、 一、这篇文章主要讲了什么? The article “The Power of Scale for Parameter-Efficient Prompt Tuning

如何使用未标注数据对LLMs进行微调

Abstract 本研究专注于利用和选择大量的未标注开放数据来对预训练语言模型进行预微调。目标是尽量减少后续微调中对成本高昂的特定领域数据的需求,同时达到期望的性能水平。尽管许多数据选择算法是为小规模应用设计的,这使得它们不适用于作者的场景,但一些新兴方法确实适用于语言数据规模。然而,它们通常优先选择与目标分布对齐的数据。当从零开始训练模型时,这种策略可能很有效,但当模型已经在一个不同的分布

大模型LLMs很火,作为新生小白应该怎么入门 LLMs?是否有推荐的入门教程推荐?

很明显,这是一个偏学术方向的指南要求,所以我会把整个LLM应用的从数学到编程语言,从框架到常用模型的学习方法,给你捋一个通透。也可能是不爱学习的劝退文。 通常要达到熟练的进行LLM相关的学术研究与开发,至少你要准备 数学、编码、常用模型的知识,还有LLM相关的知识的准备。 TL;DR 要求总结: 数学知识:线性代数、高数、概率开发语言:Python, C/C++开发框架:Numpy/Pyt

Large Language Models(LLMs) Concepts

1、Introduction to Large Language Models(LLM) 1.1、Definition of LLMs Large: Training data and resources.Language: Human-like text.Models: Learn complex patterns using text data. The LLM is conside

AI推介-大语言模型LLMs论文速览(arXiv方向):2024.08.10-2024.08.15

文章目录~ 1.W-RAG: Weakly Supervised Dense Retrieval in RAG for Open-domain Question Answering2.Dynamic Adaptive Optimization for Effective Sentiment Analysis Fine-Tuning on Large Language Models3.Fact