PEFT概述:最先进的参数高效微调技术

2023-11-11 07:52

本文主要是介绍PEFT概述:最先进的参数高效微调技术,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

了解参数高效微调技术,如LoRA,如何利用有限的计算资源对大型语言模型进行高效适应。

PEFT概述:最先进的参数高效微调技术

  • 什么是PEFT
  • 什么是LoRA
  • 用例
  • 使用PEFT训练LLMs
    • 入门
    • PEFT配置
    • 4位量化
    • 封装基础Transformer模型
    • 保存模型
    • 加载模型
    • 推理
  • 结论

什么是PEFT

随着大型语言模型(LLMs)如GPT-3.5、LLaMA2和PaLM2在规模上不断扩大,对它们在下游自然语言处理(NLP)任务上进行微调变得越来越耗费计算和内存资源。

参数高效微调(PEFT)方法通过仅微调少量额外的参数,同时冻结大多数预训练模型,解决了这些问题。这可以防止在大型模型中发生灾难性遗忘,从而使有限的计算资源能够进行微调。

PEFT已经在图像分类和文本生成等任务上证明了其有效性,同时仅使用了模型参数的一小部分。微调后的小权重可以简单地添加到原始的预训练权重中。

你甚至可以在Google Colab的免费版本上使用4位量化和PEFT技术QLoRA微调LLMs。

PEFT的模块化性质还允许通过添加小的任务特定权重,将相同的预训练模型适应于多个任务,避免了存储完整副本的需要。

PEFT库集成了像LoRA、Prefix Tuning、AdaLoRA、Prompt Tuning、MultiTask Prompt Tuning和LoHa等流行的PEFT技术,并与Transformers和Accelerate一起使用。这提供了轻松访问高效且可扩展微调的尖端大型语言模型。

什么是LoRA

在本教程中,我们将使用最流行的参数高效微调(PEFT)技术之一,称为LoRA(大型语言模型的低秩适应)。LoRA是一种显著加速大型语言模型微调过程并消耗更少内存的技术。

LoRA背后的关键思想是使用低秩分解实现两个较小矩阵表示权重更新。通过训练这些矩阵,它们可以适应新的数据,同时最小化总体修改次数。原始权重矩阵保持不变,不进行进一步调整。最终结果通过将原始权重和适应后的权重组合而得到。

使用LoRA有几个优势。首先,它通过减少可训练参数的数量极大地提高了微调的效率。此外,LoRA与各种其他参数高效方法兼容,并且可以与它们结合使用。使用LoRA微调的模型表现出与完全微调的模型相媲美的性能。重要的是,LoRA不引入任何额外的推理延迟,因为适配器权重可以与基本模型无缝合并。

用例

PEFT有许多用例,从语言模型到图像分类器。您可以在官方文档中查看所有用例的教程。

  1. StackLLaMA:使用RLHF训练LLaMA的实践指南
  2. Finetune-opt-bnb-peft
  3. 使用LoRA和Hugging Face进行Efficient flan-t5-xxl训练
  4. 使用LoRA进行DreamBooth微调
  5. 使用LoRA进行图像分类

使用PEFT训练LLMs

在本节中,我们将学习如何使用’bitsandbytes’和‘peft’库加载和包装我们的变压器模型。我们还将涵盖加载保存的微调QLoRA模型并进行推断的过程。

入门

首先,我们将安装所有必要的库。

%pip install accelerate peft transformers datasets bitsandbytes

接下来,将导入必要的模块,并使用基本模型(Llama-2-7b-chat-hf)进行fine-tune,使用mlabonne/guanaco-llama2-1k数据集进行微调。

from transformers import AutoModelForCausalLM, AutoTokenizer, BitsAndBytesConfig
from peft import get_peft_model, LoraConfig
import torchmodel_name = "NousResearch/Llama-2-7b-chat-hf"
dataset_name = "mlabonne/guanaco-llama2-1k"

PEFT配置

创建用于包装或训练模型的PEFT配置。

peft_config = LoraConfig(lora_alpha=16,lora_dropout=0.1,r=64,bias="none",task_type="CAUSAL_LM",
)

4位量化

开发者或Colab GPU在加载LLMs面临重大挑战。然而,通过使用BitsAndBytes实现具有NF4类型配置的4位量化技术,我们可以克服这个问题。通过采用这种方法,我们可以有效地加载我们的模型,从而节省内存并防止机器崩溃。

compute_dtype = getattr(torch, "float16")bnb_config = BitsAndBytesConfig(load_in_4bit=True,bnb_4bit_quant_type="nf4",bnb_4bit_compute_dtype=compute_dtype,bnb_4bit_use_double_quant=False,
)

封装基础Transformer模型

为了使模型参数高效,将使用get_peft_model封装基础的Transformer模型。

model = AutoModelForCausalLM.from_pretrained(model_name,quantization_config=bnb_config,device_map="auto"
)
model = get_peft_model(model, peft_config)
model.print_trainable_parameters()

可训练参数比基础模型少,使能够使用更少的内存并更快地微调模型。

trainable params: 33,554,432 || all params: 6,771,970,048 || trainable%: 0.49548996469513035

接下来是训练模型的步骤。可以按照4位量化和QLoRA指南进行操作。

保存模型

训练后,可以将模型适配器保存在本地。

model.save_pretrained("llama-2-7b-chat-guanaco")

或者,将其推送到Hugging Face Hub。

!huggingface-cli login --token $secret_value_0
model.push_to_hub("llama-2-7b-chat-guanaco")

正如所见,模型适配器仅为134MB,而基础的LLaMA 2 7B模型约为13GB。
在这里插入图片描述

加载模型

要运行模型推断,首先必须使用4位精度量化加载模型,然后将训练过的PEFT权重与基础(LlaMA 2)模型合并。

from transformers import AutoModelForCausalLM
from peft import PeftModel, PeftConfig
import torchpeft_model = "kingabzpro/llama-2-7b-chat-guanaco"
base_model = AutoModelForCausalLM.from_pretrained(model_name,quantization_config=bnb_config,device_map="auto"
)model = PeftModel.from_pretrained(base_model, peft_model)
tokenizer = AutoTokenizer.from_pretrained(model_name)model = model.to("cuda")
model.eval()

推理

为了运行推理,必须按照guanaco-llama2-1k数据集的风格编写提示(“[INST] {prompt} [/INST]”)。否则,将得到不同语言的响应。

prompt = "What is Hacktoberfest?"
inputs = tokenizer(f"<s>[INST] {prompt} [/INST]", return_tensors="pt")
with torch.no_grad():outputs = model.generate(input_ids=inputs["input_ids"].to("cuda"), max_new_tokens=100)print(tokenizer.batch_decode(outputs.detach().cpu().numpy(), skip_special_tokens=True)[0])

output

[INST] What is Hacktoberfest? [/INST] Hacktoberfest is an open-source software development event that takes place in October. It was created by the non-profit organization Open Source Software Institute (OSSI) in 2017. The event aims to encourage people to contribute to open-source projects, with the goal of increasing the number of contributors and improving the quality of open-source software.During Hacktoberfest, participants are encouraged to contribute to open-source

结论

像LoRA这样的参数高效微调技术使得仅使用部分参数就能高效微调大型语言模型成为可能。这避免了昂贵的完全微调,并使得在有限的计算资源下进行训练成为可能。PEFT的模块化性质允许将模型调整为多个任务。像4位精度这样的量化方法可以进一步减少内存使用。总体而言,PEFT将大型语言模型的能力开放给了更广泛的用户群体。

这篇关于PEFT概述:最先进的参数高效微调技术的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/388611

相关文章

水位雨量在线监测系统概述及应用介绍

在当今社会,随着科技的飞速发展,各种智能监测系统已成为保障公共安全、促进资源管理和环境保护的重要工具。其中,水位雨量在线监测系统作为自然灾害预警、水资源管理及水利工程运行的关键技术,其重要性不言而喻。 一、水位雨量在线监测系统的基本原理 水位雨量在线监测系统主要由数据采集单元、数据传输网络、数据处理中心及用户终端四大部分构成,形成了一个完整的闭环系统。 数据采集单元:这是系统的“眼睛”,

高效+灵活,万博智云全球发布AWS无代理跨云容灾方案!

摘要 近日,万博智云推出了基于AWS的无代理跨云容灾解决方案,并与拉丁美洲,中东,亚洲的合作伙伴面向全球开展了联合发布。这一方案以AWS应用环境为基础,将HyperBDR平台的高效、灵活和成本效益优势与无代理功能相结合,为全球企业带来实现了更便捷、经济的数据保护。 一、全球联合发布 9月2日,万博智云CEO Michael Wong在线上平台发布AWS无代理跨云容灾解决方案的阐述视频,介绍了

Andrej Karpathy最新采访:认知核心模型10亿参数就够了,AI会打破教育不公的僵局

夕小瑶科技说 原创  作者 | 海野 AI圈子的红人,AI大神Andrej Karpathy,曾是OpenAI联合创始人之一,特斯拉AI总监。上一次的动态是官宣创办一家名为 Eureka Labs 的人工智能+教育公司 ,宣布将长期致力于AI原生教育。 近日,Andrej Karpathy接受了No Priors(投资博客)的采访,与硅谷知名投资人 Sara Guo 和 Elad G

嵌入式QT开发:构建高效智能的嵌入式系统

摘要: 本文深入探讨了嵌入式 QT 相关的各个方面。从 QT 框架的基础架构和核心概念出发,详细阐述了其在嵌入式环境中的优势与特点。文中分析了嵌入式 QT 的开发环境搭建过程,包括交叉编译工具链的配置等关键步骤。进一步探讨了嵌入式 QT 的界面设计与开发,涵盖了从基本控件的使用到复杂界面布局的构建。同时也深入研究了信号与槽机制在嵌入式系统中的应用,以及嵌入式 QT 与硬件设备的交互,包括输入输出设

C++11第三弹:lambda表达式 | 新的类功能 | 模板的可变参数

🌈个人主页: 南桥几晴秋 🌈C++专栏: 南桥谈C++ 🌈C语言专栏: C语言学习系列 🌈Linux学习专栏: 南桥谈Linux 🌈数据结构学习专栏: 数据结构杂谈 🌈数据库学习专栏: 南桥谈MySQL 🌈Qt学习专栏: 南桥谈Qt 🌈菜鸡代码练习: 练习随想记录 🌈git学习: 南桥谈Git 🌈🌈🌈🌈🌈🌈🌈🌈🌈🌈🌈🌈🌈�

【专题】2024飞行汽车技术全景报告合集PDF分享(附原数据表)

原文链接: https://tecdat.cn/?p=37628 6月16日,小鹏汇天旅航者X2在北京大兴国际机场临空经济区完成首飞,这也是小鹏汇天的产品在京津冀地区进行的首次飞行。小鹏汇天方面还表示,公司准备量产,并计划今年四季度开启预售小鹏汇天分体式飞行汽车,探索分体式飞行汽车城际通勤。阅读原文,获取专题报告合集全文,解锁文末271份飞行汽车相关行业研究报告。 据悉,业内人士对飞行汽车行业

如何在页面调用utility bar并传递参数至lwc组件

1.在app的utility item中添加lwc组件: 2.调用utility bar api的方式有两种: 方法一,通过lwc调用: import {LightningElement,api ,wire } from 'lwc';import { publish, MessageContext } from 'lightning/messageService';import Ca

高效录音转文字:2024年四大工具精选!

在快节奏的工作生活中,能够快速将录音转换成文字是一项非常实用的能力。特别是在需要记录会议纪要、讲座内容或者是采访素材的时候,一款优秀的在线录音转文字工具能派上大用场。以下推荐几个好用的录音转文字工具! 365在线转文字 直达链接:https://www.pdf365.cn/ 365在线转文字是一款提供在线录音转文字服务的工具,它以其高效、便捷的特点受到用户的青睐。用户无需下载安装任何软件,只

4B参数秒杀GPT-3.5:MiniCPM 3.0惊艳登场!

​ 面壁智能 在 AI 的世界里,总有那么几个时刻让人惊叹不已。面壁智能推出的 MiniCPM 3.0,这个仅有4B参数的"小钢炮",正在以惊人的实力挑战着 GPT-3.5 这个曾经的AI巨人。 MiniCPM 3.0 MiniCPM 3.0 MiniCPM 3.0 目前的主要功能有: 长上下文功能:原生支持 32k 上下文长度,性能完美。我们引入了

金融业开源技术 术语

金融业开源技术  术语 1  范围 本文件界定了金融业开源技术的常用术语。 本文件适用于金融业中涉及开源技术的相关标准及规范性文件制定和信息沟通等活动。