大语言模型的微调方法_大语言模型六种微调方法

2024-06-20 13:52

本文主要是介绍大语言模型的微调方法_大语言模型六种微调方法,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

01

引言

自2018年BERT发布以来,“预训练+微调”成为语言模型的通用范式。以ChatGPT为代表的大语言模型针对不同任务构造Prompt来训练,本质上仍然是预训练与微调的使用范式。千亿规模的参数微调需要大量算力,即使提供了预训练的基座模型,一般的研究机构也很难对其进行全量微调(即对所有参数进行微调)。为了应对这个问题,相关学者提出了PEFT(Parameter-Efficient Fine-Tuning,高效参数微调)技术,本文将总结并介绍几种常见的PEFT技术。

02

Adapter Tuning

Adapter Tuning[1]是一种经典的PEFT技术,在2019年由谷歌的研究人员提出,也由此拉开了PEFT研究的序幕。

研究人员发现在面对下游任务微调BERT时,如果进行全量微调,效率较低,而如果固定预训练模型的大部份参数,只对为下游任务添加的几层参数进行微调时,效果较差。

因此,他们设计了Adapter结构(下图右),并将其集成在Transformer中(下图左)。在微调阶段,只对Adapter中的参数进行调整,固定所有其他参数。

Adapter模块包含一个down-project层(即将高维特征映射为低维特征)、非线性层和up-project层(即将低维特征映射回高维特征)。同时包含skip-connection结构,与残差类似。

Adapter的效果如下图所示,其能够在只增加并训练BERT-large的3.6%的参数的情况下,在GLUE基准达到80.0的总分(BERT-large全量微调的得分为80.4)

03

Prefix Tuning与Prompt Tuning

2021年,斯坦福大学的研究人员提出了Prefix Tuning[2]。该方法的主要做法是在输入 token 之前构造一段与任务相关的前缀token(即Prefix),在训练时只更新Prefix部份参数,固定模型中其他参数,如下图所示。

直接更新Prefix会导致训练过程不稳定,因此研究人员在Prefix前加上一个MLP结构,将一个含有较少参数的矩阵P’转化为Prefix,训练时更新P’与MLP的参数,在训练完成后删除这些参数,只保留并存储不同任务的Prefix,而模型其他参数由不同任务共享。

下图是将表格转化为文本的任务中,在不同训练数据量上Prefix tuning与全量微调的对比。可以看到在使用20%-80%数据量时,Prefix tuning的效果要好于全量微调。

这种方法与现在常用的Prompt类似,但是是由模型自动对Prompt进行隐式编码,而不是人为构造显式的Prompt。

2021年,谷歌的研究团队也提出了Prompt Tuning方法[3]。与现在我们所熟知的Prompt不同,这个方法可以看作是另一种Prefix Tuning,在输入层加入prompt token并与原输入拼接,并没有额外加入MLP,如下图所示。

作者对T5模型进行了实验,并且发现随着预训练模型参数量增大,Prompt tuning的效果会越来越接近全量微调,如下图所示。

04

LoRA

Adapter Tuning与Prefix Tuning各有一定优势,但也有一定的缺点。Adapter Tuning中添加的adapter模块会带来额外的计算量,而Prefix Tuning的前缀长度会影响到下游任务可输入的序列长度,且有一定优化问题,其性能随参数规模变化情况并不一定是单调递增的。

LoRA[4]被发表在ICLR 2022上,它的核心思想是通过低秩分解来表示模型的权重更新,并且只更新分解矩阵部分的参数。

为了便于理解,首先附上原论文的LoRA示意图,如下图所示。

图中,左侧蓝色矩形表示预训练权重矩阵,右侧表示其参数更新过程的低秩分解,先通过矩阵A将特征映射到低维(r一般为2/4/8/16),再通过矩阵B映射回原维度。训练时固定预训练矩阵,只更新A与B,再将预训练矩阵与A、B合并(BA的维度与W相同)。

LoRA假设模型的权重更新在微调过程中具有较低的“内在秩(intrinsic rank)”,对预训练的权重矩阵,用低秩分解来表示其更新:

将A初始化为均值为0的正态分布,B初始化为0,在训练过程中只训练A、B,固定预训练权重。

这种方法的优势在于:(1)只需更新A、B矩阵并与预训练权重合并,没有引入额外的结构导致推理延时;(2)大大降低显存消耗;(3)可灵活定制,即可对模型的任意一部份权重矩阵应用LoRA。

下图为WikiSQL数据集上GPT-3 175B的验证准确率与可训练参数量的关系,可以看到LoRA在相同可训练参数规模下表现比其他PEFT方法更好。

另外,论文作者也在18M的参数预算(如果使用FP16精度,大约35MB空间)下,将LoRA应用在GPT-3 175B中Transformer的不同注意力权重矩阵上并对比实验,如下表所示。

可以发现,将所有参数放入Wq或Wk会导致性能显著降低,同时调整Wq、Wv会产生更好的结果,这表明即秩较低,也能在更多矩阵中捕获更多信息。因此,在相同显存约束的情况下,采用更多权重矩阵、更小的维度结果可能会更好。

05

小结

本文介绍了Adapter Tuning、Prefix Tuning、Prompt Tuning、LoRA几种主要的PEFT方法,这些方法可以总结为以下几种思路:

1、在模型中增加少量参数,与原模型串行;

2、在输入层增加少量参数,并行输入模型;

3、在模型中的特定矩阵利用低秩分解增加少量参数矩阵,与原矩阵并行。

在大模型时代,对于一般的研究机构而言,要想在少量GPU上部署大模型,对PEFT的研究必不可少。目前HuggingFace已开源其PEFT库(https://huggingface.co/docs/peft/index),Prefix Tuning、LoRA等PEFT算法都可以通过它来调用,这将一定程度降低大模型的训练门槛,增加我们对大模型的研究效率。

读者福利:如果大家对大模型感兴趣,这套大模型学习资料一定对你有用

对于0基础小白入门:

如果你是零基础小白,想快速入门大模型是可以考虑的。

一方面是学习时间相对较短,学习内容更全面更集中。
二方面是可以根据这些资料规划好学习计划和方向。

包括:大模型学习线路汇总、学习阶段,大模型实战案例,大模型学习视频,人工智能、机器学习、大模型书籍PDF。带你从零基础系统性的学好大模型!

😝有需要的小伙伴,可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓

👉AI大模型学习路线汇总👈

大模型学习路线图,整体分为7个大的阶段:(全套教程文末领取哈)

第一阶段: 从大模型系统设计入手,讲解大模型的主要方法;

第二阶段: 在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用;

第三阶段: 大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统;

第四阶段: 大模型知识库应用开发以LangChain框架为例,构建物流行业咨询智能问答系统;

第五阶段: 大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型;

第六阶段: 以SD多模态大模型为主,搭建了文生图小程序案例;

第七阶段: 以大模型平台应用与开发为主,通过星火大模型,文心大模型等成熟大模型构建大模型行业应用。

👉大模型实战案例👈

光学理论是没用的,要学会跟着一起做,要动手实操,才能将自己的所学运用到实际当中去,这时候可以搞点实战案例来学习。

在这里插入图片描述

👉大模型视频和PDF合集👈

观看零基础学习书籍和视频,看书籍和视频学习是最快捷也是最有效果的方式,跟着视频中老师的思路,从基础到深入,还是很容易入门的。
在这里插入图片描述
在这里插入图片描述

👉学会后的收获:👈

• 基于大模型全栈工程实现(前端、后端、产品经理、设计、数据分析等),通过这门课可获得不同能力;

• 能够利用大模型解决相关实际项目需求: 大数据时代,越来越多的企业和机构需要处理海量数据,利用大模型技术可以更好地处理这些数据,提高数据分析和决策的准确性。因此,掌握大模型应用开发技能,可以让程序员更好地应对实际项目需求;

• 基于大模型和企业数据AI应用开发,实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能, 学会Fine-tuning垂直训练大模型(数据准备、数据蒸馏、大模型部署)一站式掌握;

• 能够完成时下热门大模型垂直领域模型训练能力,提高程序员的编码能力: 大模型应用开发需要掌握机器学习算法、深度学习框架等技术,这些技术的掌握可以提高程序员的编码能力和分析能力,让程序员更加熟练地编写高质量的代码。

👉获取方式:

😝有需要的小伙伴,可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓

这篇关于大语言模型的微调方法_大语言模型六种微调方法的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1078316

相关文章

Python实现图片分割的多种方法总结

《Python实现图片分割的多种方法总结》图片分割是图像处理中的一个重要任务,它的目标是将图像划分为多个区域或者对象,本文为大家整理了一些常用的分割方法,大家可以根据需求自行选择... 目录1. 基于传统图像处理的分割方法(1) 使用固定阈值分割图片(2) 自适应阈值分割(3) 使用图像边缘检测分割(4)

Java中Switch Case多个条件处理方法举例

《Java中SwitchCase多个条件处理方法举例》Java中switch语句用于根据变量值执行不同代码块,适用于多个条件的处理,:本文主要介绍Java中SwitchCase多个条件处理的相... 目录前言基本语法处理多个条件示例1:合并相同代码的多个case示例2:通过字符串合并多个case进阶用法使用

Python中__init__方法使用的深度解析

《Python中__init__方法使用的深度解析》在Python的面向对象编程(OOP)体系中,__init__方法如同建造房屋时的奠基仪式——它定义了对象诞生时的初始状态,下面我们就来深入了解下_... 目录一、__init__的基因图谱二、初始化过程的魔法时刻继承链中的初始化顺序self参数的奥秘默认

html5的响应式布局的方法示例详解

《html5的响应式布局的方法示例详解》:本文主要介绍了HTML5中使用媒体查询和Flexbox进行响应式布局的方法,简要介绍了CSSGrid布局的基础知识和如何实现自动换行的网格布局,详细内容请阅读本文,希望能对你有所帮助... 一 使用媒体查询响应式布局        使用的参数@media这是常用的

Spring 基于XML配置 bean管理 Bean-IOC的方法

《Spring基于XML配置bean管理Bean-IOC的方法》:本文主要介绍Spring基于XML配置bean管理Bean-IOC的方法,本文给大家介绍的非常详细,对大家的学习或工作具有一... 目录一. spring学习的核心内容二. 基于 XML 配置 bean1. 通过类型来获取 bean2. 通过

基于Python实现读取嵌套压缩包下文件的方法

《基于Python实现读取嵌套压缩包下文件的方法》工作中遇到的问题,需要用Python实现嵌套压缩包下文件读取,本文给大家介绍了详细的解决方法,并有相关的代码示例供大家参考,需要的朋友可以参考下... 目录思路完整代码代码优化思路打开外层zip压缩包并遍历文件:使用with zipfile.ZipFil

Python处理函数调用超时的四种方法

《Python处理函数调用超时的四种方法》在实际开发过程中,我们可能会遇到一些场景,需要对函数的执行时间进行限制,例如,当一个函数执行时间过长时,可能会导致程序卡顿、资源占用过高,因此,在某些情况下,... 目录前言func-timeout1. 安装 func-timeout2. 基本用法自定义进程subp

Python列表去重的4种核心方法与实战指南详解

《Python列表去重的4种核心方法与实战指南详解》在Python开发中,处理列表数据时经常需要去除重复元素,本文将详细介绍4种最实用的列表去重方法,有需要的小伙伴可以根据自己的需要进行选择... 目录方法1:集合(set)去重法(最快速)方法2:顺序遍历法(保持顺序)方法3:副本删除法(原地修改)方法4:

Python中判断对象是否为空的方法

《Python中判断对象是否为空的方法》在Python开发中,判断对象是否为“空”是高频操作,但看似简单的需求却暗藏玄机,从None到空容器,从零值到自定义对象的“假值”状态,不同场景下的“空”需要精... 目录一、python中的“空”值体系二、精准判定方法对比三、常见误区解析四、进阶处理技巧五、性能优化

C++中初始化二维数组的几种常见方法

《C++中初始化二维数组的几种常见方法》本文详细介绍了在C++中初始化二维数组的不同方式,包括静态初始化、循环、全部为零、部分初始化、std::array和std::vector,以及std::vec... 目录1. 静态初始化2. 使用循环初始化3. 全部初始化为零4. 部分初始化5. 使用 std::a