大语言模型的微调方法_大语言模型六种微调方法

2024-06-20 13:52

本文主要是介绍大语言模型的微调方法_大语言模型六种微调方法,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

01

引言

自2018年BERT发布以来,“预训练+微调”成为语言模型的通用范式。以ChatGPT为代表的大语言模型针对不同任务构造Prompt来训练,本质上仍然是预训练与微调的使用范式。千亿规模的参数微调需要大量算力,即使提供了预训练的基座模型,一般的研究机构也很难对其进行全量微调(即对所有参数进行微调)。为了应对这个问题,相关学者提出了PEFT(Parameter-Efficient Fine-Tuning,高效参数微调)技术,本文将总结并介绍几种常见的PEFT技术。

02

Adapter Tuning

Adapter Tuning[1]是一种经典的PEFT技术,在2019年由谷歌的研究人员提出,也由此拉开了PEFT研究的序幕。

研究人员发现在面对下游任务微调BERT时,如果进行全量微调,效率较低,而如果固定预训练模型的大部份参数,只对为下游任务添加的几层参数进行微调时,效果较差。

因此,他们设计了Adapter结构(下图右),并将其集成在Transformer中(下图左)。在微调阶段,只对Adapter中的参数进行调整,固定所有其他参数。

Adapter模块包含一个down-project层(即将高维特征映射为低维特征)、非线性层和up-project层(即将低维特征映射回高维特征)。同时包含skip-connection结构,与残差类似。

Adapter的效果如下图所示,其能够在只增加并训练BERT-large的3.6%的参数的情况下,在GLUE基准达到80.0的总分(BERT-large全量微调的得分为80.4)

03

Prefix Tuning与Prompt Tuning

2021年,斯坦福大学的研究人员提出了Prefix Tuning[2]。该方法的主要做法是在输入 token 之前构造一段与任务相关的前缀token(即Prefix),在训练时只更新Prefix部份参数,固定模型中其他参数,如下图所示。

直接更新Prefix会导致训练过程不稳定,因此研究人员在Prefix前加上一个MLP结构,将一个含有较少参数的矩阵P’转化为Prefix,训练时更新P’与MLP的参数,在训练完成后删除这些参数,只保留并存储不同任务的Prefix,而模型其他参数由不同任务共享。

下图是将表格转化为文本的任务中,在不同训练数据量上Prefix tuning与全量微调的对比。可以看到在使用20%-80%数据量时,Prefix tuning的效果要好于全量微调。

这种方法与现在常用的Prompt类似,但是是由模型自动对Prompt进行隐式编码,而不是人为构造显式的Prompt。

2021年,谷歌的研究团队也提出了Prompt Tuning方法[3]。与现在我们所熟知的Prompt不同,这个方法可以看作是另一种Prefix Tuning,在输入层加入prompt token并与原输入拼接,并没有额外加入MLP,如下图所示。

作者对T5模型进行了实验,并且发现随着预训练模型参数量增大,Prompt tuning的效果会越来越接近全量微调,如下图所示。

04

LoRA

Adapter Tuning与Prefix Tuning各有一定优势,但也有一定的缺点。Adapter Tuning中添加的adapter模块会带来额外的计算量,而Prefix Tuning的前缀长度会影响到下游任务可输入的序列长度,且有一定优化问题,其性能随参数规模变化情况并不一定是单调递增的。

LoRA[4]被发表在ICLR 2022上,它的核心思想是通过低秩分解来表示模型的权重更新,并且只更新分解矩阵部分的参数。

为了便于理解,首先附上原论文的LoRA示意图,如下图所示。

图中,左侧蓝色矩形表示预训练权重矩阵,右侧表示其参数更新过程的低秩分解,先通过矩阵A将特征映射到低维(r一般为2/4/8/16),再通过矩阵B映射回原维度。训练时固定预训练矩阵,只更新A与B,再将预训练矩阵与A、B合并(BA的维度与W相同)。

LoRA假设模型的权重更新在微调过程中具有较低的“内在秩(intrinsic rank)”,对预训练的权重矩阵,用低秩分解来表示其更新:

将A初始化为均值为0的正态分布,B初始化为0,在训练过程中只训练A、B,固定预训练权重。

这种方法的优势在于:(1)只需更新A、B矩阵并与预训练权重合并,没有引入额外的结构导致推理延时;(2)大大降低显存消耗;(3)可灵活定制,即可对模型的任意一部份权重矩阵应用LoRA。

下图为WikiSQL数据集上GPT-3 175B的验证准确率与可训练参数量的关系,可以看到LoRA在相同可训练参数规模下表现比其他PEFT方法更好。

另外,论文作者也在18M的参数预算(如果使用FP16精度,大约35MB空间)下,将LoRA应用在GPT-3 175B中Transformer的不同注意力权重矩阵上并对比实验,如下表所示。

可以发现,将所有参数放入Wq或Wk会导致性能显著降低,同时调整Wq、Wv会产生更好的结果,这表明即秩较低,也能在更多矩阵中捕获更多信息。因此,在相同显存约束的情况下,采用更多权重矩阵、更小的维度结果可能会更好。

05

小结

本文介绍了Adapter Tuning、Prefix Tuning、Prompt Tuning、LoRA几种主要的PEFT方法,这些方法可以总结为以下几种思路:

1、在模型中增加少量参数,与原模型串行;

2、在输入层增加少量参数,并行输入模型;

3、在模型中的特定矩阵利用低秩分解增加少量参数矩阵,与原矩阵并行。

在大模型时代,对于一般的研究机构而言,要想在少量GPU上部署大模型,对PEFT的研究必不可少。目前HuggingFace已开源其PEFT库(https://huggingface.co/docs/peft/index),Prefix Tuning、LoRA等PEFT算法都可以通过它来调用,这将一定程度降低大模型的训练门槛,增加我们对大模型的研究效率。

读者福利:如果大家对大模型感兴趣,这套大模型学习资料一定对你有用

对于0基础小白入门:

如果你是零基础小白,想快速入门大模型是可以考虑的。

一方面是学习时间相对较短,学习内容更全面更集中。
二方面是可以根据这些资料规划好学习计划和方向。

包括:大模型学习线路汇总、学习阶段,大模型实战案例,大模型学习视频,人工智能、机器学习、大模型书籍PDF。带你从零基础系统性的学好大模型!

😝有需要的小伙伴,可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓

👉AI大模型学习路线汇总👈

大模型学习路线图,整体分为7个大的阶段:(全套教程文末领取哈)

第一阶段: 从大模型系统设计入手,讲解大模型的主要方法;

第二阶段: 在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用;

第三阶段: 大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统;

第四阶段: 大模型知识库应用开发以LangChain框架为例,构建物流行业咨询智能问答系统;

第五阶段: 大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型;

第六阶段: 以SD多模态大模型为主,搭建了文生图小程序案例;

第七阶段: 以大模型平台应用与开发为主,通过星火大模型,文心大模型等成熟大模型构建大模型行业应用。

👉大模型实战案例👈

光学理论是没用的,要学会跟着一起做,要动手实操,才能将自己的所学运用到实际当中去,这时候可以搞点实战案例来学习。

在这里插入图片描述

👉大模型视频和PDF合集👈

观看零基础学习书籍和视频,看书籍和视频学习是最快捷也是最有效果的方式,跟着视频中老师的思路,从基础到深入,还是很容易入门的。
在这里插入图片描述
在这里插入图片描述

👉学会后的收获:👈

• 基于大模型全栈工程实现(前端、后端、产品经理、设计、数据分析等),通过这门课可获得不同能力;

• 能够利用大模型解决相关实际项目需求: 大数据时代,越来越多的企业和机构需要处理海量数据,利用大模型技术可以更好地处理这些数据,提高数据分析和决策的准确性。因此,掌握大模型应用开发技能,可以让程序员更好地应对实际项目需求;

• 基于大模型和企业数据AI应用开发,实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能, 学会Fine-tuning垂直训练大模型(数据准备、数据蒸馏、大模型部署)一站式掌握;

• 能够完成时下热门大模型垂直领域模型训练能力,提高程序员的编码能力: 大模型应用开发需要掌握机器学习算法、深度学习框架等技术,这些技术的掌握可以提高程序员的编码能力和分析能力,让程序员更加熟练地编写高质量的代码。

👉获取方式:

😝有需要的小伙伴,可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓

这篇关于大语言模型的微调方法_大语言模型六种微调方法的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1078316

相关文章

大模型研发全揭秘:客服工单数据标注的完整攻略

在人工智能(AI)领域,数据标注是模型训练过程中至关重要的一步。无论你是新手还是有经验的从业者,掌握数据标注的技术细节和常见问题的解决方案都能为你的AI项目增添不少价值。在电信运营商的客服系统中,工单数据是客户问题和解决方案的重要记录。通过对这些工单数据进行有效标注,不仅能够帮助提升客服自动化系统的智能化水平,还能优化客户服务流程,提高客户满意度。本文将详细介绍如何在电信运营商客服工单的背景下进行

Andrej Karpathy最新采访:认知核心模型10亿参数就够了,AI会打破教育不公的僵局

夕小瑶科技说 原创  作者 | 海野 AI圈子的红人,AI大神Andrej Karpathy,曾是OpenAI联合创始人之一,特斯拉AI总监。上一次的动态是官宣创办一家名为 Eureka Labs 的人工智能+教育公司 ,宣布将长期致力于AI原生教育。 近日,Andrej Karpathy接受了No Priors(投资博客)的采访,与硅谷知名投资人 Sara Guo 和 Elad G

【C++】_list常用方法解析及模拟实现

相信自己的力量,只要对自己始终保持信心,尽自己最大努力去完成任何事,就算事情最终结果是失败了,努力了也不留遗憾。💓💓💓 目录   ✨说在前面 🍋知识点一:什么是list? •🌰1.list的定义 •🌰2.list的基本特性 •🌰3.常用接口介绍 🍋知识点二:list常用接口 •🌰1.默认成员函数 🔥构造函数(⭐) 🔥析构函数 •🌰2.list对象

Retrieval-based-Voice-Conversion-WebUI模型构建指南

一、模型介绍 Retrieval-based-Voice-Conversion-WebUI(简称 RVC)模型是一个基于 VITS(Variational Inference with adversarial learning for end-to-end Text-to-Speech)的简单易用的语音转换框架。 具有以下特点 简单易用:RVC 模型通过简单易用的网页界面,使得用户无需深入了

浅谈主机加固,六种有效的主机加固方法

在数字化时代,数据的价值不言而喻,但随之而来的安全威胁也日益严峻。从勒索病毒到内部泄露,企业的数据安全面临着前所未有的挑战。为了应对这些挑战,一种全新的主机加固解决方案应运而生。 MCK主机加固解决方案,采用先进的安全容器中间件技术,构建起一套内核级的纵深立体防护体系。这一体系突破了传统安全防护的局限,即使在管理员权限被恶意利用的情况下,也能确保服务器的安全稳定运行。 普适主机加固措施:

webm怎么转换成mp4?这几种方法超多人在用!

webm怎么转换成mp4?WebM作为一种新兴的视频编码格式,近年来逐渐进入大众视野,其背后承载着诸多优势,但同时也伴随着不容忽视的局限性,首要挑战在于其兼容性边界,尽管WebM已广泛适应于众多网站与软件平台,但在特定应用环境或老旧设备上,其兼容难题依旧凸显,为用户体验带来不便,再者,WebM格式的非普适性也体现在编辑流程上,由于它并非行业内的通用标准,编辑过程中可能会遭遇格式不兼容的障碍,导致操

科研绘图系列:R语言扩展物种堆积图(Extended Stacked Barplot)

介绍 R语言的扩展物种堆积图是一种数据可视化工具,它不仅展示了物种的堆积结果,还整合了不同样本分组之间的差异性分析结果。这种图形表示方法能够直观地比较不同物种在各个分组中的显著性差异,为研究者提供了一种有效的数据解读方式。 加载R包 knitr::opts_chunk$set(warning = F, message = F)library(tidyverse)library(phyl

透彻!驯服大型语言模型(LLMs)的五种方法,及具体方法选择思路

引言 随着时间的发展,大型语言模型不再停留在演示阶段而是逐步面向生产系统的应用,随着人们期望的不断增加,目标也发生了巨大的变化。在短短的几个月的时间里,人们对大模型的认识已经从对其zero-shot能力感到惊讶,转变为考虑改进模型质量、提高模型可用性。 「大语言模型(LLMs)其实就是利用高容量的模型架构(例如Transformer)对海量的、多种多样的数据分布进行建模得到,它包含了大量的先验

图神经网络模型介绍(1)

我们将图神经网络分为基于谱域的模型和基于空域的模型,并按照发展顺序详解每个类别中的重要模型。 1.1基于谱域的图神经网络         谱域上的图卷积在图学习迈向深度学习的发展历程中起到了关键的作用。本节主要介绍三个具有代表性的谱域图神经网络:谱图卷积网络、切比雪夫网络和图卷积网络。 (1)谱图卷积网络 卷积定理:函数卷积的傅里叶变换是函数傅里叶变换的乘积,即F{f*g}

秋招最新大模型算法面试,熬夜都要肝完它

💥大家在面试大模型LLM这个板块的时候,不知道面试完会不会复盘、总结,做笔记的习惯,这份大模型算法岗面试八股笔记也帮助不少人拿到过offer ✨对于面试大模型算法工程师会有一定的帮助,都附有完整答案,熬夜也要看完,祝大家一臂之力 这份《大模型算法工程师面试题》已经上传CSDN,还有完整版的大模型 AI 学习资料,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费