LoRAHUB:通过动态LoRA组合实现高效的跨任务泛化

2024-08-31 15:52

本文主要是介绍LoRAHUB:通过动态LoRA组合实现高效的跨任务泛化,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

大模型在微调时面临着计算效率和内存使用上的挑战。为了克服这些问题,研究者们提出了低秩适应(LoRA)技术,通过在模型的每层中引入可训练的低秩分解矩阵作为适配器模块,以参数高效的方式微调LLMs。

尽管LoRA在提高效率方面取得了进展,但关于LoRA模块的内在模块化和可组合性的研究还相对缺乏,来自Sea AI Lab、华盛顿大学圣路易斯分校和艾伦人工智能研究所的研究人员提出的LoRAHUB的新框架,正是为了探索LoRA模块的这一潜力,通过组合在不同任务上训练的LoRA模块,以适应新任务。

论文链接:https://arxiv.org/pdf/2307.13269

GitHub代码库:github.com/sail-sg/lorahub

Hugging Face模型库:huggingface.co/lorahub

方法

LoRAHUB方法是一种通过动态组合低秩适应(LoRA)模块来提高模型在新任务上的泛化能力的方法。它包括两个主要阶段:COMPOSE阶段ADAPT阶段

图2中展示了LoRAHUB方法的两个阶段。首先,对于N个不同的上游任务,分别训练N个LoRA模块,每个任务对应一个LoRA模块。当面对一个新的任务T′时,例如布尔表达式,使用这个任务的少量示例Q来引导LoraHub学习过程。在COMPOSE阶段,所有可用的LoRA模块被整合成一个单一的集成模块,使用一组系数{​}来实现。每个w_i​是一个可以取正值或负值的标量值,并且这些模块可以以不同的方式组合。在ADAPT阶段,组合后的LoRA模块与基础语言模型M_θ​结合,评估其在新任务T′的少量示例上的性能。然后使用无梯度算法更新系数w,以提高在这些少量示例Q上的性能(例如损失)。经过K次迭代后,将性能最优的LoRA模块应用于基础语言模型M_θ​,得到最终的语言模型。这个模型针对未见任务T′进行了有效调整,之后将被部署且不再更新。

LoRA通过将大型语言模型(LLM)的注意力权重矩阵更新分解为低秩矩阵来有效减少可训练参数的数量。具体而言LoRA将更新后的权重矩阵表示为,其中是可训练的低秩矩阵,秩r显著小于d和k。在这个上下文中,乘积AB定义了LoRA模块m,如前所述。通过利用低秩分解,LoRA大幅减少了在微调期间适应LLM权重所需的可训练参数数量。

COMPOSE阶段,实现了一种逐元素方法来组合LoRA模块。这个过程整合了LoRA模块的相应参数,要求被组合的模块具有相同的秩r以便正确对齐结构。给定​,可以通过以下方式获得组合的LoRA模块 值得注意的是,一次性组合过多的LoRA模块会指数级扩大搜索空间,这可能会破坏LoraHub学习过程的稳定性并阻碍最优性能的实现。为了缓解这个问题,研究者采用随机选择来修剪候选空间,未来可以探索更先进的预筛选算法。

ADAPT阶段的目标是通过修改系数w来提高模型在未见任务示例上的性能。人们可能会考虑使用梯度下降来优化w,遵循标准的反向传播方法。然而,这种方法需要为所有LoRA模块构建一个超网络,类似于可微分架构搜索方法。构建这些超网络需要大量的GPU内存和时间,这是一个挑战。鉴于w由相对较少的参数组成,研究者选择了无梯度方法而不是梯度下降来进行优化。

研究者利用一种黑盒优化技术来找到最优的w。优化过程由交叉熵损失引导,目标是找到最佳的{​}集合,以减少在少量示例Q上的损失L。研究者还引入了L1正则化来惩罚w的绝对值之和,帮助防止获得极端值。因此,LoraHub的最终目标是最小化,其中α是一个超参数。

在无梯度方法方面,研究者利用了Shiwa,这是一种组合优化方法。Shiwa提供了多种算法,并为不同情况选择最合适的优化算法。在接下来的大多数实验设置中,研究者主要采用协方差矩阵自适应进化策略(CMA-ES)。CMA-ES作为一种随机和基于种群的优化算法,提供了解决广泛优化挑战的多功能性。它动态调整由协方差矩阵定义的搜索分布。在每次迭代中,CMA-ES系统地更新这个分布的均值和协方差,以优化目标函数。在应用中,研究者使用这种算法来塑造w的搜索空间。最终,用它来通过评估在未见任务的少量示例上的性能来识别最优的w。

通过上述方法,LoRAHUB能够有效地结合多个LoRA模块,以适应新任务,同时保持了计算效率。这一创新方法为大型语言模型的跨任务泛化提供了新的视角。

想要掌握如何将大模型的力量发挥到极致吗?叶老师带您深入了解 Llama Factory —— 一款革命性的大模型微调工具。9月22日晚,实战专家1小时讲解让您轻松上手,学习如何使用 Llama Factory 微调模型。

加助理微信提供直播链接:amliy007,29.9元即可参加线上直播分享,叶老师亲自指导,互动沟通,全面掌握Llama Factory,关注享粉丝福利,限时免费CSDN听直播后的录播讲解。
LLaMA Factory 支持多种预训练模型和微调算法。它提供灵活的运算精度和优化算法选择,以及丰富的实验监控工具。开源特性和社区支持使其易于使用,适合各类用户快速提升模型性能。

实验

实验中使用了FLAN-T5-large作为基础的大型语言模型(LLM),该模型在零样本学习和少样本学习方面表现出色。为了准备LoRA模块,研究者采用了与FLAN-T5相同的近200个不同任务及其指令来训练这些模块。在每次实验中,随机选择了20个LoRA模块作为LoraHub学习的候选模块。

实验使用了Big-Bench Hard (BBH)基准测试来评估模型性能,该基准测试包含来自多个领域的多项选择题,共27个不同的任务,对语言模型来说具有挑战性。所有任务均采用精确匹配(Exact Match, EM)作为评估指标。

为了公平比较,实验中还包括了三种代表性的基于梯度的方法:全参数微调(Full Fine-Tuning, FFT)LoRA调整(LoRA Tuning)IA3微调(IA3 Fine-Tuning)。所有基于梯度的方法在相同的三次运行的5个示例上训练了40个周期。FFT使用3e-5的学习率,而IA3和LoRA使用2e-4的学习率。实验报告了每种方法在训练结束时的测试集上的性能,平均了三次运行的结果,以避免潜在的选择偏差。

表1展示了实验结果,显示了LoRAHUB方法与零样本学习和上下文学习(ICL)相比的优越性。LoRAHUB在大多数任务中一致性地优于零样本学习,尽管在某些任务中性能有所波动。LoRAHUB使用的令牌数量与零样本方法相当,但明显少于ICL。

另外与某些基于梯度的优化方法相比,LoRAHUB方法也展现出了竞争性的性能。例如,与IA3方法相比,LoRAHUB平均提高了3.1%的性能。然而,LoRAHUB在与上游任务显著不同的任务中仍然落后于LoRA调整和全参数微调。

LoRAHUB通过减少推理过程中的令牌数量,有效降低了推理成本。然而,它在ADAPT阶段引入了额外的推理步骤成本,这在ICL方法和LoRAHUB之间引入了一个权衡。对于一次性的临时任务,ICL方法可能更实用。相反,对于重复或类似任务,LoRAHUB成为一个有吸引力的选择,因为它能够有效处理重复任务,同时减少总体费用。

研究者们进一步探讨了LoRAHUB方法的特点,并发现了几个结果。

  • 组合LoRA模块是否超越了单一模块的优势? 通过实验,研究者们发现LoRAHUB的性能通常优于单一LoRA模块检索的性能,表明组合多个LoRA模块可以带来额外的性能提升。
  • 无梯度优化方法的有效性如何? 通过在WikiTableQuestions(WTQ)数据集上的实验,研究者们证明了无梯度优化方法能够有效地识别给定下游任务最合适的LoRA模块。
  • LoRAHUB是否适用于非指令调整模型? 实验表明,即使在没有零样本能力的模型(如T5)上,LoRAHUB学习也能使它们有效地泛化到未见任务。
  • LoRA模块的秩是否影响LoRAHUB学习的性能? 分析表明,对于FLAN-T5,秩的选择对性能影响很小。然而,对于T5,秩仍然有一定的影响。
  • 更多的LoRA模块是否会带来更好的结果? 实验结果表明,增加LoRA模块的数量会增加性能的方差,但同时也提高了最大可实现性能。

另外LoRAHUB在内存使用上也表现出极高的效率,仅使用了大约5GB的内存,远低于全参数微调所需的40GB内存,这突显了其在推理模式下的优势,因为它不需要存储梯度和优化状态。

通过LoRAHUB,研究人员展示了一种新的方法,以提高大型语言模型在新任务上的泛化能力,同时保持了计算效率。这一研究为未来LLMs的发展提供了新的可能性。

这篇关于LoRAHUB:通过动态LoRA组合实现高效的跨任务泛化的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1124339

相关文章

hdu1043(八数码问题,广搜 + hash(实现状态压缩) )

利用康拓展开将一个排列映射成一个自然数,然后就变成了普通的广搜题。 #include<iostream>#include<algorithm>#include<string>#include<stack>#include<queue>#include<map>#include<stdio.h>#include<stdlib.h>#include<ctype.h>#inclu

第10章 中断和动态时钟显示

第10章 中断和动态时钟显示 从本章开始,按照书籍的划分,第10章开始就进入保护模式(Protected Mode)部分了,感觉从这里开始难度突然就增加了。 书中介绍了为什么有中断(Interrupt)的设计,中断的几种方式:外部硬件中断、内部中断和软中断。通过中断做了一个会走的时钟和屏幕上输入字符的程序。 我自己理解中断的一些作用: 为了更好的利用处理器的性能。协同快速和慢速设备一起工作

高效+灵活,万博智云全球发布AWS无代理跨云容灾方案!

摘要 近日,万博智云推出了基于AWS的无代理跨云容灾解决方案,并与拉丁美洲,中东,亚洲的合作伙伴面向全球开展了联合发布。这一方案以AWS应用环境为基础,将HyperBDR平台的高效、灵活和成本效益优势与无代理功能相结合,为全球企业带来实现了更便捷、经济的数据保护。 一、全球联合发布 9月2日,万博智云CEO Michael Wong在线上平台发布AWS无代理跨云容灾解决方案的阐述视频,介绍了

hdu4869(逆元+求组合数)

//输入n,m,n表示翻牌的次数,m表示牌的数目,求经过n次操作后共有几种状态#include<iostream>#include<algorithm>#include<cstring>#include<stack>#include<queue>#include<set>#include<map>#include<stdio.h>#include<stdlib.h>#includ

嵌入式QT开发:构建高效智能的嵌入式系统

摘要: 本文深入探讨了嵌入式 QT 相关的各个方面。从 QT 框架的基础架构和核心概念出发,详细阐述了其在嵌入式环境中的优势与特点。文中分析了嵌入式 QT 的开发环境搭建过程,包括交叉编译工具链的配置等关键步骤。进一步探讨了嵌入式 QT 的界面设计与开发,涵盖了从基本控件的使用到复杂界面布局的构建。同时也深入研究了信号与槽机制在嵌入式系统中的应用,以及嵌入式 QT 与硬件设备的交互,包括输入输出设

动态规划---打家劫舍

题目: 你是一个专业的小偷,计划偷窃沿街的房屋。每间房内都藏有一定的现金,影响你偷窃的唯一制约因素就是相邻的房屋装有相互连通的防盗系统,如果两间相邻的房屋在同一晚上被小偷闯入,系统会自动报警。 给定一个代表每个房屋存放金额的非负整数数组,计算你 不触动警报装置的情况下 ,一夜之内能够偷窃到的最高金额。 思路: 动态规划五部曲: 1.确定dp数组及含义 dp数组是一维数组,dp[i]代表

【C++】_list常用方法解析及模拟实现

相信自己的力量,只要对自己始终保持信心,尽自己最大努力去完成任何事,就算事情最终结果是失败了,努力了也不留遗憾。💓💓💓 目录   ✨说在前面 🍋知识点一:什么是list? •🌰1.list的定义 •🌰2.list的基本特性 •🌰3.常用接口介绍 🍋知识点二:list常用接口 •🌰1.默认成员函数 🔥构造函数(⭐) 🔥析构函数 •🌰2.list对象

【Prometheus】PromQL向量匹配实现不同标签的向量数据进行运算

✨✨ 欢迎大家来到景天科技苑✨✨ 🎈🎈 养成好习惯,先赞后看哦~🎈🎈 🏆 作者简介:景天科技苑 🏆《头衔》:大厂架构师,华为云开发者社区专家博主,阿里云开发者社区专家博主,CSDN全栈领域优质创作者,掘金优秀博主,51CTO博客专家等。 🏆《博客》:Python全栈,前后端开发,小程序开发,人工智能,js逆向,App逆向,网络系统安全,数据分析,Django,fastapi

让树莓派智能语音助手实现定时提醒功能

最初的时候是想直接在rasa 的chatbot上实现,因为rasa本身是带有remindschedule模块的。不过经过一番折腾后,忽然发现,chatbot上实现的定时,语音助手不一定会有响应。因为,我目前语音助手的代码设置了长时间无应答会结束对话,这样一来,chatbot定时提醒的触发就不会被语音助手获悉。那怎么让语音助手也具有定时提醒功能呢? 我最后选择的方法是用threading.Time

高效录音转文字:2024年四大工具精选!

在快节奏的工作生活中,能够快速将录音转换成文字是一项非常实用的能力。特别是在需要记录会议纪要、讲座内容或者是采访素材的时候,一款优秀的在线录音转文字工具能派上大用场。以下推荐几个好用的录音转文字工具! 365在线转文字 直达链接:https://www.pdf365.cn/ 365在线转文字是一款提供在线录音转文字服务的工具,它以其高效、便捷的特点受到用户的青睐。用户无需下载安装任何软件,只