LoRAHUB:通过动态LoRA组合实现高效的跨任务泛化

2024-08-31 15:52

本文主要是介绍LoRAHUB:通过动态LoRA组合实现高效的跨任务泛化,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

大模型在微调时面临着计算效率和内存使用上的挑战。为了克服这些问题,研究者们提出了低秩适应(LoRA)技术,通过在模型的每层中引入可训练的低秩分解矩阵作为适配器模块,以参数高效的方式微调LLMs。

尽管LoRA在提高效率方面取得了进展,但关于LoRA模块的内在模块化和可组合性的研究还相对缺乏,来自Sea AI Lab、华盛顿大学圣路易斯分校和艾伦人工智能研究所的研究人员提出的LoRAHUB的新框架,正是为了探索LoRA模块的这一潜力,通过组合在不同任务上训练的LoRA模块,以适应新任务。

论文链接:https://arxiv.org/pdf/2307.13269

GitHub代码库:github.com/sail-sg/lorahub

Hugging Face模型库:huggingface.co/lorahub

方法

LoRAHUB方法是一种通过动态组合低秩适应(LoRA)模块来提高模型在新任务上的泛化能力的方法。它包括两个主要阶段:COMPOSE阶段ADAPT阶段

图2中展示了LoRAHUB方法的两个阶段。首先,对于N个不同的上游任务,分别训练N个LoRA模块,每个任务对应一个LoRA模块。当面对一个新的任务T′时,例如布尔表达式,使用这个任务的少量示例Q来引导LoraHub学习过程。在COMPOSE阶段,所有可用的LoRA模块被整合成一个单一的集成模块,使用一组系数{​}来实现。每个w_i​是一个可以取正值或负值的标量值,并且这些模块可以以不同的方式组合。在ADAPT阶段,组合后的LoRA模块与基础语言模型M_θ​结合,评估其在新任务T′的少量示例上的性能。然后使用无梯度算法更新系数w,以提高在这些少量示例Q上的性能(例如损失)。经过K次迭代后,将性能最优的LoRA模块应用于基础语言模型M_θ​,得到最终的语言模型。这个模型针对未见任务T′进行了有效调整,之后将被部署且不再更新。

LoRA通过将大型语言模型(LLM)的注意力权重矩阵更新分解为低秩矩阵来有效减少可训练参数的数量。具体而言LoRA将更新后的权重矩阵表示为,其中是可训练的低秩矩阵,秩r显著小于d和k。在这个上下文中,乘积AB定义了LoRA模块m,如前所述。通过利用低秩分解,LoRA大幅减少了在微调期间适应LLM权重所需的可训练参数数量。

COMPOSE阶段,实现了一种逐元素方法来组合LoRA模块。这个过程整合了LoRA模块的相应参数,要求被组合的模块具有相同的秩r以便正确对齐结构。给定​,可以通过以下方式获得组合的LoRA模块 值得注意的是,一次性组合过多的LoRA模块会指数级扩大搜索空间,这可能会破坏LoraHub学习过程的稳定性并阻碍最优性能的实现。为了缓解这个问题,研究者采用随机选择来修剪候选空间,未来可以探索更先进的预筛选算法。

ADAPT阶段的目标是通过修改系数w来提高模型在未见任务示例上的性能。人们可能会考虑使用梯度下降来优化w,遵循标准的反向传播方法。然而,这种方法需要为所有LoRA模块构建一个超网络,类似于可微分架构搜索方法。构建这些超网络需要大量的GPU内存和时间,这是一个挑战。鉴于w由相对较少的参数组成,研究者选择了无梯度方法而不是梯度下降来进行优化。

研究者利用一种黑盒优化技术来找到最优的w。优化过程由交叉熵损失引导,目标是找到最佳的{​}集合,以减少在少量示例Q上的损失L。研究者还引入了L1正则化来惩罚w的绝对值之和,帮助防止获得极端值。因此,LoraHub的最终目标是最小化,其中α是一个超参数。

在无梯度方法方面,研究者利用了Shiwa,这是一种组合优化方法。Shiwa提供了多种算法,并为不同情况选择最合适的优化算法。在接下来的大多数实验设置中,研究者主要采用协方差矩阵自适应进化策略(CMA-ES)。CMA-ES作为一种随机和基于种群的优化算法,提供了解决广泛优化挑战的多功能性。它动态调整由协方差矩阵定义的搜索分布。在每次迭代中,CMA-ES系统地更新这个分布的均值和协方差,以优化目标函数。在应用中,研究者使用这种算法来塑造w的搜索空间。最终,用它来通过评估在未见任务的少量示例上的性能来识别最优的w。

通过上述方法,LoRAHUB能够有效地结合多个LoRA模块,以适应新任务,同时保持了计算效率。这一创新方法为大型语言模型的跨任务泛化提供了新的视角。

想要掌握如何将大模型的力量发挥到极致吗?叶老师带您深入了解 Llama Factory —— 一款革命性的大模型微调工具。9月22日晚,实战专家1小时讲解让您轻松上手,学习如何使用 Llama Factory 微调模型。

加助理微信提供直播链接:amliy007,29.9元即可参加线上直播分享,叶老师亲自指导,互动沟通,全面掌握Llama Factory,关注享粉丝福利,限时免费CSDN听直播后的录播讲解。
LLaMA Factory 支持多种预训练模型和微调算法。它提供灵活的运算精度和优化算法选择,以及丰富的实验监控工具。开源特性和社区支持使其易于使用,适合各类用户快速提升模型性能。

实验

实验中使用了FLAN-T5-large作为基础的大型语言模型(LLM),该模型在零样本学习和少样本学习方面表现出色。为了准备LoRA模块,研究者采用了与FLAN-T5相同的近200个不同任务及其指令来训练这些模块。在每次实验中,随机选择了20个LoRA模块作为LoraHub学习的候选模块。

实验使用了Big-Bench Hard (BBH)基准测试来评估模型性能,该基准测试包含来自多个领域的多项选择题,共27个不同的任务,对语言模型来说具有挑战性。所有任务均采用精确匹配(Exact Match, EM)作为评估指标。

为了公平比较,实验中还包括了三种代表性的基于梯度的方法:全参数微调(Full Fine-Tuning, FFT)LoRA调整(LoRA Tuning)IA3微调(IA3 Fine-Tuning)。所有基于梯度的方法在相同的三次运行的5个示例上训练了40个周期。FFT使用3e-5的学习率,而IA3和LoRA使用2e-4的学习率。实验报告了每种方法在训练结束时的测试集上的性能,平均了三次运行的结果,以避免潜在的选择偏差。

表1展示了实验结果,显示了LoRAHUB方法与零样本学习和上下文学习(ICL)相比的优越性。LoRAHUB在大多数任务中一致性地优于零样本学习,尽管在某些任务中性能有所波动。LoRAHUB使用的令牌数量与零样本方法相当,但明显少于ICL。

另外与某些基于梯度的优化方法相比,LoRAHUB方法也展现出了竞争性的性能。例如,与IA3方法相比,LoRAHUB平均提高了3.1%的性能。然而,LoRAHUB在与上游任务显著不同的任务中仍然落后于LoRA调整和全参数微调。

LoRAHUB通过减少推理过程中的令牌数量,有效降低了推理成本。然而,它在ADAPT阶段引入了额外的推理步骤成本,这在ICL方法和LoRAHUB之间引入了一个权衡。对于一次性的临时任务,ICL方法可能更实用。相反,对于重复或类似任务,LoRAHUB成为一个有吸引力的选择,因为它能够有效处理重复任务,同时减少总体费用。

研究者们进一步探讨了LoRAHUB方法的特点,并发现了几个结果。

  • 组合LoRA模块是否超越了单一模块的优势? 通过实验,研究者们发现LoRAHUB的性能通常优于单一LoRA模块检索的性能,表明组合多个LoRA模块可以带来额外的性能提升。
  • 无梯度优化方法的有效性如何? 通过在WikiTableQuestions(WTQ)数据集上的实验,研究者们证明了无梯度优化方法能够有效地识别给定下游任务最合适的LoRA模块。
  • LoRAHUB是否适用于非指令调整模型? 实验表明,即使在没有零样本能力的模型(如T5)上,LoRAHUB学习也能使它们有效地泛化到未见任务。
  • LoRA模块的秩是否影响LoRAHUB学习的性能? 分析表明,对于FLAN-T5,秩的选择对性能影响很小。然而,对于T5,秩仍然有一定的影响。
  • 更多的LoRA模块是否会带来更好的结果? 实验结果表明,增加LoRA模块的数量会增加性能的方差,但同时也提高了最大可实现性能。

另外LoRAHUB在内存使用上也表现出极高的效率,仅使用了大约5GB的内存,远低于全参数微调所需的40GB内存,这突显了其在推理模式下的优势,因为它不需要存储梯度和优化状态。

通过LoRAHUB,研究人员展示了一种新的方法,以提高大型语言模型在新任务上的泛化能力,同时保持了计算效率。这一研究为未来LLMs的发展提供了新的可能性。

这篇关于LoRAHUB:通过动态LoRA组合实现高效的跨任务泛化的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1124339

相关文章

Java实现检查多个时间段是否有重合

《Java实现检查多个时间段是否有重合》这篇文章主要为大家详细介绍了如何使用Java实现检查多个时间段是否有重合,文中的示例代码讲解详细,感兴趣的小伙伴可以跟随小编一起学习一下... 目录流程概述步骤详解China编程步骤1:定义时间段类步骤2:添加时间段步骤3:检查时间段是否有重合步骤4:输出结果示例代码结语作

使用C++实现链表元素的反转

《使用C++实现链表元素的反转》反转链表是链表操作中一个经典的问题,也是面试中常见的考题,本文将从思路到实现一步步地讲解如何实现链表的反转,帮助初学者理解这一操作,我们将使用C++代码演示具体实现,同... 目录问题定义思路分析代码实现带头节点的链表代码讲解其他实现方式时间和空间复杂度分析总结问题定义给定

Java覆盖第三方jar包中的某一个类的实现方法

《Java覆盖第三方jar包中的某一个类的实现方法》在我们日常的开发中,经常需要使用第三方的jar包,有时候我们会发现第三方的jar包中的某一个类有问题,或者我们需要定制化修改其中的逻辑,那么应该如何... 目录一、需求描述二、示例描述三、操作步骤四、验证结果五、实现原理一、需求描述需求描述如下:需要在

如何使用Java实现请求deepseek

《如何使用Java实现请求deepseek》这篇文章主要为大家详细介绍了如何使用Java实现请求deepseek功能,文中的示例代码讲解详细,感兴趣的小伙伴可以跟随小编一起学习一下... 目录1.deepseek的api创建2.Java实现请求deepseek2.1 pom文件2.2 json转化文件2.2

python使用fastapi实现多语言国际化的操作指南

《python使用fastapi实现多语言国际化的操作指南》本文介绍了使用Python和FastAPI实现多语言国际化的操作指南,包括多语言架构技术栈、翻译管理、前端本地化、语言切换机制以及常见陷阱和... 目录多语言国际化实现指南项目多语言架构技术栈目录结构翻译工作流1. 翻译数据存储2. 翻译生成脚本

Android 悬浮窗开发示例((动态权限请求 | 前台服务和通知 | 悬浮窗创建 )

《Android悬浮窗开发示例((动态权限请求|前台服务和通知|悬浮窗创建)》本文介绍了Android悬浮窗的实现效果,包括动态权限请求、前台服务和通知的使用,悬浮窗权限需要动态申请并引导... 目录一、悬浮窗 动态权限请求1、动态请求权限2、悬浮窗权限说明3、检查动态权限4、申请动态权限5、权限设置完毕后

如何通过Python实现一个消息队列

《如何通过Python实现一个消息队列》这篇文章主要为大家详细介绍了如何通过Python实现一个简单的消息队列,文中的示例代码讲解详细,感兴趣的小伙伴可以跟随小编一起学习一下... 目录如何通过 python 实现消息队列如何把 http 请求放在队列中执行1. 使用 queue.Queue 和 reque

Python如何实现PDF隐私信息检测

《Python如何实现PDF隐私信息检测》随着越来越多的个人信息以电子形式存储和传输,确保这些信息的安全至关重要,本文将介绍如何使用Python检测PDF文件中的隐私信息,需要的可以参考下... 目录项目背景技术栈代码解析功能说明运行结php果在当今,数据隐私保护变得尤为重要。随着越来越多的个人信息以电子形

使用 sql-research-assistant进行 SQL 数据库研究的实战指南(代码实现演示)

《使用sql-research-assistant进行SQL数据库研究的实战指南(代码实现演示)》本文介绍了sql-research-assistant工具,该工具基于LangChain框架,集... 目录技术背景介绍核心原理解析代码实现演示安装和配置项目集成LangSmith 配置(可选)启动服务应用场景

使用Python快速实现链接转word文档

《使用Python快速实现链接转word文档》这篇文章主要为大家详细介绍了如何使用Python快速实现链接转word文档功能,文中的示例代码讲解详细,感兴趣的小伙伴可以跟随小编一起学习一下... 演示代码展示from newspaper import Articlefrom docx import