【论文阅读】MOA,《Mixture-of-Agents Enhances Large Language Model Capabilities》

本文主要是介绍【论文阅读】MOA,《Mixture-of-Agents Enhances Large Language Model Capabilities》,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

前面大概了解了Together AI的新研究MoA,比较好奇具体的实现方法,所以再来看一下对应的文章论文。

论文:《Mixture-of-Agents Enhances Large Language Model Capabilities》
论文链接:https://arxiv.org/html/2406.04692v1

在这里插入图片描述

这篇文章的标题是《Mixture-of-Agents Enhances Large Language Model Capabilities》,作者们来自 Duke University 和 Together AI,以及 University of Chicago 和 Stanford University。

摘要:
文章提出了一种新的方法,称为 Mixture-of-Agents(MoA),利用多个大型语言模型(LLMs)的集体优势来提高自然语言理解和生成任务的性能。MoA 方法通过构建分层的 MoA 架构,每层包含多个 LLM Agents,每个Agent使用前一层所有Agents的输出作为辅助信息来生成其响应。MoA 模型在 AlpacaEval 2.0、MT-Bench 和 FLASK 等基准测试中取得了最先进的性能,超越了 GPT-4 Omni。

解决的问题:
文章解决的问题是如何有效地结合多个大型语言模型(LLMs)的专长,以创建一个更加强大和稳健的模型。尽管存在许多 LLMs 并在多个任务上取得了令人印象深刻的成就,但它们仍然面临着模型大小和训练数据的固有限制。此外,不同的 LLMs 具有不同的优势和专门化的任务方面,如何利用这些多样化的技能集是一个挑战。

主要方法:

  • Mixture-of-Agents(MoA)方法论: 提出了 MoA 方法,通过迭代过程利用多个 LLMs 来逐步提高生成质量。MoA 结构如图 2 所示,具有 l 层,每层 i 包含 n 个 LLMs,表示为 Ai,1, Ai,2, …, Ai,n。每一层的 LLMs 独立生成对给定提示的响应,并将这些响应呈现给下一层的Agent进行进一步的细化。
  • 代理角色的区分: 在合作过程中,LLMs 可以分为两种不同的角色:提议者(Proposers)擅长生成其他模型使用的有用参考响应;聚合者(Aggregators)则擅长将来自其他模型的响应综合成单一的高质量输出。
  • 性能指标和多样性考虑: 为了确保模型之间的有效协作并提高整体响应质量,选择每一层 MoA 的 LLMs 是至关重要的。选择过程主要基于两个标准:(a) 性能指标:模型在第 i 层的平均胜率在确定其是否适合包含在第 i + 1 层中起着重要作用;(b) 多样性考虑:模型输出的多样性同样重要,异构模型生成的响应比相同模型产生的响应贡献更大。
  • 评估和实验: 作者使用 AlpacaEval 2.0、MT-Bench 和 FLASK 等基准测试对 MoA 进行了全面评估,证明了所提出方法的显著改进。

文章的贡献包括提出了一个新颖的框架,发现了语言模型之间的协作性,并通过使用多个高度竞争的基准测试,实现了最先进的 LLM 性能。

1 Introduction

大型语言模型(LLMs)近年来在自然语言理解和生成领域取得了显著进展。这些模型在大量数据上进行预训练,然后与人类偏好对齐,以生成有用和连贯的输出。然而,尽管有众多的LLMs和它们令人印象深刻的成就,它们仍然面临着模型大小和训练数据的固有限制。进一步扩大这些模型的规模异常昂贵,通常需要在数万亿个token上进行广泛的重新训练

与此同时,不同的LLMs拥有独特的优势,并在各种任务方面专业化。例如,一些模型擅长于复杂指令的跟随,而其他模型可能更适合于代码生成。不同LLMs之间技能组合的多样性提出了一个有趣的问题:我们能否利用多个LLMs的集体专业知识来创建一个更强大、更稳健的模型?

我们对这个问题的答案是肯定。我们发现了一个我们称之为LLMs的协作性的本质现象——当一个LLM在呈现其他模型的输出时,即使这些其他模型本身能力较差,也倾向于生成更好的响应。图1展示了在AlpacaEval 2.0基准测试中,6个流行的LLMs的LC胜率提高的情况。
在这里插入图片描述

当模型被提供了其他模型独立生成的答案时,它们的LC胜率显著提高。这表明协作现象在LLMs中普遍存在。值得注意的是,即使其他模型提供的辅助响应质量低于单个LLM独立生成的响应,这种改进也会发生。

基于这一发现,本文介绍了一种Mixture-of-Agents(MoA)方法论,利用多个LLMs来迭代地提高生成质量。MoA的结构如图2所示。最初,第一层中的LLMs,记为代理A1,1 …A1,n,独立地对给定的提示生成响应。然后,这些响应被呈现给下一层的代理A2,1 …A2,n(这些代理可能重用了第一层的模型)进行进一步的改进。这种迭代细化过程持续进行几个周期,直到获得一个更加稳健和全面响应。
在这里插入图片描述
为了确保模型之间的有效协作并提高整体响应质量,为每个MoA层仔细选择LLM至关重要。该选择过程由两个主要标准指导:(a)性能指标:层中模型的平均胜率𝑖在决定它们是否适合包含在𝑖+1层中起着重要作用。因此,根据其已证明的性能指标选择模型可确保更高质量的输出。(b) 多样性考虑因素:模型产出的多样性也至关重要。异构模型产生的响应比同一模型产生的反应贡献大得多。通过利用这些标准——性能和多样性——MoA旨在通过协作综合来缓解单个模型的不足,并提高整体响应质量。

我们使用AlpacaEval 2.0、MT Bench、FLASK基准进行综合评估,以评估各个维度的响应质量。结果表明,我们提出的方法有了实质性的改进,在AlpacaEval 2.0上实现了65.8%的新SOTA获胜率,而GPT-4 Omni之前实现了57.5%的最佳获胜率。

这项工作的贡献总结如下:(1)新颖的框架:提出了一个混合Agents框架,旨在利用多个LLM的优势,从而提高它们的推理和语言生成能力。(2) 语言模型的协作性发现:我们强调了LLM之间的继承协作性,当模型能够访问其他模型的输出时,即使这些输出的质量较低,它们也倾向于生成质量更好的响应。(3) 最先进的LLM性能:我们使用多个极具竞争力的基准进行了广泛的实验,如AlpacaEval 2.0、MT Bench和FLASK;我们的MoA框架在这些基准上实现了最先进的性能。

2 Mixture-of-Agents Methodology

在本节中介绍了我们提出的利用多个模型实现增强性能的方法论。我们首先展示了LLMs具有协作性,因此它们可以根据其他模型的输出改进自己的响应。在此之后,我们介绍了Mixture-of-Agents方法论,并讨论了其设计含义。

2.1 LLMs的协作性
首先展示了LLMs的协作性,特别是它们在能够引用其他模型的输出时生成更高质量响应的能力。正如我们在引言和图1中所示,许多现有的LLMs展示了这种协作能力。

从多个LLMs的协作中提取最大利益的一个重要途径是描述不同模型在协作的各个方面的优势。在协作过程中,我们可以将LLMs分为两个不同的角色:

  • 提议者(Proposers)擅长生成其他模型使用的有用参考响应。一个好的提议者可能本身不一定会生成高分响应,但它应该提供更多的背景和多样化的视角,最终有助于通过聚合器使用时产生更好的最终响应。
  • 聚合器(Aggregators)是精通于将其他模型的响应综合成单一高质量输出的模型。一个有效的聚合器即使在整合比自己的质量低的输入时也应该保持或提高输出质量。

第3.3节通过实证验证了聚合器和提议者的角色。具体来说,我们展示了许多LLMs既具备作为聚合器也具备作为提议者的能力,而某些模型在不同角色中表现出特殊的专业能力。GPT-4o、Qwen1.5、LLaMA-3作为多功能模型在协助和聚合任务中表现有效。相比之下,WizardLM作为提议者模型表现出色,但在将其他模型的响应聚合时却难以保持其有效性。

鉴于聚合器可以通过利用其他模型的输出生成更高质量的响应,我们提出通过引入额外的聚合器来进一步增强这种协作潜力。一个直观的想法是使用多个聚合器复制这个练习——最初使用几个聚合器聚合更好的答案,然后重新聚合这些聚合的答案。通过将更多的聚合器纳入过程中,我们可以迭代地综合和细化响应,利用多个模型的优势产生更好的结果。这导致了我们提出的Mixture-of-Agents的设计。

2.2 Mixture-of-Agents
MoA的结构如图2所示。它有l层,每层i由n个LLMs组成,记为Ai,1, Ai,2, …, Ai,n。需要注意的是,LLMs可以在同层或不同层中重用。当一层中的许多LLMs相同时,这种配置导致了一个特殊结构,即模型生成多个可能不同的输出(由于温度采样的随机性)。我们将此设置称为单提议者,其中只有少量模型被激活。

在这里,每个LLM Ai,j 处理一个输入文本并生成其续篇。我们的方法不需要任何微调,只使用LLMs的提示和生成接口。正式地,给定输入提示x1,第i层MoA的输出yi可以表示如下:
在这里插入图片描述
其中,+ 表示文本的连接;⊕ 表示应用表1所示的聚合和合成提示应用于这些模型输出。
在这里插入图片描述
表1提示:
您已经获得了来自各种开源模型的一组对最新用户查询的响应。您的任务是将这些响应综合成一个单一的、高质量的响应。批判性地评估这些回复中提供的信息至关重要,认识到其中一些信息可能存在偏见或不正确。您的回答不应简单地复制给定的答案,而应提供对说明的精致、准确和全面的回复。确保您的回复结构合理、连贯一致,并遵守准确性和可靠性的最高标准。

来自模型的回应:

  1. [模型Ai,1的响应]
  2. [模型Ai,2的响应]
    ……
    n. [模型Ai,n的响应]

在实践中,我们不需要将提示和所有模型响应连接起来,所以在最后一层只需要使用一个LLM。因此,我们使用第l层的LLM的输出(Al,1(xl))作为最终输出,并基于它评估指标。

2.3 与专家混合的类比
专家混合(MoE)是机器学习中一种著名且成熟的方法,其中多个专家网络专门用于不同的技能集。MoE方法由于其利用不同模型能力解决复杂问题的能力,在各种应用中显示出显著的成功。MoA方法从这种方法中汲取灵感。

一个典型的MoE设计由称为MoE层的层堆叠组成。每层包括一组n个专家网络以及一个门控网络,并包括改进梯度流的残差连接。正式地,对于第i层,这个设计可以表示为:
在这里插入图片描述
其中 Gi,j 表示对应专家j的门控网络的输出,Ei,j 表示专家网络j计算的函数。利用多个专家允许模型学习不同的技能集,并专注于手头任务的各个方面。

从高层次角度来看,我们提出的MoA框架通过在模型级别而不是激活级别上操作,将MoE概念扩展到模型级别。具体来说,我们的MoA方法利用LLMs,并且完全通过提示接口操作,而不需要修改内部激活或权重。这意味着,与MoE中的单个模型内具有专门子网络不同,我们在不同层中使用多个成熟的LLMs。请注意,在我们的方法中,我们使用LLMs整合了门控网络和专家网络的角色,因为LLMs的内在能力使它们能够通过解释提示和生成连贯的输出来有效地调节输入,而不需要外部协调机制。

此外,由于这种方法仅依赖于现成模型中固有的提示能力:(1) 它消除了微调所带来的计算开销;(2) 它提供了灵活性和可扩展性:我们的方法可以应用于最新的LLMs,无论其大小或架构如何。

3 Evaluation

简单看一下这章的主要内容:
1、基准测试:作者使用AlpacaEval 2.0、MT-Bench和FLASK等基准测试来评估提出的Mixture-of-Agents(MoA)方法。这些测试用于全面评估方法的性能,并与现有的最先进语言模型进行比较。

2、性能提升:MoA方法在AlpacaEval 2.0上取得了显著的性能提升,达到了新的最高胜率65.8%,相比之前的最佳模型GPT-4 Omni的57.5%有了显著提高。

3、模型配置:作者构建了默认的MoA配置,仅使用开源模型就实现了有竞争力的性能。MoA由三层组成,每层使用同一组模型,并且在最后一层使用Qwen1.5-110B-Chat作为聚合器。

4、变体:除了标准MoA,作者还开发了两个变体,MoA w/ GPT-4o和MoA-Lite。MoA w/ GPT-4o在最终MoA层使用GPT-4o作为聚合器,以优先考虑高质量的输出。MoA-Lite则更注重成本效益,使用较少的层数和较小的聚合器模型,尽管如此,它在AlpacaEval 2.0上的性能仍然比GPT-4 Omni高出1.8%。

5、结果:在AlpacaEval 2.0的详细结果中,MoA方法在排行榜上名列前茅,显示出比GPT-4o模型8.2%的绝对改进。MoA-Lite即使采用更轻量的方法,也实现了1.8%的质量提升。

6、MT-Bench和FLASK:在MT-Bench上,尽管改进幅度相对较小,但MoA方法仍然保持了领先地位。FLASK提供了更细粒度的评估,MoA在多个关键领域表现出显著的改进,尤其是在稳健性、正确性、效率、事实性、常识性、洞察力和完整性方面。

7、内部机制分析:作者进行了实验来更好地理解MoA的内部机制,包括模型如何利用其他模型的输出来生成更高质量的响应,以及聚合器如何有效地整合不同模型的输出。

8、成本和Token分析:作者还进行了预算和Token分析,以理解预算、Token使用和LC胜率之间的关系,并讨论了MoA方法的成本效益。

9、结论:MoA方法通过迭代聚合模型响应,利用多个代理的集体优势,显著提高了每个单独模型的输出质量。作者还讨论了MoA设计的改进方向,以及如何通过系统优化MoA架构来进一步提升性能。

10、局限性和更广泛的影响:作者指出MoA方法需要迭代聚合模型响应,可能导致高Time to First Token (TTFT),影响用户体验。提出了减少MoA层数等解决方案,并讨论了提高模型解释性,更好地与人类推理对齐的潜力。
在这里插入图片描述
图3展示了FLASK评估结果,其中使用了6个提议者(proposer)的MoA(Mixture-of-Agents)设置,并且Qwen1.5-110B-Chat作为聚合器(aggregator)。FLASK是一个细粒度的评估工具,它可以从多个维度来评估语言模型的性能

什么使代理混合(Mixture-of-Agents)工作良好?

作者进行了实验,以便更好地理解Mixture-of-Agents(MoA)的内部机制。总结了以下关键见解:

MoA显著优于LLM排名器。首先,将MoA与基于LLM的排名器进行了比较,该排名器使用聚合器模型从提议者生成的答案中选择一个,而不是生成一个新的输出。结果显示MoA方法显著优于LLM排名器基线。MoA胜过排名方法的事实表明,聚合器不仅仅从提议者生成的答案中选择一个,而且可能对所有提议的生成进行了复杂的聚合。

MoA倾向于结合最佳提议答案。将聚合器的响应与提议者的响应通过相似性分数进行了比较,例如BLEU(Papineni等人,2002),这反映了n-gram的重叠。在每个样本中,给定提议者提出的n个答案,作者计算了n个相似性分数和GPT-4基础评估器确定的n个偏好分数之间的Spearman等级相关系数。图4中的结果确实证实了胜率和BLEU分数之间存在正相关。作者还提供了使用Levenshtein相似性(RapidFuzz,2023)或TF-IDF而不是BLEU分数的结果在附录A中,其中两种替代的文本相似性方法也与偏好分数产生了正相关。

模型多样性和提议者数量的影响。我们分析了提案数量如何影响最终输出质量,结果显示分数随着n单调增加,反映了拥有更多辅助信息的好处。此外,我们还量化了使用各种 LLM 作为提议者的影响。我们比较了两个设置:“single-proposer”,响应由同一 LLM 生成,其中温度为0.7; 以及“多提议者”,其中每个响应都由不同的 LLM 生成。 总体而言,使用多个不同的 LLM 始终会产生更好的结果。这两个结果都表明,在每个 MoA 层中拥有更多不同的 LLM 代理可以提高性能。进一步扩大MoA的宽度是未来研究的一个有希望的方向。

模型在MoA生态系统中的专业化。我们还进行了实验,以确定哪些模型在特定角色中表现出色。具体来说,GPT-4o、Qwen、LLaMA-3作为在协助和聚合任务中都有效的多功能模型脱颖而出。相比之下,WizardLM作为提议者模型表现出色,但在从其他模型聚合响应时却难以保持其有效性。

4 Related Work

第4章是关于相关工作的讨论,它主要包含以下几个方面的内容:

1、LLM推理能力提升:介绍了近期研究如何通过提示工程(prompt engineering)来优化大型语言模型(LLMs)以适应各种下游任务。特别提到了Chain of Thought (CoT) 提示技术,这是一种线性问题解决方法,每个步骤都建立在前一个步骤之上。

2、自动化CoT提示:讨论了Auto-CoT方法,它通过采样多样化的问题并生成推理链来自动化CoT提示。

3、多步骤推理任务:提到了Fu等人将CoT应用于多步骤推理任务的工作,以及其他一些致力于提高LLMs推理能力的研究。

4、模型集成(Ensemble):探讨了如何通过集成多个模型来提升性能,包括重新排名不同模型的输出以及训练一个路由器来预测给定输入下表现最佳的模型。

4、多代理协作:讨论了使用多个大型语言模型作为代理,通过互动讨论和集体推理来解决问题的研究。这包括了对称和非对称的讨论机制设计,以及加权投票等方法。

5、成本效益:讨论了如何减少使用LLMs的成本,包括采用不同模型的串行方式以及通过集成学习来利用不同模型的优势。

6、相关工作的比较:对上述方法与本文提出的MoA方法进行了比较,指出MoA方法的独特之处在于它利用了多个模型的集体优势,并通过迭代协作来显著提高输出质量。

结论:总结了MoA方法如何通过多样化的模型视角来实现比单一模型更优越的性能,并指出系统优化MoA架构是未来工作的一个有趣方向。

5 Conclusion

结论部分提出了以下几点:

1、MoA方法介绍:本文介绍了一种Mixture-of-Agents(MoA)方法,旨在通过迭代协作的不同阶段来利用多个大型语言模型(LLMs)的能力。该方法利用MoA家族中代理的集体优势,显著提高了每个单独模型的输出质量。

2、实证评估:在AlpacaEval 2.0、MT-Bench和FLASK上进行的实证评估表明,响应质量有了显著提高,其中MoA方法在LC(长度控制)胜率上达到了65%。

3、集成多样视角:这些发现验证了假设,即集成来自不同模型的多样化视角可以带来相比依赖单一模型更优越的性能。

4、MoA设计改进:提供了改进MoA设计见解;MoA架构的系统优化是未来工作的一个有趣方向。

5、局限性:文章提出的方法需要迭代聚合模型响应,这意味着模型不能在最后一层MoA达到之前决定第一个token。这可能导致较高的Time to First Token (TTFT),可能负面影响用户体验。为了缓解这个问题,可以限制MoA层数,因为第一次响应聚合对生成质量有最显著的提升。未来的工作可以探索分块聚合而不是一次性聚合整个响应,这可以在保持响应质量的同时减少TTFT。

6、广泛影响:这项研究有潜力提高由LLM驱动的聊天助手的有效性,从而使AI更加易于访问。此外,由于中间输出以自然语言表示,MoA呈现的改进增强了模型的可解释性。这种增强的可解释性有助于更好地与人类推理对齐。

(欢迎关注公众号:老无谈藏书票)

这篇关于【论文阅读】MOA,《Mixture-of-Agents Enhances Large Language Model Capabilities》的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1076657

相关文章

Python利用qq邮箱发送通知邮件(已封装成model)

因为经常喜欢写一些脚本、爬虫之类的东西,有需要通知的时候,总是苦于没有太好的通知方式,虽然邮件相对于微信、短信来说,接收性差了一些,但毕竟免费,而且支持html直接渲染,所以,折腾了一个可以直接使用的sendemail模块。这里主要应用的是QQ发邮件,微信关注QQ邮箱后,也可以实时的接收到消息,肾好! 好了,废话不多说,直接上代码。 # encoding: utf-8import lo

shader language学习(1)——shader language简介背景

shader language,称为着色语言,shade在英语是阴影、颜色深浅的意思。shader language基于物体本身属性和光照条件,计算美格橡塑的颜色值。 实际上这种解释具有明显的时代局限性,在GPU编程发展的早期,shader language的提出目标是加强对图形处理算法的控制,所以对该语言的定义也针对于此。但随着技术的进步,目前的shader language早已经用于通用计算

Retrieval-Augmented Generation for Large Language Models A Survey

Retrieval-Augmented Generation for Large Language Models: A Survey 文献综述 文章目录 Retrieval-Augmented Generation for Large Language Models: A Survey 文献综述 Abstract背景介绍 RAG概述原始RAG先进RAG预检索过程后检索过程 模块化RAGMo

ssh在本地虚拟机中的应用——解决虚拟机中编写和阅读代码不方便问题的一个小技巧

虚拟机中编程小技巧分享——ssh的使用 事情的起因是这样的:前几天一位工程师过来我这边,他看到我在主机和虚拟机运行了两个vscode环境,不经意间提了句:“这么艰苦的环境写代码啊”。 后来我一想:确实。 我长时间以来都是直接在虚拟机里写的代码,但是毕竟是虚拟机嘛,有时候编辑器没那么流畅,在文件比较多的时候跳转很麻烦,容易卡住。因此,我当晚简单思考了一下,想到了一个可行的解决方法——即用ssh

康奈尔大学之论文审稿模型Reviewer2及我司七月对其的实现(含PeerRead)

前言 自从我司于23年7月开始涉足论文审稿领域之后「截止到24年6月份,我司的七月论文审稿GPT已经迭代到了第五版,详见此文的8.1 七月论文审稿GPT(从第1版到第5版)」,在业界的影响力越来越大,所以身边朋友如发现业界有相似的工作,一般都会第一时间发给我,比如本部分要介绍的康奈尔大学的reviewer2 当然,我自己也会各种看类似工作的论文,毕竟同行之间的工作一定会互相借鉴的,我们会学他们

芯片后端之 PT 使用 report_timing 产生报告如何阅读

今天,就PT常用的命令,做一个介绍,希望对大家以后的工作,起到帮助作用。 在PrimeTime中,使用report_timing -delay max命令生成此报告。switch -delay max表示定时报告用于设置(这是默认值)。 首先,我们整体看一下通过report_timing 运行之后,报告产生的整体样式。 pt_shell> report_timing -from start_

【论文精读】分类扩散模型:重振密度比估计(Revitalizing Density Ratio Estimation)

文章目录 一、文章概览(一)问题的提出(二)文章工作 二、理论背景(一)密度比估计DRE(二)去噪扩散模型 三、方法(一)推导分类和去噪之间的关系(二)组合训练方法(三)一步精确的似然计算 四、实验(一)使用两种损失对于实现最佳分类器的重要性(二)去噪结果、图像质量和负对数似然 论文:Classification Diffusion Models: Revitalizing

【python】python葡萄酒国家分布情况数据分析pyecharts可视化(源码+数据集+论文)【独一无二】

👉博__主👈:米码收割机 👉技__能👈:C++/Python语言 👉公众号👈:测试开发自动化【获取源码+商业合作】 👉荣__誉👈:阿里云博客专家博主、51CTO技术博主 👉专__注👈:专注主流机器人、人工智能等相关领域的开发、测试技术。 python葡萄酒国家分布情况数据分析pyecharts可视化(源码+数据集+论文)【独一无二】 目录 python葡

论文阅读--Efficient Hybrid Zoom using Camera Fusion on Mobile Phones

这是谷歌影像团队 2023 年发表在 Siggraph Asia 上的一篇文章,主要介绍的是利用多摄融合的思路进行变焦。 单反相机因为卓越的硬件性能,可以非常方便的实现光学变焦。不过目前的智能手机,受制于物理空间的限制,还不能做到像单反一样的光学变焦。目前主流的智能手机,都是采用多摄的设计,一般来说一个主摄搭配一个长焦,为了实现主摄与长焦之间的变焦,目前都是采用数字变焦的方式,数字变焦相比于光学

【LLM之KG】CoK论文阅读笔记

研究背景 大规模语言模型(LLMs)在许多自然语言处理(NLP)任务中取得了显著进展,特别是在零样本/少样本学习(In-Context Learning, ICL)方面。ICL不需要更新模型参数,只需利用几个标注示例就可以生成预测。然而,现有的ICL和链式思维(Chain-of-Thought, CoT)方法在复杂推理任务上仍存在生成的推理链常常伴随错误的问题,导致不真实和不可靠的推理结果。