【论文阅读】MOA，《Mixture-of-Agents Enhances Large Language Model Capabilities》

本文主要是介绍【论文阅读】MOA，《Mixture-of-Agents Enhances Large Language Model Capabilities》，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

前面大概了解了Together AI的新研究MoA，比较好奇具体的实现方法，所以再来看一下对应的文章论文。

论文：《Mixture-of-Agents Enhances Large Language Model Capabilities》
论文链接：https://arxiv.org/html/2406.04692v1

在这里插入图片描述

这篇文章的标题是《Mixture-of-Agents Enhances Large Language Model Capabilities》，作者们来自 Duke University 和 Together AI，以及 University of Chicago 和 Stanford University。

摘要：
文章提出了一种新的方法，称为 Mixture-of-Agents（MoA），利用多个大型语言模型（LLMs）的集体优势来提高自然语言理解和生成任务的性能。MoA 方法通过构建分层的 MoA 架构，每层包含多个 LLM Agents，每个Agent使用前一层所有Agents的输出作为辅助信息来生成其响应。MoA 模型在 AlpacaEval 2.0、MT-Bench 和 FLASK 等基准测试中取得了最先进的性能，超越了 GPT-4 Omni。

解决的问题：
文章解决的问题是如何有效地结合多个大型语言模型（LLMs）的专长，以创建一个更加强大和稳健的模型。尽管存在许多 LLMs 并在多个任务上取得了令人印象深刻的成就，但它们仍然面临着模型大小和训练数据的固有限制。此外，不同的 LLMs 具有不同的优势和专门化的任务方面，如何利用这些多样化的技能集是一个挑战。

主要方法：

Mixture-of-Agents（MoA）方法论： 提出了 MoA 方法，通过迭代过程利用多个 LLMs 来逐步提高生成质量。MoA 结构如图 2 所示，具有 l 层，每层 i 包含 n 个 LLMs，表示为 Ai,1, Ai,2, …, Ai,n。每一层的 LLMs 独立生成对给定提示的响应，并将这些响应呈现给下一层的Agent进行进一步的细化。
代理角色的区分： 在合作过程中，LLMs 可以分为两种不同的角色：提议者（Proposers）擅长生成其他模型使用的有用参考响应；聚合者（Aggregators）则擅长将来自其他模型的响应综合成单一的高质量输出。
性能指标和多样性考虑： 为了确保模型之间的有效协作并提高整体响应质量，选择每一层 MoA 的 LLMs 是至关重要的。选择过程主要基于两个标准：(a) 性能指标：模型在第 i 层的平均胜率在确定其是否适合包含在第 i + 1 层中起着重要作用；(b) 多样性考虑：模型输出的多样性同样重要，异构模型生成的响应比相同模型产生的响应贡献更大。
评估和实验： 作者使用 AlpacaEval 2.0、MT-Bench 和 FLASK 等基准测试对 MoA 进行了全面评估，证明了所提出方法的显著改进。

文章的贡献包括提出了一个新颖的框架，发现了语言模型之间的协作性，并通过使用多个高度竞争的基准测试，实现了最先进的 LLM 性能。

1 Introduction

大型语言模型（LLMs）近年来在自然语言理解和生成领域取得了显著进展。这些模型在大量数据上进行预训练，然后与人类偏好对齐，以生成有用和连贯的输出。然而，尽管有众多的LLMs和它们令人印象深刻的成就，它们仍然面临着模型大小和训练数据的固有限制。进一步扩大这些模型的规模异常昂贵，通常需要在数万亿个token上进行广泛的重新训练。

与此同时，不同的LLMs拥有独特的优势，并在各种任务方面专业化。例如，一些模型擅长于复杂指令的跟随，而其他模型可能更适合于代码生成。不同LLMs之间技能组合的多样性提出了一个有趣的问题：我们能否利用多个LLMs的集体专业知识来创建一个更强大、更稳健的模型？

我们对这个问题的答案是肯定。我们发现了一个我们称之为LLMs的协作性的本质现象——当一个LLM在呈现其他模型的输出时，即使这些其他模型本身能力较差，也倾向于生成更好的响应。图1展示了在AlpacaEval 2.0基准测试中，6个流行的LLMs的LC胜率提高的情况。
在这里插入图片描述

当模型被提供了其他模型独立生成的答案时，它们的LC胜率显著提高。这表明协作现象在LLMs中普遍存在。值得注意的是，即使其他模型提供的辅助响应质量低于单个LLM独立生成的响应，这种改进也会发生。

基于这一发现，本文介绍了一种Mixture-of-Agents（MoA）方法论，利用多个LLMs来迭代地提高生成质量。MoA的结构如图2所示。最初，第一层中的LLMs，记为代理A1,1 …A1,n，独立地对给定的提示生成响应。然后，这些响应被呈现给下一层的代理A2,1 …A2,n（这些代理可能重用了第一层的模型）进行进一步的改进。这种迭代细化过程持续进行几个周期，直到获得一个更加稳健和全面响应。
在这里插入图片描述
为了确保模型之间的有效协作并提高整体响应质量，为每个MoA层仔细选择LLM至关重要。该选择过程由两个主要标准指导：（a）性能指标：层中模型的平均胜率𝑖在决定它们是否适合包含在𝑖+1层中起着重要作用。因此，根据其已证明的性能指标选择模型可确保更高质量的输出。（b）多样性考虑因素：模型产出的多样性也至关重要。异构模型产生的响应比同一模型产生的反应贡献大得多。通过利用这些标准——性能和多样性——MoA旨在通过协作综合来缓解单个模型的不足，并提高整体响应质量。

我们使用AlpacaEval 2.0、MT Bench、FLASK基准进行综合评估，以评估各个维度的响应质量。结果表明，我们提出的方法有了实质性的改进，在AlpacaEval 2.0上实现了65.8%的新SOTA获胜率，而GPT-4 Omni之前实现了57.5%的最佳获胜率。

这项工作的贡献总结如下：（1）新颖的框架：提出了一个混合Agents框架，旨在利用多个LLM的优势，从而提高它们的推理和语言生成能力。（2）语言模型的协作性发现：我们强调了LLM之间的继承协作性，当模型能够访问其他模型的输出时，即使这些输出的质量较低，它们也倾向于生成质量更好的响应。（3）最先进的LLM性能：我们使用多个极具竞争力的基准进行了广泛的实验，如AlpacaEval 2.0、MT Bench和FLASK；我们的MoA框架在这些基准上实现了最先进的性能。

2 Mixture-of-Agents Methodology

在本节中介绍了我们提出的利用多个模型实现增强性能的方法论。我们首先展示了LLMs具有协作性，因此它们可以根据其他模型的输出改进自己的响应。在此之后，我们介绍了Mixture-of-Agents方法论，并讨论了其设计含义。

2.1 LLMs的协作性
首先展示了LLMs的协作性，特别是它们在能够引用其他模型的输出时生成更高质量响应的能力。正如我们在引言和图1中所示，许多现有的LLMs展示了这种协作能力。

从多个LLMs的协作中提取最大利益的一个重要途径是描述不同模型在协作的各个方面的优势。在协作过程中，我们可以将LLMs分为两个不同的角色：

提议者（Proposers）擅长生成其他模型使用的有用参考响应。一个好的提议者可能本身不一定会生成高分响应，但它应该提供更多的背景和多样化的视角，最终有助于通过聚合器使用时产生更好的最终响应。
聚合器（Aggregators）是精通于将其他模型的响应综合成单一高质量输出的模型。一个有效的聚合器即使在整合比自己的质量低的输入时也应该保持或提高输出质量。

第3.3节通过实证验证了聚合器和提议者的角色。具体来说，我们展示了许多LLMs既具备作为聚合器也具备作为提议者的能力，而某些模型在不同角色中表现出特殊的专业能力。GPT-4o、Qwen1.5、LLaMA-3作为多功能模型在协助和聚合任务中表现有效。相比之下，WizardLM作为提议者模型表现出色，但在将其他模型的响应聚合时却难以保持其有效性。

鉴于聚合器可以通过利用其他模型的输出生成更高质量的响应，我们提出通过引入额外的聚合器来进一步增强这种协作潜力。一个直观的想法是使用多个聚合器复制这个练习——最初使用几个聚合器聚合更好的答案，然后重新聚合这些聚合的答案。通过将更多的聚合器纳入过程中，我们可以迭代地综合和细化响应，利用多个模型的优势产生更好的结果。这导致了我们提出的Mixture-of-Agents的设计。

2.2 Mixture-of-Agents
MoA的结构如图2所示。它有l层，每层i由n个LLMs组成，记为Ai,1, Ai,2, …, Ai,n。需要注意的是，LLMs可以在同层或不同层中重用。当一层中的许多LLMs相同时，这种配置导致了一个特殊结构，即模型生成多个可能不同的输出（由于温度采样的随机性）。我们将此设置称为单提议者，其中只有少量模型被激活。

在这里，每个LLM Ai,j 处理一个输入文本并生成其续篇。我们的方法不需要任何微调，只使用LLMs的提示和生成接口。正式地，给定输入提示x1，第i层MoA的输出yi可以表示如下：
在这里插入图片描述
其中，+ 表示文本的连接；⊕ 表示应用表1所示的聚合和合成提示应用于这些模型输出。

表1提示：
您已经获得了来自各种开源模型的一组对最新用户查询的响应。您的任务是将这些响应综合成一个单一的、高质量的响应。批判性地评估这些回复中提供的信息至关重要，认识到其中一些信息可能存在偏见或不正确。您的回答不应简单地复制给定的答案，而应提供对说明的精致、准确和全面的回复。确保您的回复结构合理、连贯一致，并遵守准确性和可靠性的最高标准。

来自模型的回应：

[模型Ai,1的响应]
[模型Ai,2的响应]
……
n. [模型Ai,n的响应]

在实践中，我们不需要将提示和所有模型响应连接起来，所以在最后一层只需要使用一个LLM。因此，我们使用第l层的LLM的输出（Al,1(xl)）作为最终输出，并基于它评估指标。

2.3 与专家混合的类比
专家混合（MoE）是机器学习中一种著名且成熟的方法，其中多个专家网络专门用于不同的技能集。MoE方法由于其利用不同模型能力解决复杂问题的能力，在各种应用中显示出显著的成功。MoA方法从这种方法中汲取灵感。

一个典型的MoE设计由称为MoE层的层堆叠组成。每层包括一组n个专家网络以及一个门控网络，并包括改进梯度流的残差连接。正式地，对于第i层，这个设计可以表示为：
在这里插入图片描述
其中 Gi,j 表示对应专家j的门控网络的输出，Ei,j 表示专家网络j计算的函数。利用多个专家允许模型学习不同的技能集，并专注于手头任务的各个方面。

从高层次角度来看，我们提出的MoA框架通过在模型级别而不是激活级别上操作，将MoE概念扩展到模型级别。具体来说，我们的MoA方法利用LLMs，并且完全通过提示接口操作，而不需要修改内部激活或权重。这意味着，与MoE中的单个模型内具有专门子网络不同，我们在不同层中使用多个成熟的LLMs。请注意，在我们的方法中，我们使用LLMs整合了门控网络和专家网络的角色，因为LLMs的内在能力使它们能够通过解释提示和生成连贯的输出来有效地调节输入，而不需要外部协调机制。

此外，由于这种方法仅依赖于现成模型中固有的提示能力：(1) 它消除了微调所带来的计算开销；(2) 它提供了灵活性和可扩展性：我们的方法可以应用于最新的LLMs，无论其大小或架构如何。

3 Evaluation

简单看一下这章的主要内容：
1、基准测试：作者使用AlpacaEval 2.0、MT-Bench和FLASK等基准测试来评估提出的Mixture-of-Agents（MoA）方法。这些测试用于全面评估方法的性能，并与现有的最先进语言模型进行比较。

2、性能提升：MoA方法在AlpacaEval 2.0上取得了显著的性能提升，达到了新的最高胜率65.8%，相比之前的最佳模型GPT-4 Omni的57.5%有了显著提高。

3、模型配置：作者构建了默认的MoA配置，仅使用开源模型就实现了有竞争力的性能。MoA由三层组成，每层使用同一组模型，并且在最后一层使用Qwen1.5-110B-Chat作为聚合器。

4、变体：除了标准MoA，作者还开发了两个变体，MoA w/ GPT-4o和MoA-Lite。MoA w/ GPT-4o在最终MoA层使用GPT-4o作为聚合器，以优先考虑高质量的输出。MoA-Lite则更注重成本效益，使用较少的层数和较小的聚合器模型，尽管如此，它在AlpacaEval 2.0上的性能仍然比GPT-4 Omni高出1.8%。

5、结果：在AlpacaEval 2.0的详细结果中，MoA方法在排行榜上名列前茅，显示出比GPT-4o模型8.2%的绝对改进。MoA-Lite即使采用更轻量的方法，也实现了1.8%的质量提升。

6、MT-Bench和FLASK：在MT-Bench上，尽管改进幅度相对较小，但MoA方法仍然保持了领先地位。FLASK提供了更细粒度的评估，MoA在多个关键领域表现出显著的改进，尤其是在稳健性、正确性、效率、事实性、常识性、洞察力和完整性方面。

7、内部机制分析：作者进行了实验来更好地理解MoA的内部机制，包括模型如何利用其他模型的输出来生成更高质量的响应，以及聚合器如何有效地整合不同模型的输出。

8、成本和Token分析：作者还进行了预算和Token分析，以理解预算、Token使用和LC胜率之间的关系，并讨论了MoA方法的成本效益。

9、结论：MoA方法通过迭代聚合模型响应，利用多个代理的集体优势，显著提高了每个单独模型的输出质量。作者还讨论了MoA设计的改进方向，以及如何通过系统优化MoA架构来进一步提升性能。

10、局限性和更广泛的影响：作者指出MoA方法需要迭代聚合模型响应，可能导致高Time to First Token (TTFT)，影响用户体验。提出了减少MoA层数等解决方案，并讨论了提高模型解释性，更好地与人类推理对齐的潜力。
在这里插入图片描述
图3展示了FLASK评估结果，其中使用了6个提议者（proposer）的MoA（Mixture-of-Agents）设置，并且Qwen1.5-110B-Chat作为聚合器（aggregator）。FLASK是一个细粒度的评估工具，它可以从多个维度来评估语言模型的性能

什么使代理混合（Mixture-of-Agents）工作良好？

作者进行了实验，以便更好地理解Mixture-of-Agents（MoA）的内部机制。总结了以下关键见解：

MoA显著优于LLM排名器。首先，将MoA与基于LLM的排名器进行了比较，该排名器使用聚合器模型从提议者生成的答案中选择一个，而不是生成一个新的输出。结果显示MoA方法显著优于LLM排名器基线。MoA胜过排名方法的事实表明，聚合器不仅仅从提议者生成的答案中选择一个，而且可能对所有提议的生成进行了复杂的聚合。

MoA倾向于结合最佳提议答案。将聚合器的响应与提议者的响应通过相似性分数进行了比较，例如BLEU（Papineni等人，2002），这反映了n-gram的重叠。在每个样本中，给定提议者提出的n个答案，作者计算了n个相似性分数和GPT-4基础评估器确定的n个偏好分数之间的Spearman等级相关系数。图4中的结果确实证实了胜率和BLEU分数之间存在正相关。作者还提供了使用Levenshtein相似性（RapidFuzz，2023）或TF-IDF而不是BLEU分数的结果在附录A中，其中两种替代的文本相似性方法也与偏好分数产生了正相关。

模型多样性和提议者数量的影响。我们分析了提案数量如何影响最终输出质量，结果显示分数随着n单调增加，反映了拥有更多辅助信息的好处。此外，我们还量化了使用各种 LLM 作为提议者的影响。我们比较了两个设置：“single-proposer”，响应由同一 LLM 生成，其中温度为0.7; 以及“多提议者”，其中每个响应都由不同的 LLM 生成。总体而言，使用多个不同的 LLM 始终会产生更好的结果。这两个结果都表明，在每个 MoA 层中拥有更多不同的 LLM 代理可以提高性能。进一步扩大MoA的宽度是未来研究的一个有希望的方向。

模型在MoA生态系统中的专业化。我们还进行了实验，以确定哪些模型在特定角色中表现出色。具体来说，GPT-4o、Qwen、LLaMA-3作为在协助和聚合任务中都有效的多功能模型脱颖而出。相比之下，WizardLM作为提议者模型表现出色，但在从其他模型聚合响应时却难以保持其有效性。

4 Related Work

第4章是关于相关工作的讨论，它主要包含以下几个方面的内容：

1、LLM推理能力提升：介绍了近期研究如何通过提示工程（prompt engineering）来优化大型语言模型（LLMs）以适应各种下游任务。特别提到了Chain of Thought (CoT) 提示技术，这是一种线性问题解决方法，每个步骤都建立在前一个步骤之上。

2、自动化CoT提示：讨论了Auto-CoT方法，它通过采样多样化的问题并生成推理链来自动化CoT提示。

3、多步骤推理任务：提到了Fu等人将CoT应用于多步骤推理任务的工作，以及其他一些致力于提高LLMs推理能力的研究。

4、模型集成（Ensemble）：探讨了如何通过集成多个模型来提升性能，包括重新排名不同模型的输出以及训练一个路由器来预测给定输入下表现最佳的模型。

4、多代理协作：讨论了使用多个大型语言模型作为代理，通过互动讨论和集体推理来解决问题的研究。这包括了对称和非对称的讨论机制设计，以及加权投票等方法。

5、成本效益：讨论了如何减少使用LLMs的成本，包括采用不同模型的串行方式以及通过集成学习来利用不同模型的优势。

6、相关工作的比较：对上述方法与本文提出的MoA方法进行了比较，指出MoA方法的独特之处在于它利用了多个模型的集体优势，并通过迭代协作来显著提高输出质量。

结论：总结了MoA方法如何通过多样化的模型视角来实现比单一模型更优越的性能，并指出系统优化MoA架构是未来工作的一个有趣方向。

5 Conclusion

结论部分提出了以下几点：

1、MoA方法介绍：本文介绍了一种Mixture-of-Agents（MoA）方法，旨在通过迭代协作的不同阶段来利用多个大型语言模型（LLMs）的能力。该方法利用MoA家族中代理的集体优势，显著提高了每个单独模型的输出质量。

2、实证评估：在AlpacaEval 2.0、MT-Bench和FLASK上进行的实证评估表明，响应质量有了显著提高，其中MoA方法在LC（长度控制）胜率上达到了65%。

3、集成多样视角：这些发现验证了假设，即集成来自不同模型的多样化视角可以带来相比依赖单一模型更优越的性能。

4、MoA设计改进：提供了改进MoA设计见解；MoA架构的系统优化是未来工作的一个有趣方向。

5、局限性：文章提出的方法需要迭代聚合模型响应，这意味着模型不能在最后一层MoA达到之前决定第一个token。这可能导致较高的Time to First Token (TTFT)，可能负面影响用户体验。为了缓解这个问题，可以限制MoA层数，因为第一次响应聚合对生成质量有最显著的提升。未来的工作可以探索分块聚合而不是一次性聚合整个响应，这可以在保持响应质量的同时减少TTFT。

6、广泛影响：这项研究有潜力提高由LLM驱动的聊天助手的有效性，从而使AI更加易于访问。此外，由于中间输出以自然语言表示，MoA呈现的改进增强了模型的可解释性。这种增强的可解释性有助于更好地与人类推理对齐。

（欢迎关注公众号：老无谈藏书票）

这篇关于【论文阅读】MOA，《Mixture-of-Agents Enhances Large Language Model Capabilities》的文章就介绍到这儿，希望我们推荐的文章对编程师们有所帮助！