Large Multimodal Agents: A Survey（大型多模态代理：综述）

本文主要是介绍Large Multimodal Agents: A Survey（大型多模态代理：综述），希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

大型语言模型（LLM）在支持基于文本的人工智能代理方面取得了卓越的性能，赋予它们类似于人类的决策和推理能力。与此同时，出现了一种新兴的研究趋势，重点是将这些由LLMs支持的人工智能代理扩展到多模式领域。此扩展使人工智能代理能够解释和响应不同的多模式用户查询，从而处理更复杂和细致的任务。论文 LLM 驱动的多模式代理进行了系统回顾，论文将其称为大型多模式代理（简称 LMA）。首先，论文介绍了开发 LMA 所涉及的 基本组成部分，并将当前的研究主体分为 四种类型。随后，论文审查了整合多个 LMA 的 协作框架，以提高集体效率。该领域的 关键挑战之一是现有研究中使用的 评估方法多种多样，阻碍了不同 LMA 之间的有效比较。因此，论文们编制了这些评估方法并建立了一个全面的框架来弥补差距。该框架旨在标准化评估，促进更有意义的比较。论文们强调了 LMA 的广泛应用，并提出了未来可能的研究方向。论文的讨论旨在为这个快速发展的领域的未来研究提供有价值的见解和指南。最新资源列表位于 https://github.com/jun0wanan/awesome-large-multimodal-agents。

1. Introduction

代理是一个能够感知其环境并根据这些感知做出决策以实现特定目标的系统[56]。虽然精通狭窄领域，但早期智能体 [35, 50] 往往缺乏适应性和泛化能力，凸显了与人类智能的显着差距。大型语言模型 (LLM) 的最新进展已经开始弥补这一差距，LLM 增强了命令解释、知识同化 [36, 78] 以及模仿人类推理和学习 [21, 66] 的能力。这些代理使用LLMs作为主要决策工具，并通过记忆等关键的类人功能得到进一步增强。这种增强功能使它们能够处理各种自然语言处理任务并使用语言与环境交互 [40, 38]。然而，现实世界的场景通常涉及超越文本的信息，涵盖多种模式，并且非常强调视觉方面。因此，LLM驱动的智能代理的下一个进化步骤是获得处理和处理的能力。生成多模态信息，特别是视觉数据。这种能力对于这些智能体演变成更强大的人工智能实体（反映人类水平的智能）至关重要。论文把配备此功能的智能体称为大型多模式智能体 (LMA)。通常，它们比仅使用语言的智能体面临更复杂的挑战。以网页搜索为例，LMA首先要求用户输入需求，通过搜索栏查找相关信息。随后，它通过鼠标点击导航到网页并滚动浏览实时网页内容。最后，LMA需要处理多模态数据（例如文本、视频和图像）并执行多步推理，包括从网络文章、视频报道和社交媒体更新中提取关键信息，并整合这些信息以响应用户的查询。现有的 LMA 研究是孤立进行的，因此有必要通过总结和比较现有框架来进一步推进该领域的发展。有几项与LLMs支持的代理相关的调查[60,42,49]，但很少有关注多模式方面的调查。

论文旨在通过总结 LMA 的主要发展来填补这一空白。首先，论文介绍核心组成部分（§2），并为现有研究提出新的分类法（§3），并进一步讨论现有的协作框架（§4）。关于评估，论文概述了评估 LMA 绩效的现有方法，进行了全面总结（§5）。然后，应用部分详尽概述了多模式代理及其相关任务的广泛现实应用（§6）。论文通过讨论和建议 LMA 未来可能的方向来结束这项工作，以提供有用的研究指导。

2. LMAS的核心组件

在这里插入图片描述

3. LMAS的四种类型

在这里插入图片描述

4. 多代理协作

在这里插入图片描述

5. 评估

主观评估：主要是指利用人类来评估这些LMA的能力。由于最终目标是创建一个能够像人类一样理解世界并自主执行各种任务的LMA，因此采用人类用户对 LMA 能力的主观评估至关重要。主要评价指标包括多功能性、用户友好性、可扩展性、价值和安全性。
多功能性：多功能性表示 LMA 熟练利用不同工具、执行物理和虚拟操作以及管理各种任务的能力。 [30]建议比较现有 LMA 中使用的工具的规模和类型，并评估其能力的多样性。
用户友好性：用户友好性涉及用户对 LMA 完成的任务结果的满意度，包括结果的效率、准确性和丰富性。这种类型的评估是相对主观的。在[64]中，LMA 的人工评估对于精确评估其解释和执行用户指令的有效性至关重要。
可扩展性：可扩展性从根本上评估 LMA 吸收新能力和应对新挑战的能力。鉴于人类需求的动态性，必须严格评估 LMA 的适应性和终身学习潜力。例如，[23]中的评估重点关注智能体使用以前未见过的工具完成任务的熟练程度。
价值和安全：除了前面提到的指标之外，“价值和安全”指标在确定代理对人类用户的实际意义和安全性方面发挥着关键作用。虽然当前许多评估忽略了这一指标，但有必要考虑 LMA 的“价值和安全性”。与语言智能体相比，LMA 可以处理更广泛的任务类别，这使得它们遵循与人类社会价值观一致的伦理和道德原则变得更加重要。

客观评价：不同于主观评价，它依靠定量指标来全面、系统、规范地评估LMA的能力。它是目前多模态智能体研究中采用最广泛的评价方法。
指标：指标在客观评估中发挥着至关重要的作用。在当前的多模式代理研究中[43,70,9,71,12,57,30]，采用了特定的任务相关指标，例如代理在视觉问答（VQA）等任务中生成的答案的准确性[10 ，43]。然而，在LLMs出现之前建立的传统任务指标在评估LLMs驱动的LMA方面并不够有效。因此，越来越多的研究工作致力于确定更合适的评估指标。例如，在 VisualWebArena [16] 中，设计了一个专门的评估指标来评估 LMA 在处理视觉引导任务方面的性能。这包括测量代理对网页内容的视觉理解的准确性，例如识别和利用由标记集标记的可交互元素进行操作的能力，以及根据任务目标实现状态转换的能力，如手动设计的奖励函数所定义的。此外，它还包括对特定视觉场景问题的响应的准确性以及基于视觉信息执行的动作的一致性。
基准： Benchmark 代表一个测试环境，包含一套评估标准、数据集和任务。它用于评估和比较不同算法或系统的性能。与传统任务的基准[30,12,57,23]相比，SmartPlay[58]利用一组精心设计的游戏来全面衡量LMA的各种能力，为每种能力建立详细的评估指标和挑战级别。与使用游戏来评估的方法相比，GAIA [34]开发了一个包含 466 个问题及其答案的测试集。这些问题要求人工智能系统具备一系列基本能力，例如推理、处理多模态信息、网络导航和熟练的工具使用。与当前为人类创造越来越困难的任务的趋势不同，它侧重于现有先进人工智能系统概念上简单但具有挑战性的问题。这些问题涉及现实场景，需要精确执行复杂的操作序列，并且输出易于验证。同样，VisualWebArena [16] 是一个基准测试套件，旨在评估和提高 LMA 在真实网页上处理视觉和文本理解任务的能力。还有其他基准[31, 61]有效地测试了代理的能力。