Large Multimodal Agents: A Survey(大型多模态代理:综述)

2024-03-19 01:28

本文主要是介绍Large Multimodal Agents: A Survey(大型多模态代理:综述),希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

目录

  • 1. Introduction
  • 2. LMAS的核心组件
  • 3. LMAS的四种类型
  • 4. 多代理协作
  • 5. 评估
  • 6. 应用

大型语言模型(LLM)在支持基于文本的人工智能代理方面取得了卓越的性能,赋予它们类似于人类的决策和推理能力。与此同时,出现了一种新兴的研究趋势,重点是将这些由LLMs支持的人工智能代理扩展到多模式领域。此扩展使人工智能代理能够解释和响应不同的多模式用户查询,从而处理更复杂和细致的任务。论文 LLM 驱动的多模式代理进行了系统回顾,论文将其称为大型多模式代理(简称 LMA)。首先,论文介绍了开发 LMA 所涉及的 基本组成部分,并将当前的研究主体分为 四种类型。随后,论文审查了整合多个 LMA 的 协作框架,以提高集体效率。该领域的 关键挑战之一是现有研究中使用的 评估方法多种多样,阻碍了不同 LMA 之间的有效比较。因此,论文们编制了这些评估方法并建立了一个全面的框架来弥补差距。该框架旨在标准化评估,促进更有意义的比较。论文们强调了 LMA 的广泛应用,并提出了未来可能的研究方向。论文的讨论旨在为这个快速发展的领域的未来研究提供有价值的见解和指南。最新资源列表位于 https://github.com/jun0wanan/awesome-large-multimodal-agents。

1. Introduction

代理是一个能够感知其环境并根据这些感知做出决策以实现特定目标的系统[56]。虽然精通狭窄领域,但早期智能体 [35, 50] 往往缺乏适应性和泛化能力,凸显了与人类智能的显着差距。大型语言模型 (LLM) 的最新进展已经开始弥补这一差距,LLM 增强了命令解释、知识同化 [36, 78] 以及模仿人类推理和学习 [21, 66] 的能力。这些代理使用LLMs作为主要决策工具,并通过记忆等关键的类人功能得到进一步增强。这种增强功能使它们能够处理各种自然语言处理任务并使用语言与环境交互 [40, 38]。然而,现实世界的场景通常涉及超越文本的信息,涵盖多种模式,并且非常强调视觉方面。因此,LLM驱动的智能代理的下一个进化步骤是获得处理和处理的能力。生成多模态信息,特别是视觉数据。这种能力对于这些智能体演变成更强大的人工智能实体(反映人类水平的智能)至关重要。论文把配备此功能的智能体称为大型多模式智能体 (LMA)。 通常,它们比仅使用语言的智能体面临更复杂的挑战。以网页搜索为例,LMA首先要求用户输入需求,通过搜索栏查找相关信息。随后,它通过鼠标点击导航到网页并滚动浏览实时网页内容。最后,LMA需要处理多模态数据(例如文本、视频和图像)并执行多步推理,包括从网络文章、视频报道和社交媒体更新中提取关键信息,并整合这些信息以响应用户的查询。现有的 LMA 研究是孤立进行的,因此有必要通过总结和比较现有框架来进一步推进该领域的发展。有几项与LLMs支持的代理相关的调查[60,42,49],但很少有关注多模式方面的调查。

论文旨在通过总结 LMA 的主要发展来填补这一空白。首先,论文介绍核心组成部分(§2),并为现有研究提出新的分类法(§3),并进一步讨论现有的协作框架(§4)。关于评估,论文概述了评估 LMA 绩效的现有方法,进行了全面总结(§5)。然后,应用部分详尽概述了多模式代理及其相关任务的广泛现实应用(§6)。论文通过讨论和建议 LMA 未来可能的方向来结束这项工作,以提供有用的研究指导。

2. LMAS的核心组件

在这里插入图片描述

3. LMAS的四种类型

在这里插入图片描述

4. 多代理协作

在这里插入图片描述
在这里插入图片描述

5. 评估

主观评估:主要是指利用人类来评估这些LMA的能力。由于最终目标是创建一个能够像人类一样理解世界并自主执行各种任务的LMA,因此采用人类用户对 LMA 能力的主观评估至关重要。主要评价指标包括多功能性、用户友好性、可扩展性、价值和安全性
多功能性:多功能性表示 LMA 熟练利用不同工具、执行物理和虚拟操作以及管理各种任务的能力。 [30]建议比较现有 LMA 中使用的工具的规模和类型,并评估其能力的多样性。
用户友好性:用户友好性涉及用户对 LMA 完成的任务结果的满意度,包括结果的效率、准确性和丰富性。这种类型的评估是相对主观的。在[64]中,LMA 的人工评估对于精确评估其解释和执行用户指令的有效性至关重要。
可扩展性:可扩展性从根本上评估 LMA 吸收新能力和应对新挑战的能力。鉴于人类需求的动态性,必须严格评估 LMA 的适应性和终身学习潜力。例如,[23]中的评估重点关注智能体使用以前未见过的工具完成任务的熟练程度。
价值和安全:除了前面提到的指标之外,“价值和安全”指标在确定代理对人类用户的实际意义和安全性方面发挥着关键作用。虽然当前许多评估忽略了这一指标,但有必要考虑 LMA 的“价值和安全性”。与语言智能体相比,LMA 可以处理更广泛的任务类别,这使得它们遵循与人类社会价值观一致的伦理和道德原则变得更加重要。

客观评价:不同于主观评价,它依靠定量指标来全面、系统、规范地评估LMA的能力。它是目前多模态智能体研究中采用最广泛的评价方法。
指标:指标在客观评估中发挥着至关重要的作用。在当前的多模式代理研究中[43,70,9,71,12,57,30],采用了特定的任务相关指标,例如代理在视觉问答(VQA)等任务中生成的答案的准确性[10 ,43]。然而,在LLMs出现之前建立的传统任务指标在评估LLMs驱动的LMA方面并不够有效。因此,越来越多的研究工作致力于确定更合适的评估指标。例如,在 VisualWebArena [16] 中,设计了一个专门的评估指标来评估 LMA 在处理视觉引导任务方面的性能。这包括测量代理对网页内容的视觉理解的准确性,例如识别和利用由标记集标记的可交互元素进行操作的能力,以及根据任务目标实现状态转换的能力,如手动设计的奖励函数所定义的。此外,它还包括对特定视觉场景问题的响应的准确性以及基于视觉信息执行的动作的一致性。
基准: Benchmark 代表一个测试环境,包含一套评估标准、数据集和任务。它用于评估和比较不同算法或系统的性能。与传统任务的基准[30,12,57,23]相比,SmartPlay[58]利用一组精心设计的游戏来全面衡量LMA的各种能力,为每种能力建立详细的评估指标和挑战级别。与使用游戏来评估的方法相比,GAIA [34]开发了一个包含 466 个问题及其答案的测试集。这些问题要求人工智能系统具备一系列基本能力,例如推理、处理多模态信息、网络导航和熟练的工具使用。与当前为人类创造越来越困难的任务的趋势不同,它侧重于现有先进人工智能系统概念上简单但具有挑战性的问题。这些问题涉及现实场景,需要精确执行复杂的操作序列,并且输出易于验证。同样,VisualWebArena [16] 是一个基准测试套件,旨在评估和提高 LMA 在真实网页上处理视觉和文本理解任务的能力。还有其他基准[31, 61]有效地测试了代理的能力。

6. 应用

在这里插入图片描述

这篇关于Large Multimodal Agents: A Survey(大型多模态代理:综述)的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/824359

相关文章

Python实现高效地读写大型文件

《Python实现高效地读写大型文件》Python如何读写的是大型文件,有没有什么方法来提高效率呢,这篇文章就来和大家聊聊如何在Python中高效地读写大型文件,需要的可以了解下... 目录一、逐行读取大型文件二、分块读取大型文件三、使用 mmap 模块进行内存映射文件操作(适用于大文件)四、使用 pand

高效+灵活,万博智云全球发布AWS无代理跨云容灾方案!

摘要 近日,万博智云推出了基于AWS的无代理跨云容灾解决方案,并与拉丁美洲,中东,亚洲的合作伙伴面向全球开展了联合发布。这一方案以AWS应用环境为基础,将HyperBDR平台的高效、灵活和成本效益优势与无代理功能相结合,为全球企业带来实现了更便捷、经济的数据保护。 一、全球联合发布 9月2日,万博智云CEO Michael Wong在线上平台发布AWS无代理跨云容灾解决方案的阐述视频,介绍了

在JS中的设计模式的单例模式、策略模式、代理模式、原型模式浅讲

1. 单例模式(Singleton Pattern) 确保一个类只有一个实例,并提供一个全局访问点。 示例代码: class Singleton {constructor() {if (Singleton.instance) {return Singleton.instance;}Singleton.instance = this;this.data = [];}addData(value)

透彻!驯服大型语言模型(LLMs)的五种方法,及具体方法选择思路

引言 随着时间的发展,大型语言模型不再停留在演示阶段而是逐步面向生产系统的应用,随着人们期望的不断增加,目标也发生了巨大的变化。在短短的几个月的时间里,人们对大模型的认识已经从对其zero-shot能力感到惊讶,转变为考虑改进模型质量、提高模型可用性。 「大语言模型(LLMs)其实就是利用高容量的模型架构(例如Transformer)对海量的、多种多样的数据分布进行建模得到,它包含了大量的先验

论文翻译:arxiv-2024 Benchmark Data Contamination of Large Language Models: A Survey

Benchmark Data Contamination of Large Language Models: A Survey https://arxiv.org/abs/2406.04244 大规模语言模型的基准数据污染:一项综述 文章目录 大规模语言模型的基准数据污染:一项综述摘要1 引言 摘要 大规模语言模型(LLMs),如GPT-4、Claude-3和Gemini的快

proxy代理解决vue中跨域问题

vue.config.js module.exports = {...// webpack-dev-server 相关配置devServer: {host: '0.0.0.0',port: port,open: true,proxy: {'/api': {target: `https://vfadmin.insistence.tech/prod-api`,changeOrigin: true,p

LLM系列 | 38:解读阿里开源语音多模态模型Qwen2-Audio

引言 模型概述 模型架构 训练方法 性能评估 实战演示 总结 引言 金山挂月窥禅径,沙鸟听经恋法门。 小伙伴们好,我是微信公众号《小窗幽记机器学习》的小编:卖铁观音的小男孩,今天这篇小作文主要是介绍阿里巴巴的语音多模态大模型Qwen2-Audio。近日,阿里巴巴Qwen团队发布了最新的大规模音频-语言模型Qwen2-Audio及其技术报告。该模型在音频理解和多模态交互

kaggle竞赛宝典 | Mamba模型综述!

本文来源公众号“kaggle竞赛宝典”,仅用于学术分享,侵权删,干货满满。 原文链接:Mamba模型综述! 型语言模型(LLMs),成为深度学习的基石。尽管取得了令人瞩目的成就,Transformers仍面临固有的局限性,尤其是在推理时,由于注意力计算的平方复杂度,导致推理过程耗时较长。 最近,一种名为Mamba的新型架构应运而生,其灵感源自经典的状态空间模型,成为构建基础模型的有力替代方案

Linux如何做ssh反向代理

SSH反向代理是一种通过SSH协议实现的安全远程访问方式,它允许客户端通过SSH连接到一台具有公网IP的代理服务器,然后这台代理服务器再将请求转发给内部网络中的目标主机。以下是实现SSH反向代理的步骤: 一、准备工作 确保服务器配置: 内网服务器(目标主机)和外网服务器(代理服务器)都安装了SSH服务,并且能够通过SSH进行互相访问。内网服务器上的服务(如Web服务、数据库服务等)需要在本地

将你的github仓库设置为web代理

将你的github仓库设置为web代理 废话不多说,直接上步骤 废话不多说,直接上步骤 创建一个仓库,上传静态web。 2. 设置仓库的 page 1)点击 “Settings” 如图设置