探索可扩展指令式多世界代理(SIMA):谷歌DeepMind在通用游戏AI领域的新里程碑

本文主要是介绍探索可扩展指令式多世界代理(SIMA):谷歌DeepMind在通用游戏AI领域的新里程碑,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

  每周跟踪AI热点新闻动向和震撼发展 想要探索生成式人工智能的前沿进展吗?订阅我们的简报,深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同,从行业内部的深度分析和实用指南中受益。不要错过这个机会,成为AI领域的领跑者。点击订阅,与未来同行! 订阅:https://rengongzhineng.io/

在最新的科技研究领域,谷歌DeepMind团队推出了一项名为“可扩展指令式多世界代理”(Scalable Instructable Multiworld Agent,以下简称SIMA)的研究,这是一种能够根据自然语言指令在多种视频游戏设置中执行任务的代理。

视频游戏被视为人工智能(AI)系统的重要试验场。与现实世界类似,游戏提供了丰富的学习环境,其中包含了响应式的实时场景和不断变化的目标。

从谷歌DeepMind早期在雅达利游戏上的工作,到其AlphaStar系统在星际争霸II游戏中达到人类大师级水平,该团队在AI与游戏领域拥有长期的研究历史。

如今,谷歌DeepMind宣布了一个新的里程碑——其研究重点从针对单一游戏的研究转变为开发一个能够理解和执行多种游戏指令的通用AI代理。

在一份新的技术报告中,谷歌DeepMind团队介绍了“可扩展指令式多世界代理”,这是一种针对3D虚拟环境设计的通用AI代理。谷歌DeepMind与游戏开发商合作,训练SIMA在多种视频游戏中学习。这项研究首次证明了一种代理能够理解广泛的游戏世界,并能够根据自然语言指令在这些游戏世界中执行任务,如同人类可能做的那样。

该项工作的重点并不是在游戏中获得高分。对于AI系统而言,学会玩一个视频游戏本身就是一个技术挑战,但学会在多种游戏环境中根据指令执行任务可能会开启更多有用的AI代理,用于各种环境。该团队的研究展示了如何将先进AI模型的能力通过语言界面转化为实用的、现实世界中的行动。谷歌DeepMind希望,通过SIMA及其他代理的研究,可以利用视频游戏作为沙盒,更好地理解AI系统如何变得更加有益。

为了使SIMA接触到多样的环境,谷歌DeepMind与游戏开发商建立了合作伙伴关系。团队与八家游戏工作室合作,训练和测试SIMA在九种不同的视频游戏上,例如Hello Games的《无人深空》和Tuxedo Labs的《Teardown》。SIMA的投资组合中的每款游戏都开启了一个新的互动世界,其中包括从简单的导航和菜单使用到采矿资源、驾驶太空船或制作头盔等多种技能学习。

谷歌DeepMind还使用了四个研究环境,包括与Unity合作建立的一个名为建筑实验室的新环境,代理需要在此环境中从建筑块中构建雕塑,测试其物体操作和对物理世界的直观理解能力。

通过学习不同的游戏世界,SIMA能够理解语言与游戏行为之间的联系。谷歌DeepMind的首次尝试是记录其投资组合中游戏的人类玩家配对,其中一位玩家观察并指导另一位玩家。玩家还可以自由玩游戏,然后回顾他们的游戏行为,并记录下能够导致这些游戏行为的指令。

SIMA包括预训练的视觉模型和一个主模型,后者包含内存并输出键盘和鼠标动作。

作为一个多才多艺的AI代理,SIMA能够感知和理解多种环境,然后采取行动以实现指定的目标。它包括一个设计用于精确图像-语言映射的模型和一个视频模型,后者预测屏幕上接下来会发生什么。这些模型在特定于SIMA投资组合中的3D设置的训练数据上进行了微调。

谷歌DeepMind的AI代理不需要访问游戏的源代码或特定的API。它只需要两种输入:屏幕上的图像和用户提供的简单自然语言指令。SIMA使用键盘和鼠标输出来控制游戏的中心角色执行这些指令。这种简单的界面与人类使用的界面相同,意味着SIMA可以潜在地与任何虚拟环境进行交互。

SIMA当前版本在600个基本技能上进行了评估,包括导航(例如“向左转”)、物体交互(例如“爬梯子”)和菜单使用(例如“打开地图”)。谷歌DeepMind训练了SIMA执行可以在大约10秒内完成的简单任务。

谷歌DeepMind希望其未来的代理能够处理需要高级战略规划和完成多个子任务的任务,例如“找到资源并建立一个

营地”。这对于AI总体来说是一个重要的目标,因为尽管大型语言模型催生了强大的系统,这些系统可以捕获关于世界的知识并生成计划,但它们目前缺乏代表我们采取行动的能力。

在游戏和更多方面的泛化是谷歌DeepMind研究的重要部分。该团队展示了在多种游戏上训练的代理比只学会玩一个游戏的代理表现更好。在评估中,接受其投资组合中九款3D游戏训练的SIMA代理显著优于仅在每个单一游戏上训练的所有专业代理。更重要的是,除了一个游戏之外在所有游戏上训练的代理在那个未见过的游戏上的表现几乎与专门在其上训练的代理一样好,平均而言。这种在全新环境中正常工作的能力突出了SIMA的泛化能力。这是一个有希望的初步结果,然而,需要更多研究才能使SIMA在已知和未知的游戏中都能达到人类水平的表现。

谷歌DeepMind的结果还显示,SIMA的表现依赖于语言。在一个未给代理提供任何语言训练或指令的控制测试中,它以适当但无目的的方式行动。例如,一个代理可能会收集资源,这是一种频繁的行为,而不是按照指令行动。

谷歌DeepMind评估了SIMA遵循指令完成近1500个独特的游戏内任务的能力,部分使用人类评审。作为基线比较,该团队使用了环境专业的SIMA代理的表现(训练和评估以遵循单一环境内的指令)。这种表现与三种类型的通用SIMA代理进行了比较,每种都在多个环境中接受了训练。

推进AI代理研究是谷歌DeepMind的目标之一。SIMA的结果显示了开发一系列通用的、由语言驱动的AI代理的潜力。这是早期研究,该团队期待在更多训练环境中进一步构建SIMA,并整合更有能力的模型。

随着SIMA接触到更多训练世界,谷歌DeepMind预期它会变得更具泛化性和多才多艺。随着模型的进步,该团队希望提高SIMA对更高级语言指令的理解和行动能力,以实现更复杂的目标。

最终,谷歌DeepMind的研究旨在构建更通用的AI系统和代理,这些系统和代理可以理解并安全地执行广泛的任务,以一种对人类在线和现实世界有帮助的方式。

这篇关于探索可扩展指令式多世界代理(SIMA):谷歌DeepMind在通用游戏AI领域的新里程碑的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/820106

相关文章

使用Java实现通用树形结构构建工具类

《使用Java实现通用树形结构构建工具类》这篇文章主要为大家详细介绍了如何使用Java实现通用树形结构构建工具类,文中的示例代码讲解详细,感兴趣的小伙伴可以跟随小编一起学习一下... 目录完整代码一、设计思想与核心功能二、核心实现原理1. 数据结构准备阶段2. 循环依赖检测算法3. 树形结构构建4. 搜索子

基于Flask框架添加多个AI模型的API并进行交互

《基于Flask框架添加多个AI模型的API并进行交互》:本文主要介绍如何基于Flask框架开发AI模型API管理系统,允许用户添加、删除不同AI模型的API密钥,感兴趣的可以了解下... 目录1. 概述2. 后端代码说明2.1 依赖库导入2.2 应用初始化2.3 API 存储字典2.4 路由函数2.5 应

Nginx指令add_header和proxy_set_header的区别及说明

《Nginx指令add_header和proxy_set_header的区别及说明》:本文主要介绍Nginx指令add_header和proxy_set_header的区别及说明,具有很好的参考价... 目录Nginx指令add_header和proxy_set_header区别如何理解反向代理?proxy

Java常用注解扩展对比举例详解

《Java常用注解扩展对比举例详解》:本文主要介绍Java常用注解扩展对比的相关资料,提供了丰富的代码示例,并总结了最佳实践建议,帮助开发者更好地理解和应用这些注解,需要的朋友可以参考下... 目录一、@Controller 与 @RestController 对比二、使用 @Data 与 不使用 @Dat

Spring AI ectorStore的使用流程

《SpringAIectorStore的使用流程》SpringAI中的VectorStore是一种用于存储和检索高维向量数据的数据库或存储解决方案,它在AI应用中发挥着至关重要的作用,本文给大家介... 目录一、VectorStore的基本概念二、VectorStore的核心接口三、VectorStore的

Spring组件初始化扩展点BeanPostProcessor的作用详解

《Spring组件初始化扩展点BeanPostProcessor的作用详解》本文通过实战案例和常见应用场景详细介绍了BeanPostProcessor的使用,并强调了其在Spring扩展中的重要性,感... 目录一、概述二、BeanPostProcessor的作用三、核心方法解析1、postProcessB

Spring AI集成DeepSeek三步搞定Java智能应用的详细过程

《SpringAI集成DeepSeek三步搞定Java智能应用的详细过程》本文介绍了如何使用SpringAI集成DeepSeek,一个国内顶尖的多模态大模型,SpringAI提供了一套统一的接口,简... 目录DeepSeek 介绍Spring AI 是什么?Spring AI 的主要功能包括1、环境准备2

Spring AI集成DeepSeek实现流式输出的操作方法

《SpringAI集成DeepSeek实现流式输出的操作方法》本文介绍了如何在SpringBoot中使用Sse(Server-SentEvents)技术实现流式输出,后端使用SpringMVC中的S... 目录一、后端代码二、前端代码三、运行项目小天有话说题外话参考资料前面一篇文章我们实现了《Spring

Spring AI与DeepSeek实战一之快速打造智能对话应用

《SpringAI与DeepSeek实战一之快速打造智能对话应用》本文详细介绍了如何通过SpringAI框架集成DeepSeek大模型,实现普通对话和流式对话功能,步骤包括申请API-KEY、项目搭... 目录一、概述二、申请DeepSeek的API-KEY三、项目搭建3.1. 开发环境要求3.2. mav

C#集成DeepSeek模型实现AI私有化的流程步骤(本地部署与API调用教程)

《C#集成DeepSeek模型实现AI私有化的流程步骤(本地部署与API调用教程)》本文主要介绍了C#集成DeepSeek模型实现AI私有化的方法,包括搭建基础环境,如安装Ollama和下载DeepS... 目录前言搭建基础环境1、安装 Ollama2、下载 DeepSeek R1 模型客户端 ChatBo