SIMA 可扩展可指导多世界代理 - Google DeepMind

2024-03-18 17:44

本文主要是介绍SIMA 可扩展可指导多世界代理 - Google DeepMind,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

2024-3-13

SIMA,Scalable Instructable Multiworld Agent,译为可扩展可指导多世界代理。

Blog:用于 3D 虚拟环境的 SIMA 通才 AI 代理 - Google DeepMind

https://deepmind.google/discover/blog/sima-generalist-ai-agent-for-3d-virtual-environments/

Paper:Scaling Instructable Agents Across Many Simulated Worlds.pdf (storage.googleapis.com)

By the SIMA Team 


Learning in Blog

Why SIMA appear?

视频游戏是人工智能 (AI) 系统的关键试验场。与现实世界一样,游戏是丰富的学习环境,具有响应迅速的实时设置和不断变化的目标。

SIMA Team宣布一个新的里程碑——将重点从单个游戏转移到一个通用的、可指导的游戏 AI 代理。

它是一种用于 3D 虚拟设置的通用 AI 代理。Google DeepMind与游戏开发商合作,对 SIMA 进行各种视频游戏的培训。这项研究标志着智能体首次证明它可以理解广泛的游戏世界,并遵循自然语言指令在其中执行任务,就像人类一样。

学会在各种游戏设置中遵循指令可以为任何环境解锁更有用的人工智能代理。SIMA Team希望SIMA和其他代理研究能够将视频游戏用作沙盒,以更好地了解AI系统如何变得更有用。

为了让SIMA接触到许多环境,我们与游戏开发商建立了许多合作关系,以进行研究。我们与八家游戏工作室合作,在九款不同的视频游戏上训练和测试了 SIMA,分别是Coffee Stain(《英灵神殿》、《满意》、《模拟山羊 3》)、Foulball Hangover(《Hydroneer》)、Hello Games(《无人深空》)、Keen Software House(《太空工程师》)、RubberbandGames(《摇摆不定的生活》)、Strange Loop Games(《生态》)和 Tuxedo Labs & Saber Interactive(《拆解》)

SIMA产品组合中的每款游戏都开辟了一个新的互动世界,包括一系列需要学习的技能,从简单的导航和菜单使用,到采矿资源、驾驶宇宙飞船或制作头盔。

SIMA Team同样使用了四个研究环境,包括用Unity构建的一个名为“建筑实验室”的新环境,智能体需要用积木构建雕塑,以测试他们的对象操作和对物理世界的直观理解。

SIMA包括预先训练的视觉模型,以及一个包含内存并输出键盘和鼠标操作的主模型

SIMA 是一种 AI 代理,可以感知和理解各种环境,然后采取行动来实现指示的目标。它包括一个专为精确图像语言映射而设计的模型和一个预测屏幕上接下来会发生什么的视频模型。我们根据SIMA产品组合中特定于3D设置的训练数据对这些模型进行了微调。

我们的 AI 代理不需要访问游戏的源代码,也不需要定制的 API。它只需要两个输入:屏幕上的图像用户提供的简单、自然的语言指令。SIMA使用键盘和鼠标输出来控制游戏的中心字符来执行这些指令。这个简单的界面是人类使用的,这意味着SIMA可以与任何虚拟环境进行交互

SIMA 的当前版本针对 600 项基本技能进行了评估,涵盖导航(例如“左转”)、对象交互(“爬梯子”)和菜单使用(“打开地图”)。SIMA Team已经训练 SIMA 执行可以在大约 10 秒内完成的简单任务。

SIMA Team表示:“希望我们未来的代理能够处理需要高级战略规划和多个子任务才能完成的任务,例如“寻找资源并建立营地”。总的来说,这是人工智能的一个重要目标,因为虽然大型语言模型已经产生了强大的系统,可以捕获有关世界的知识并生成计划,但它们目前缺乏代表我们采取行动的能力。 ”

跨游戏泛化

SIMA Team证明,一个受过许多游戏训练的代理比一个只学会了如何玩一个游戏的代理要好。在评估中,SIMA代理从SIMA Team的产品组合中训练了九个3D游戏,其表现明显优于所有专门针对每个游戏进行训练的专业代理。更重要的是,一个接受过除一款游戏以外的所有游戏训练的智能体平均而言,在这场看不见的游戏中的表现几乎与专门接受过该游戏训练的智能体一样好。重要的是,这种在全新环境中发挥作用的能力凸显了SIMA在培训之外的泛化能力。这是一个有希望的初步结果,但需要更多的研究才能使SIMA在看得见和看不见的游戏中发挥人类水平。

研究结果还表明,SIMA的性能依赖于语言,在对照测试中,智能体没有接受任何语言培训或指导,它的行为是适当但漫无目的的。例如,代理可能会收集资源,这是一种常见的行为,而不是走到它被指示去的地方。

我们评估了 SIMA 按照指示完成近 1500 个独特的游戏内任务的能力,部分使用人类裁判。作为我们的基线比较,我们使用环境专用 SIMA 代理的性能(经过训练和评估以在单个环境中遵循指令)。我们将这种性能与三种类型的通用 SIMA 代理进行了比较,每种代理都在多个环境中进行了训练。 

推进人工智能代理研究

SIMA的研究结果显示了开发新一波通用语言驱动的人工智能代理的潜力。这是早期研究,SIMA Team期待在更多的培训环境中进一步构建SIMA,并整合更多功能的模型。

随着向更多的培训领域展示SIMA,SIMA Team期望它变得越普遍和通用。通过更先进的模型,SIMA Team希望提高SIMA对更高层次语言指令的理解和能力,以实现更复杂的目标。

最终,SIMA Team的研究正在朝着更通用的人工智能系统和代理的方向发展,这些系统和代理能够理解并安全地执行各种任务,从而对在线和现实世界中的人们有所帮助。


Learning in Paper

摘要

论文介绍了一个名为“Scalable, Instructable, Multiworld Agent(SIMA)”的项目,旨在训练一个能够根据自由形式指令在各种虚拟三维环境中完成任务的智能体。该项目采用了一种通用的人类接口,即输入是图像观察和语言指令,输出是键盘和鼠标操作,以实现对多种复杂环境的理解和控制。该方法的目的是让智能体能够在任何模拟的三维环境中执行人类可以完成的任务,并且可以在不同的环境中进行测试。作者介绍了他们的动机、目标以及初步结果,在多个研究环境和商业视频游戏中都取得了积极的效果。


方法描述

该研究使用了两种类型的环境:商业视频游戏专门用于研究的人工智能环境作为训练数据,并利用人工智能技术来训练一个能够根据语言指令执行任务的智能体。这些环境提供了丰富的技能和挑战,使智能体能够在不同的情况下学习并执行各种任务。


方法改进

为了提高数据的质量,研究人员采用了多种数据收集方法,包括单人自由游戏、双人合作游戏等。在数据预处理阶段,他们还进行了过滤和重混,以突出最重要的学习经验。此外,研究人员还使用了多个预先训练好的模型,如SPARC和Phenaki,以进一步提高智能体的学习效果。


解决的问题

该研究旨在开发一种能够根据自然语言指令执行任务的智能体。通过使用多种游戏环境和预先训练好的模型,研究人员成功地训练了一个能够完成一系列任务的智能体。这项工作为未来的自然语言交互和人工智能应用提供了一种新的解决方案。

论文实验

谷歌的研究团队SIMA Team进行了对比实验,探索了将自然语言指令与虚拟环境中的行为相连接的方法。他们使用多个不同的游戏和模拟器来测试SIMA的性能。实验结果表明,SIMA能够在各种游戏中完成任务,但仍有改进的空间。作者还进行了零样本迁移学习的实验,结果显示,即使没有训练数据的情况下,SIMA仍然能够表现出一定的能力。最后,通过人类专家的评估,比较了SIMA和人类在特定任务上的表现,结果显示,人类玩家在这些任务上仅取得了60%的成功率,而SIMA则比人类表现更好。

总结

总的来说,本文展示了SIMA作为一种通用语言模型的潜力,并为未来的研究提供了参考。


 其他资料

SIMA学习游戏技能的过程是通过观察和记录人类玩家在游戏中的行为和他们的指令来进行的

DeepMind的团队记录了玩家之间的互动,例如一个玩家执行任务,而另一个玩家提供指导。这种方法使得SIMA能够理解语言指令与游戏玩法行为之间的联系,从而更好地执行基于自然语言的指令。

此外,SIMA包含了专为精确图像-语言映射设计的模型和预测屏幕后续变化的视频模型。这些模型经过针对SIMA所适用的3D环境的特定训练数据的优化。

未来展望

谷歌DeepMind展示了SIMA在多款游戏中接受训练后,在未见过的游戏中的表现几乎与专门针对那款游戏训练的Agent相同,这显示了SIMA超越其训练范围的泛化能力。随着研究的深入,我们可以期待SIMA在未来能够在更多领域发挥作用,从而更好地服务于人类社会。

这篇关于SIMA 可扩展可指导多世界代理 - Google DeepMind的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/823132

相关文章

iptables(7)扩展模块state

简介         前面文章我们已经介绍了一些扩展模块,如iprange、string、time、connlimit、limit,还有扩展匹配条件如--tcp-flags、icmp。这篇文章我们介绍state扩展模块  state          在 iptables 的上下文中,--state 选项并不是直接关联于一个扩展模块,而是与 iptables 的 state 匹配机制相关,特

【网络安全的神秘世界】搭建dvwa靶场

🌝博客主页:泥菩萨 💖专栏:Linux探索之旅 | 网络安全的神秘世界 | 专接本 | 每天学会一个渗透测试工具 下载DVWA https://github.com/digininja/DVWA/blob/master/README.zh.md 安装DVWA 安装phpstudy https://editor.csdn.net/md/?articleId=1399043

C语言入门系列:探秘二级指针与多级指针的奇妙世界

文章目录 一,指针的回忆杀1,指针的概念2,指针的声明和赋值3,指针的使用3.1 直接给指针变量赋值3.2 通过*运算符读写指针指向的内存3.2.1 读3.2.2 写 二,二级指针详解1,定义2,示例说明3,二级指针与一级指针、普通变量的关系3.1,与一级指针的关系3.2,与普通变量的关系,示例说明 4,二级指针的常见用途5,二级指针扩展到多级指针 小结 C语言的学习之旅中,二级

每日一练:攻防世界:5-1 MulTzor

一、XorTool 基于 XOR(异或)运算实现。它可以帮助您快速地对文本、二进制文件进行加密解密操作。 认识XorTool工具: 让我们先去认识一下工具: xortool.py 是基于 python 的脚本,用于完成一些 xor 分析,包括: 猜想 key 的长度 猜想 key 的值 解密一些经过 xoe 加密的文件 也就是说当遇到不知道文件类型的文件,可以尝试去看看它是否被xo

大型网站架构演化(六)——使用反向代理和CDN加速网站响应

随着网站业务不断发展,用户规模越来越大,由于中国复杂的网络环境,不同地区的用户访问网站时,速度差别也极大。有研究表明,网站访问延迟和用户流失率正相关,网站访问越慢,用户越容易失去耐心而离开。为了提供更好的用户体验,留住用户,网站需要加速网站访问速度。      主要手段:使用CDN和反向代理。如图。     使用CDN和反向代理的目的都是尽早返回数据给用户,一方面加快用户访问速

Spring 内部类获取不到@Value配置值问题排查(附Spring代理方式)

目录 一、实例问题 1、现象 2、原因 3、解决 二、Spring的代理模式 1、静态代理(Static Proxy) 1)原理 2)优缺点 3)代码实现 2、JDK动态代理(JDK Dynamic Proxy) 1)原理 2)优缺点 3)代码实现 3、cglib 代理(Code Generation Library Proxy) 1)原理 2)优缺点 3)代码实

Vue2配置前端代理

在8080向5000请求数据 cli+vue2 一、cli内配置前端代理 1、使用 发送请求时写8080 在配置文件中配置 vue.config.js  2、缺点 无法配置多个代理无法控制某个请求知否要代理  二、方式二 module.exports = {devServer: {proxy: {'/api1':{ //匹配所有以'/api1'开头的请求路径targe

Java代理-动态字节码生成代理的5种方式

上篇讲到了代理模式出现的原因,实现方式以及跟其他相似设计模式的区别。传送门@_@ http://blog.csdn.net/wonking666/article/details/79497547 1.静态代理的不足 设计模式里面的代理模式,代理类是需要手动去写的。但是手写代理的问题颇多 1.如果不同类型的目标对象需要执行同样一套代理的逻辑,比如说在方法调用前后打印参数和结果,那么仍然需要为每

google-自我插件

1. Bitwarden 密码管理器 2. React Developer Tools 3. Vue.js devtools 4. YouTube™ 双字幕 5. 沉浸式翻译 - 网页翻译插件 6. FeHelper(前端助手) 7. IDM Integration Module 8. Redux DevTools - Next 9. 待续…

google gemini1.5 flash视频图文理解能力初探(一)

市面能够对视频直接进行分析的大模型着实不多,而且很多支持多模态的大模型那效果着实也不好。 从这篇公众号不只是100万上下文,谷歌Gemini 1.5超强功能展示得知,Gemini 1.5可以一次性处理1小时的视频、11小时的音频或100,000行代码,并衍生出更多的数据分析玩法。能力覆盖: 跨模式理解和推理,当给出一部 44 分钟的巴斯特-基顿(Buster Keaton)无声电影时,该模型能准