SIMA 可扩展可指导多世界代理 - Google DeepMind

2024-03-18 17:44

本文主要是介绍SIMA 可扩展可指导多世界代理 - Google DeepMind,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

2024-3-13

SIMA,Scalable Instructable Multiworld Agent,译为可扩展可指导多世界代理。

Blog:用于 3D 虚拟环境的 SIMA 通才 AI 代理 - Google DeepMind

https://deepmind.google/discover/blog/sima-generalist-ai-agent-for-3d-virtual-environments/

Paper:Scaling Instructable Agents Across Many Simulated Worlds.pdf (storage.googleapis.com)

By the SIMA Team 


Learning in Blog

Why SIMA appear?

视频游戏是人工智能 (AI) 系统的关键试验场。与现实世界一样,游戏是丰富的学习环境,具有响应迅速的实时设置和不断变化的目标。

SIMA Team宣布一个新的里程碑——将重点从单个游戏转移到一个通用的、可指导的游戏 AI 代理。

它是一种用于 3D 虚拟设置的通用 AI 代理。Google DeepMind与游戏开发商合作,对 SIMA 进行各种视频游戏的培训。这项研究标志着智能体首次证明它可以理解广泛的游戏世界,并遵循自然语言指令在其中执行任务,就像人类一样。

学会在各种游戏设置中遵循指令可以为任何环境解锁更有用的人工智能代理。SIMA Team希望SIMA和其他代理研究能够将视频游戏用作沙盒,以更好地了解AI系统如何变得更有用。

为了让SIMA接触到许多环境,我们与游戏开发商建立了许多合作关系,以进行研究。我们与八家游戏工作室合作,在九款不同的视频游戏上训练和测试了 SIMA,分别是Coffee Stain(《英灵神殿》、《满意》、《模拟山羊 3》)、Foulball Hangover(《Hydroneer》)、Hello Games(《无人深空》)、Keen Software House(《太空工程师》)、RubberbandGames(《摇摆不定的生活》)、Strange Loop Games(《生态》)和 Tuxedo Labs & Saber Interactive(《拆解》)

SIMA产品组合中的每款游戏都开辟了一个新的互动世界,包括一系列需要学习的技能,从简单的导航和菜单使用,到采矿资源、驾驶宇宙飞船或制作头盔。

SIMA Team同样使用了四个研究环境,包括用Unity构建的一个名为“建筑实验室”的新环境,智能体需要用积木构建雕塑,以测试他们的对象操作和对物理世界的直观理解。

SIMA包括预先训练的视觉模型,以及一个包含内存并输出键盘和鼠标操作的主模型

SIMA 是一种 AI 代理,可以感知和理解各种环境,然后采取行动来实现指示的目标。它包括一个专为精确图像语言映射而设计的模型和一个预测屏幕上接下来会发生什么的视频模型。我们根据SIMA产品组合中特定于3D设置的训练数据对这些模型进行了微调。

我们的 AI 代理不需要访问游戏的源代码,也不需要定制的 API。它只需要两个输入:屏幕上的图像用户提供的简单、自然的语言指令。SIMA使用键盘和鼠标输出来控制游戏的中心字符来执行这些指令。这个简单的界面是人类使用的,这意味着SIMA可以与任何虚拟环境进行交互

SIMA 的当前版本针对 600 项基本技能进行了评估,涵盖导航(例如“左转”)、对象交互(“爬梯子”)和菜单使用(“打开地图”)。SIMA Team已经训练 SIMA 执行可以在大约 10 秒内完成的简单任务。

SIMA Team表示:“希望我们未来的代理能够处理需要高级战略规划和多个子任务才能完成的任务,例如“寻找资源并建立营地”。总的来说,这是人工智能的一个重要目标,因为虽然大型语言模型已经产生了强大的系统,可以捕获有关世界的知识并生成计划,但它们目前缺乏代表我们采取行动的能力。 ”

跨游戏泛化

SIMA Team证明,一个受过许多游戏训练的代理比一个只学会了如何玩一个游戏的代理要好。在评估中,SIMA代理从SIMA Team的产品组合中训练了九个3D游戏,其表现明显优于所有专门针对每个游戏进行训练的专业代理。更重要的是,一个接受过除一款游戏以外的所有游戏训练的智能体平均而言,在这场看不见的游戏中的表现几乎与专门接受过该游戏训练的智能体一样好。重要的是,这种在全新环境中发挥作用的能力凸显了SIMA在培训之外的泛化能力。这是一个有希望的初步结果,但需要更多的研究才能使SIMA在看得见和看不见的游戏中发挥人类水平。

研究结果还表明,SIMA的性能依赖于语言,在对照测试中,智能体没有接受任何语言培训或指导,它的行为是适当但漫无目的的。例如,代理可能会收集资源,这是一种常见的行为,而不是走到它被指示去的地方。

我们评估了 SIMA 按照指示完成近 1500 个独特的游戏内任务的能力,部分使用人类裁判。作为我们的基线比较,我们使用环境专用 SIMA 代理的性能(经过训练和评估以在单个环境中遵循指令)。我们将这种性能与三种类型的通用 SIMA 代理进行了比较,每种代理都在多个环境中进行了训练。 

推进人工智能代理研究

SIMA的研究结果显示了开发新一波通用语言驱动的人工智能代理的潜力。这是早期研究,SIMA Team期待在更多的培训环境中进一步构建SIMA,并整合更多功能的模型。

随着向更多的培训领域展示SIMA,SIMA Team期望它变得越普遍和通用。通过更先进的模型,SIMA Team希望提高SIMA对更高层次语言指令的理解和能力,以实现更复杂的目标。

最终,SIMA Team的研究正在朝着更通用的人工智能系统和代理的方向发展,这些系统和代理能够理解并安全地执行各种任务,从而对在线和现实世界中的人们有所帮助。


Learning in Paper

摘要

论文介绍了一个名为“Scalable, Instructable, Multiworld Agent(SIMA)”的项目,旨在训练一个能够根据自由形式指令在各种虚拟三维环境中完成任务的智能体。该项目采用了一种通用的人类接口,即输入是图像观察和语言指令,输出是键盘和鼠标操作,以实现对多种复杂环境的理解和控制。该方法的目的是让智能体能够在任何模拟的三维环境中执行人类可以完成的任务,并且可以在不同的环境中进行测试。作者介绍了他们的动机、目标以及初步结果,在多个研究环境和商业视频游戏中都取得了积极的效果。


方法描述

该研究使用了两种类型的环境:商业视频游戏专门用于研究的人工智能环境作为训练数据,并利用人工智能技术来训练一个能够根据语言指令执行任务的智能体。这些环境提供了丰富的技能和挑战,使智能体能够在不同的情况下学习并执行各种任务。


方法改进

为了提高数据的质量,研究人员采用了多种数据收集方法,包括单人自由游戏、双人合作游戏等。在数据预处理阶段,他们还进行了过滤和重混,以突出最重要的学习经验。此外,研究人员还使用了多个预先训练好的模型,如SPARC和Phenaki,以进一步提高智能体的学习效果。


解决的问题

该研究旨在开发一种能够根据自然语言指令执行任务的智能体。通过使用多种游戏环境和预先训练好的模型,研究人员成功地训练了一个能够完成一系列任务的智能体。这项工作为未来的自然语言交互和人工智能应用提供了一种新的解决方案。

论文实验

谷歌的研究团队SIMA Team进行了对比实验,探索了将自然语言指令与虚拟环境中的行为相连接的方法。他们使用多个不同的游戏和模拟器来测试SIMA的性能。实验结果表明,SIMA能够在各种游戏中完成任务,但仍有改进的空间。作者还进行了零样本迁移学习的实验,结果显示,即使没有训练数据的情况下,SIMA仍然能够表现出一定的能力。最后,通过人类专家的评估,比较了SIMA和人类在特定任务上的表现,结果显示,人类玩家在这些任务上仅取得了60%的成功率,而SIMA则比人类表现更好。

总结

总的来说,本文展示了SIMA作为一种通用语言模型的潜力,并为未来的研究提供了参考。


 其他资料

SIMA学习游戏技能的过程是通过观察和记录人类玩家在游戏中的行为和他们的指令来进行的

DeepMind的团队记录了玩家之间的互动,例如一个玩家执行任务,而另一个玩家提供指导。这种方法使得SIMA能够理解语言指令与游戏玩法行为之间的联系,从而更好地执行基于自然语言的指令。

此外,SIMA包含了专为精确图像-语言映射设计的模型和预测屏幕后续变化的视频模型。这些模型经过针对SIMA所适用的3D环境的特定训练数据的优化。

未来展望

谷歌DeepMind展示了SIMA在多款游戏中接受训练后,在未见过的游戏中的表现几乎与专门针对那款游戏训练的Agent相同,这显示了SIMA超越其训练范围的泛化能力。随着研究的深入,我们可以期待SIMA在未来能够在更多领域发挥作用,从而更好地服务于人类社会。

这篇关于SIMA 可扩展可指导多世界代理 - Google DeepMind的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/823132

相关文章

高效+灵活,万博智云全球发布AWS无代理跨云容灾方案!

摘要 近日,万博智云推出了基于AWS的无代理跨云容灾解决方案,并与拉丁美洲,中东,亚洲的合作伙伴面向全球开展了联合发布。这一方案以AWS应用环境为基础,将HyperBDR平台的高效、灵活和成本效益优势与无代理功能相结合,为全球企业带来实现了更便捷、经济的数据保护。 一、全球联合发布 9月2日,万博智云CEO Michael Wong在线上平台发布AWS无代理跨云容灾解决方案的阐述视频,介绍了

csu 1446 Problem J Modified LCS (扩展欧几里得算法的简单应用)

这是一道扩展欧几里得算法的简单应用题,这题是在湖南多校训练赛中队友ac的一道题,在比赛之后请教了队友,然后自己把它a掉 这也是自己独自做扩展欧几里得算法的题目 题意:把题意转变下就变成了:求d1*x - d2*y = f2 - f1的解,很明显用exgcd来解 下面介绍一下exgcd的一些知识点:求ax + by = c的解 一、首先求ax + by = gcd(a,b)的解 这个

揭秘世界上那些同时横跨两大洲的国家

我们在《世界人口过亿的一级行政区分布》盘点全球是那些人口过亿的一级行政区。 现在我们介绍五个横跨两州的国家,并整理七大洲和这些国家的KML矢量数据分析分享给大家,如果你需要这些数据,请在文末查看领取方式。 世界上横跨两大洲的国家 地球被分为七个大洲分别是亚洲、欧洲、北美洲、南美洲、非洲、大洋洲和南极洲。 七大洲示意图 其中,南极洲是无人居住的大陆,而其他六个大洲则孕育了众多国家和

在JS中的设计模式的单例模式、策略模式、代理模式、原型模式浅讲

1. 单例模式(Singleton Pattern) 确保一个类只有一个实例,并提供一个全局访问点。 示例代码: class Singleton {constructor() {if (Singleton.instance) {return Singleton.instance;}Singleton.instance = this;this.data = [];}addData(value)

科研绘图系列:R语言扩展物种堆积图(Extended Stacked Barplot)

介绍 R语言的扩展物种堆积图是一种数据可视化工具,它不仅展示了物种的堆积结果,还整合了不同样本分组之间的差异性分析结果。这种图形表示方法能够直观地比较不同物种在各个分组中的显著性差异,为研究者提供了一种有效的数据解读方式。 加载R包 knitr::opts_chunk$set(warning = F, message = F)library(tidyverse)library(phyl

Spring框架5 - 容器的扩展功能 (ApplicationContext)

private static ApplicationContext applicationContext;static {applicationContext = new ClassPathXmlApplicationContext("bean.xml");} BeanFactory的功能扩展类ApplicationContext进行深度的分析。ApplicationConext与 BeanF

消除安卓SDK更新时的“https://dl-ssl.google.com refused”异常的方法

消除安卓SDK更新时的“https://dl-ssl.google.com refused”异常的方法   消除安卓SDK更新时的“https://dl-ssl.google.com refused”异常的方法 [转载]原地址:http://blog.csdn.net/x605940745/article/details/17911115 消除SDK更新时的“

理解分类器(linear)为什么可以做语义方向的指导?(解纠缠)

Attribute Manipulation(属性编辑)、disentanglement(解纠缠)常用的两种做法:线性探针和PCA_disentanglement和alignment-CSDN博客 在解纠缠的过程中,有一种非常简单的方法来引导G向某个方向进行生成,然后我们通过向不同的方向进行行走,那么就会得到这个属性上的图像。那么你利用多个方向进行生成,便得到了各种方向的图像,每个方向对应了很多

proxy代理解决vue中跨域问题

vue.config.js module.exports = {...// webpack-dev-server 相关配置devServer: {host: '0.0.0.0',port: port,open: true,proxy: {'/api': {target: `https://vfadmin.insistence.tech/prod-api`,changeOrigin: true,p

PHP7扩展开发之数组处理

前言 这次,我们将演示如何在PHP扩展中如何对数组进行处理。要实现的PHP代码如下: <?phpfunction array_concat ($arr, $prefix) {foreach($arr as $key => $val) {if (isset($prefix[$key]) && is_string($val) && is_string($prefix[$key])) {$arr[