探索可扩展指令式多世界代理(SIMA):谷歌DeepMind在通用游戏AI领域的新里程碑

本文主要是介绍探索可扩展指令式多世界代理(SIMA):谷歌DeepMind在通用游戏AI领域的新里程碑,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

  每周跟踪AI热点新闻动向和震撼发展 想要探索生成式人工智能的前沿进展吗?订阅我们的简报,深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同,从行业内部的深度分析和实用指南中受益。不要错过这个机会,成为AI领域的领跑者。点击订阅,与未来同行! 订阅:https://rengongzhineng.io/

在最新的科技研究领域,谷歌DeepMind团队推出了一项名为“可扩展指令式多世界代理”(Scalable Instructable Multiworld Agent,以下简称SIMA)的研究,这是一种能够根据自然语言指令在多种视频游戏设置中执行任务的代理。

视频游戏被视为人工智能(AI)系统的重要试验场。与现实世界类似,游戏提供了丰富的学习环境,其中包含了响应式的实时场景和不断变化的目标。

从谷歌DeepMind早期在雅达利游戏上的工作,到其AlphaStar系统在星际争霸II游戏中达到人类大师级水平,该团队在AI与游戏领域拥有长期的研究历史。

如今,谷歌DeepMind宣布了一个新的里程碑——其研究重点从针对单一游戏的研究转变为开发一个能够理解和执行多种游戏指令的通用AI代理。

在一份新的技术报告中,谷歌DeepMind团队介绍了“可扩展指令式多世界代理”,这是一种针对3D虚拟环境设计的通用AI代理。谷歌DeepMind与游戏开发商合作,训练SIMA在多种视频游戏中学习。这项研究首次证明了一种代理能够理解广泛的游戏世界,并能够根据自然语言指令在这些游戏世界中执行任务,如同人类可能做的那样。

该项工作的重点并不是在游戏中获得高分。对于AI系统而言,学会玩一个视频游戏本身就是一个技术挑战,但学会在多种游戏环境中根据指令执行任务可能会开启更多有用的AI代理,用于各种环境。该团队的研究展示了如何将先进AI模型的能力通过语言界面转化为实用的、现实世界中的行动。谷歌DeepMind希望,通过SIMA及其他代理的研究,可以利用视频游戏作为沙盒,更好地理解AI系统如何变得更加有益。

为了使SIMA接触到多样的环境,谷歌DeepMind与游戏开发商建立了合作伙伴关系。团队与八家游戏工作室合作,训练和测试SIMA在九种不同的视频游戏上,例如Hello Games的《无人深空》和Tuxedo Labs的《Teardown》。SIMA的投资组合中的每款游戏都开启了一个新的互动世界,其中包括从简单的导航和菜单使用到采矿资源、驾驶太空船或制作头盔等多种技能学习。

谷歌DeepMind还使用了四个研究环境,包括与Unity合作建立的一个名为建筑实验室的新环境,代理需要在此环境中从建筑块中构建雕塑,测试其物体操作和对物理世界的直观理解能力。

通过学习不同的游戏世界,SIMA能够理解语言与游戏行为之间的联系。谷歌DeepMind的首次尝试是记录其投资组合中游戏的人类玩家配对,其中一位玩家观察并指导另一位玩家。玩家还可以自由玩游戏,然后回顾他们的游戏行为,并记录下能够导致这些游戏行为的指令。

SIMA包括预训练的视觉模型和一个主模型,后者包含内存并输出键盘和鼠标动作。

作为一个多才多艺的AI代理,SIMA能够感知和理解多种环境,然后采取行动以实现指定的目标。它包括一个设计用于精确图像-语言映射的模型和一个视频模型,后者预测屏幕上接下来会发生什么。这些模型在特定于SIMA投资组合中的3D设置的训练数据上进行了微调。

谷歌DeepMind的AI代理不需要访问游戏的源代码或特定的API。它只需要两种输入:屏幕上的图像和用户提供的简单自然语言指令。SIMA使用键盘和鼠标输出来控制游戏的中心角色执行这些指令。这种简单的界面与人类使用的界面相同,意味着SIMA可以潜在地与任何虚拟环境进行交互。

SIMA当前版本在600个基本技能上进行了评估,包括导航(例如“向左转”)、物体交互(例如“爬梯子”)和菜单使用(例如“打开地图”)。谷歌DeepMind训练了SIMA执行可以在大约10秒内完成的简单任务。

谷歌DeepMind希望其未来的代理能够处理需要高级战略规划和完成多个子任务的任务,例如“找到资源并建立一个

营地”。这对于AI总体来说是一个重要的目标,因为尽管大型语言模型催生了强大的系统,这些系统可以捕获关于世界的知识并生成计划,但它们目前缺乏代表我们采取行动的能力。

在游戏和更多方面的泛化是谷歌DeepMind研究的重要部分。该团队展示了在多种游戏上训练的代理比只学会玩一个游戏的代理表现更好。在评估中,接受其投资组合中九款3D游戏训练的SIMA代理显著优于仅在每个单一游戏上训练的所有专业代理。更重要的是,除了一个游戏之外在所有游戏上训练的代理在那个未见过的游戏上的表现几乎与专门在其上训练的代理一样好,平均而言。这种在全新环境中正常工作的能力突出了SIMA的泛化能力。这是一个有希望的初步结果,然而,需要更多研究才能使SIMA在已知和未知的游戏中都能达到人类水平的表现。

谷歌DeepMind的结果还显示,SIMA的表现依赖于语言。在一个未给代理提供任何语言训练或指令的控制测试中,它以适当但无目的的方式行动。例如,一个代理可能会收集资源,这是一种频繁的行为,而不是按照指令行动。

谷歌DeepMind评估了SIMA遵循指令完成近1500个独特的游戏内任务的能力,部分使用人类评审。作为基线比较,该团队使用了环境专业的SIMA代理的表现(训练和评估以遵循单一环境内的指令)。这种表现与三种类型的通用SIMA代理进行了比较,每种都在多个环境中接受了训练。

推进AI代理研究是谷歌DeepMind的目标之一。SIMA的结果显示了开发一系列通用的、由语言驱动的AI代理的潜力。这是早期研究,该团队期待在更多训练环境中进一步构建SIMA,并整合更有能力的模型。

随着SIMA接触到更多训练世界,谷歌DeepMind预期它会变得更具泛化性和多才多艺。随着模型的进步,该团队希望提高SIMA对更高级语言指令的理解和行动能力,以实现更复杂的目标。

最终,谷歌DeepMind的研究旨在构建更通用的AI系统和代理,这些系统和代理可以理解并安全地执行广泛的任务,以一种对人类在线和现实世界有帮助的方式。

这篇关于探索可扩展指令式多世界代理(SIMA):谷歌DeepMind在通用游戏AI领域的新里程碑的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/820106

相关文章

Ilya-AI分享的他在OpenAI学习到的15个提示工程技巧

Ilya(不是本人,claude AI)在社交媒体上分享了他在OpenAI学习到的15个Prompt撰写技巧。 以下是详细的内容: 提示精确化:在编写提示时,力求表达清晰准确。清楚地阐述任务需求和概念定义至关重要。例:不用"分析文本",而用"判断这段话的情感倾向:积极、消极还是中性"。 快速迭代:善于快速连续调整提示。熟练的提示工程师能够灵活地进行多轮优化。例:从"总结文章"到"用

AI绘图怎么变现?想做点副业的小白必看!

在科技飞速发展的今天,AI绘图作为一种新兴技术,不仅改变了艺术创作的方式,也为创作者提供了多种变现途径。本文将详细探讨几种常见的AI绘图变现方式,帮助创作者更好地利用这一技术实现经济收益。 更多实操教程和AI绘画工具,可以扫描下方,免费获取 定制服务:个性化的创意商机 个性化定制 AI绘图技术能够根据用户需求生成个性化的头像、壁纸、插画等作品。例如,姓氏头像在电商平台上非常受欢迎,

这15个Vue指令,让你的项目开发爽到爆

1. V-Hotkey 仓库地址: github.com/Dafrok/v-ho… Demo: 戳这里 https://dafrok.github.io/v-hotkey 安装: npm install --save v-hotkey 这个指令可以给组件绑定一个或多个快捷键。你想要通过按下 Escape 键后隐藏某个组件,按住 Control 和回车键再显示它吗?小菜一碟: <template

从去中心化到智能化:Web3如何与AI共同塑造数字生态

在数字时代的演进中,Web3和人工智能(AI)正成为塑造未来互联网的两大核心力量。Web3的去中心化理念与AI的智能化技术,正相互交织,共同推动数字生态的变革。本文将探讨Web3与AI的融合如何改变数字世界,并展望这一新兴组合如何重塑我们的在线体验。 Web3的去中心化愿景 Web3代表了互联网的第三代发展,它基于去中心化的区块链技术,旨在创建一个开放、透明且用户主导的数字生态。不同于传统

AI一键生成 PPT

AI一键生成 PPT 操作步骤 作为一名打工人,是不是经常需要制作各种PPT来分享我的生活和想法。但是,你们知道,有时候灵感来了,时间却不够用了!😩直到我发现了Kimi AI——一个能够自动生成PPT的神奇助手!🌟 什么是Kimi? 一款月之暗面科技有限公司开发的AI办公工具,帮助用户快速生成高质量的演示文稿。 无论你是职场人士、学生还是教师,Kimi都能够为你的办公文

深入探索协同过滤:从原理到推荐模块案例

文章目录 前言一、协同过滤1. 基于用户的协同过滤(UserCF)2. 基于物品的协同过滤(ItemCF)3. 相似度计算方法 二、相似度计算方法1. 欧氏距离2. 皮尔逊相关系数3. 杰卡德相似系数4. 余弦相似度 三、推荐模块案例1.基于文章的协同过滤推荐功能2.基于用户的协同过滤推荐功能 前言     在信息过载的时代,推荐系统成为连接用户与内容的桥梁。本文聚焦于

高效+灵活,万博智云全球发布AWS无代理跨云容灾方案!

摘要 近日,万博智云推出了基于AWS的无代理跨云容灾解决方案,并与拉丁美洲,中东,亚洲的合作伙伴面向全球开展了联合发布。这一方案以AWS应用环境为基础,将HyperBDR平台的高效、灵活和成本效益优势与无代理功能相结合,为全球企业带来实现了更便捷、经济的数据保护。 一、全球联合发布 9月2日,万博智云CEO Michael Wong在线上平台发布AWS无代理跨云容灾解决方案的阐述视频,介绍了

csu 1446 Problem J Modified LCS (扩展欧几里得算法的简单应用)

这是一道扩展欧几里得算法的简单应用题,这题是在湖南多校训练赛中队友ac的一道题,在比赛之后请教了队友,然后自己把它a掉 这也是自己独自做扩展欧几里得算法的题目 题意:把题意转变下就变成了:求d1*x - d2*y = f2 - f1的解,很明显用exgcd来解 下面介绍一下exgcd的一些知识点:求ax + by = c的解 一、首先求ax + by = gcd(a,b)的解 这个

Andrej Karpathy最新采访:认知核心模型10亿参数就够了,AI会打破教育不公的僵局

夕小瑶科技说 原创  作者 | 海野 AI圈子的红人,AI大神Andrej Karpathy,曾是OpenAI联合创始人之一,特斯拉AI总监。上一次的动态是官宣创办一家名为 Eureka Labs 的人工智能+教育公司 ,宣布将长期致力于AI原生教育。 近日,Andrej Karpathy接受了No Priors(投资博客)的采访,与硅谷知名投资人 Sara Guo 和 Elad G

揭秘世界上那些同时横跨两大洲的国家

我们在《世界人口过亿的一级行政区分布》盘点全球是那些人口过亿的一级行政区。 现在我们介绍五个横跨两州的国家,并整理七大洲和这些国家的KML矢量数据分析分享给大家,如果你需要这些数据,请在文末查看领取方式。 世界上横跨两大洲的国家 地球被分为七个大洲分别是亚洲、欧洲、北美洲、南美洲、非洲、大洋洲和南极洲。 七大洲示意图 其中,南极洲是无人居住的大陆,而其他六个大洲则孕育了众多国家和