李飞飞高徒新作!30万小时视频教会AI在《我的世界》里打败末影龙

2023-11-01 03:50

本文主要是介绍李飞飞高徒新作!30万小时视频教会AI在《我的世界》里打败末影龙,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!


  视学算法报道  

编辑:袁榭 桃子

【新智元导读】近日,李飞飞高徒和团队研究人员提出了基于《我的世界》游戏新框架MineDojo,可以让AI自由探索程序生成的3D世界。

上周,OpenAI让AI看完海量视频后,学会玩《我的世界》。

在这之前,来自英伟达团队的研究人员还构建了一个游戏新框架MineDojo。

54f17581f848f914331190683588636d.png

MineDojo包含了1000多种不同的开放式任务的模拟套件。

在这里,AI智能体可以自由探索程序生成的3D世界。

李飞飞在社交媒体上称赞了其得意门生,也是这篇论文的一作,Linxi Fan(范麟熙)的最新研究成果。

cf8098617715f6c7f4f68512f16ccfc0.png

MineDojo:打开AI新世界


说来,这些AI究竟能做什么?

能在主世界、下界、末日中进行开放式探索,比如:

对战末影龙

4889c2c61d4907d0bc59de185986fd49.gif

寻找沙漠中的金字塔

565c632e4410e170989a78981e391cf8.gif

还能探索海洋纪念碑

3b965201c2682db7f29a601b273b2268.gif

可以穿越不同地形,开采材料

d49d0d698fedff8c033d7e33c20376a8.gif

能够制作并使用多样化工具,比如,用栅栏围住骆驼

b3b7d68030f3d09a33d75169763afc44.gif

种植小麦...

89c18b230c1f369b1fb7e4a0b52c1f44.gif

省事儿了!AI自学自励


目前为止,《我的世界》玩家已经有1亿多人,他们是构建大量数据的基础。

MineDojo从网上收集了海量数据:

  1. 73万YouTube视频,带有标记2.2亿个单词的英文脚本,这些视频总时长大概有30万个小时;

  2. 6735个Wiki页面,其中包括交互式的文本、图像、表格和图表;

  3. 34万条在「r/Minecraft」上的 Reddit帖子,还有660万条评论。

a7746da1a0ca886a735b2cc575170258.png

视频素材分两类:

逐步演示、配音详解的教程视频,研究团队用教程视频做出了大量程序基准。

不按特定任务与步骤进行的普通游戏录播视频,给AI智能体提供了内容更多元、素材更丰富的各种学习与训练信号。

由于不管是教程视频还是游戏录播视频,大多数视频库素材都是按时间轴配脚本的。如此就让AI智能体可以低障碍地将自然语言与像素级的图像数据对应,不用大量人工标注就能自行理解各种活动的自然语义对应物。

c8e28529096439d9a6c88541e8795d36.gif

由于Reddit文本数据库中的内容结合了文字、图片、短视频片段,将精细调试的大语言模型在其中使用后,AI智能体就能获得大量特定的内化概念和复杂策略。

MineDojo现有基准任务库中包含3131个任务,其中有1572个可编程任务、1558个创造性任务、1个通关性任务。

可编程任务按固定步骤和任务目标完成,分四种:

1.生存:AI玩家在初始游戏环境中生存若干天

2.采集:发现、获取、培育、制造数百种材料和物体

3.科技树:按游戏进程目录解锁各种等级的工具与技能

4.基础战斗:AI玩家在游戏中打各种普通小怪,测试智能体反应灵活度和战斗技能

创造性任务就没有可编程任务的精细定义、自动完成的标准了,由AI智能体自由发挥。

通关任务的要求是让AI玩家「打败末影龙并获取龙蛋奖励」。这对人类新手玩家来说都是个游戏初期的里程碑成就。

对于AI智能体而言,这是个验收性任务,考验了AI智能体自行准备、探索、试错等等完成游戏的能力。

研究团队将所有任务都附带了自然语言叙述的提示,很多任务还有用GPT-3生成的逐步指南。

为了用强化学习训练AI智能体玩《我的世界》、完成必备的奖惩功能,研究团队自行开发了模型MineCLIP。

b577b346efb68149689a1eab4bf233fe.png

MineCLIP是在海量Youtube数据库上预训练的对比视频语言模型,利用大型预训练的视频语言模型作为学习奖励函数。

比较有特点的是,这个智能体可以解决各种用自由形式的语言指定的开放任务。

同时,它不需要任何人工设计的密集设计奖励。

其奖励效果在可编程任务上与人工编写的逐条奖励程序不相上下,在创造性任务上胜过了OpenAI的预训练CLIP模型。

9bed15d2ee1d68cf176221f840a10fec.png

MineCLIP模型也是MineDojo中AI将图像对应自然语言的核心组件,包含了文本编码器和图像编码器,参数1.5亿。

研究团队在论文中称MineCLIP模型的神经架构很类似CLIP4Clip,但比其多了两层图-文适应处理层。

研究团队在视频数据库中抽取了64万16秒短视频片段抽样,来训练这两层来对应图像和文字,效果可与人工判定的真实值媲美。

网友点评


一位网友称,OpenAI和英伟达基于《我的世界》做的研究方向有些不同。

并对这两项研究进行了对比。

0f372ad407be151ef68b4c2789ac0993.png

OpenAI试图训练一个《我的世界》中的通才智能体,就像此前DeepMind训练星际争霸那样:

先通过模仿大量演示来学习,然后再通过精心化设计的奖励让智能体去进行强化学习。

da34de3e8de027378329bde8e18de133.gif

问题是,智能体想要进行模仿学习得知道个所以然,然而很多视频并没有标记动作,根本不知道玩家执行了哪些动作来生成这些视频。

于是OpenAI提出了视频与训练模型(VPT)解决方案,在训练7万个小时后,模型就学会了怎么砍树、收集木头。

值得注意的是,预训练的智能体仍然在执行任务时是有限的。

如果想要让其学习更复杂的动作,那就需要精心设计的奖励函数来引导智能体完成必要的步骤。

相比之下,英伟达提出了不同的观点。

他们通过利用YouTube上的视频里的知识学习各种想得到的任务,包括GPT-3生成的任务。

9414684e1f12d369bc73a632f4e9f14c.png

为此,研究者并没有通过手动设计无数奖励,而是设计了一种算法MineCLIP,利用了大型与训练视频模型作为学习奖励函数。

作者介绍


这项最新研究团队共有十个人。

f01e1fe6dc5d6a1091731e31333be6a1.png

其中论文一作是李飞飞门下得意弟子Linxi Fan(范麟熙)。

8ceffd6ac7d3d0bc4d20358041ad8f41.png

他毕业于上海实验中学,本科就读于纽约哥伦比亚大学,目前在斯坦福大学攻读博士,主修计算机视觉、强化学习以及机器人技术。

参考资料:

https://minedojo.org/

a13ea164d72cf903aa5ae51fd6a404de.png

outside_default.png

点个在看 paper不断!

这篇关于李飞飞高徒新作!30万小时视频教会AI在《我的世界》里打败末影龙的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/320271

相关文章

Python视频处理库VidGear使用小结

《Python视频处理库VidGear使用小结》VidGear是一个高性能的Python视频处理库,本文主要介绍了Python视频处理库VidGear使用小结,文中通过示例代码介绍的非常详细,对大家的... 目录一、VidGear的安装二、VidGear的主要功能三、VidGear的使用示例四、VidGea

Ubuntu系统怎么安装Warp? 新一代AI 终端神器安装使用方法

《Ubuntu系统怎么安装Warp?新一代AI终端神器安装使用方法》Warp是一款使用Rust开发的现代化AI终端工具,该怎么再Ubuntu系统中安装使用呢?下面我们就来看看详细教程... Warp Terminal 是一款使用 Rust 开发的现代化「AI 终端」工具。最初它只支持 MACOS,但在 20

mysql-8.0.30压缩包版安装和配置MySQL环境过程

《mysql-8.0.30压缩包版安装和配置MySQL环境过程》该文章介绍了如何在Windows系统中下载、安装和配置MySQL数据库,包括下载地址、解压文件、创建和配置my.ini文件、设置环境变量... 目录压缩包安装配置下载配置环境变量下载和初始化总结压缩包安装配置下载下载地址:https://d

Ilya-AI分享的他在OpenAI学习到的15个提示工程技巧

Ilya(不是本人,claude AI)在社交媒体上分享了他在OpenAI学习到的15个Prompt撰写技巧。 以下是详细的内容: 提示精确化:在编写提示时,力求表达清晰准确。清楚地阐述任务需求和概念定义至关重要。例:不用"分析文本",而用"判断这段话的情感倾向:积极、消极还是中性"。 快速迭代:善于快速连续调整提示。熟练的提示工程师能够灵活地进行多轮优化。例:从"总结文章"到"用

流媒体平台/视频监控/安防视频汇聚EasyCVR播放暂停后视频画面黑屏是什么原因?

视频智能分析/视频监控/安防监控综合管理系统EasyCVR视频汇聚融合平台,是TSINGSEE青犀视频垂直深耕音视频流媒体技术、AI智能技术领域的杰出成果。该平台以其强大的视频处理、汇聚与融合能力,在构建全栈视频监控系统中展现出了独特的优势。视频监控管理系统EasyCVR平台内置了强大的视频解码、转码、压缩等技术,能够处理多种视频流格式,并以多种格式(RTMP、RTSP、HTTP-FLV、WebS

AI绘图怎么变现?想做点副业的小白必看!

在科技飞速发展的今天,AI绘图作为一种新兴技术,不仅改变了艺术创作的方式,也为创作者提供了多种变现途径。本文将详细探讨几种常见的AI绘图变现方式,帮助创作者更好地利用这一技术实现经济收益。 更多实操教程和AI绘画工具,可以扫描下方,免费获取 定制服务:个性化的创意商机 个性化定制 AI绘图技术能够根据用户需求生成个性化的头像、壁纸、插画等作品。例如,姓氏头像在电商平台上非常受欢迎,

从去中心化到智能化:Web3如何与AI共同塑造数字生态

在数字时代的演进中,Web3和人工智能(AI)正成为塑造未来互联网的两大核心力量。Web3的去中心化理念与AI的智能化技术,正相互交织,共同推动数字生态的变革。本文将探讨Web3与AI的融合如何改变数字世界,并展望这一新兴组合如何重塑我们的在线体验。 Web3的去中心化愿景 Web3代表了互联网的第三代发展,它基于去中心化的区块链技术,旨在创建一个开放、透明且用户主导的数字生态。不同于传统

AI一键生成 PPT

AI一键生成 PPT 操作步骤 作为一名打工人,是不是经常需要制作各种PPT来分享我的生活和想法。但是,你们知道,有时候灵感来了,时间却不够用了!😩直到我发现了Kimi AI——一个能够自动生成PPT的神奇助手!🌟 什么是Kimi? 一款月之暗面科技有限公司开发的AI办公工具,帮助用户快速生成高质量的演示文稿。 无论你是职场人士、学生还是教师,Kimi都能够为你的办公文

Andrej Karpathy最新采访:认知核心模型10亿参数就够了,AI会打破教育不公的僵局

夕小瑶科技说 原创  作者 | 海野 AI圈子的红人,AI大神Andrej Karpathy,曾是OpenAI联合创始人之一,特斯拉AI总监。上一次的动态是官宣创办一家名为 Eureka Labs 的人工智能+教育公司 ,宣布将长期致力于AI原生教育。 近日,Andrej Karpathy接受了No Priors(投资博客)的采访,与硅谷知名投资人 Sara Guo 和 Elad G

综合安防管理平台LntonAIServer视频监控汇聚抖动检测算法优势

LntonAIServer视频质量诊断功能中的抖动检测是一个专门针对视频稳定性进行分析的功能。抖动通常是指视频帧之间的不必要运动,这种运动可能是由于摄像机的移动、传输中的错误或编解码问题导致的。抖动检测对于确保视频内容的平滑性和观看体验至关重要。 优势 1. 提高图像质量 - 清晰度提升:减少抖动,提高图像的清晰度和细节表现力,使得监控画面更加真实可信。 - 细节增强:在低光条件下,抖