NVIDIA AI 研究科学家Jim Fan：人工智能探索中的下一个重大挑战：“基础代理”

本文主要是介绍NVIDIA AI 研究科学家Jim Fan：人工智能探索中的下一个重大挑战：“基础代理”，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

NVIDIA AI 的研究科学家 Jim Fan 在TED做了一次关于Foundation Agent的分享，我看完感到非常震撼，反复看了好几遍。这里给大家分享下我整理的简要中文文字版，想看英文原视频的见文章最底部的链接。

人工通用智能的研究框架

Jim Fan 认为现在针对一般能力的人工智能代理的研究工作主要是围绕着三个轴，分别是：代理可以执行的技能数量（能力），代理可以控制的身体形式或体现（具身化），以及代理可以掌握现实的能力（感受现实和反应）。

人工通用智能的研究目标

他之前被AlphaGo战胜世界围棋冠军感到震撼，但是后来发现AlphaGo的技能太少了，只会下围棋。他认为人工智能代理的目标是右上方，也就是技能，具身化和现实三个轴同时都有不错的能力的人工智能agent。

能力学习方向 Voyager

能力轴上他分享了他领导研究的 Voyager，这是一个在《我的世界》游戏中可以大规模扩展多种技能的代理。只需要给Voyager设定一个高层目标“尽可能获得多的独特物品”，然后它就可以自己不断地玩游戏，探索地形，开采各种材料，对抗怪物，制作数百种食谱等等，并解锁不断扩大的技能树。

这个代理的核心是将编码作为行动。首先，研究人员将3D世界转换为文本表示，然后调用GPT4编写js代码，这些js代码将成为游戏中的技能。代码写错了，有bug怎么办？那就增加一个“自我反思机制”来改进和提高。它利用三种反馈源：代码编译或执行报错，agent自身的状态（生命值，饥饿值等等）还有世界状态（附近的地形和物体，比如森林，树木，动物，金属等等）。

Voyager 根据自身状态和世界状态采取一个行动（写一段代码），观察行动对自身状态和世界状态的影响（观察代码是否可以正确运行，以及运行后对自己和世界的影响），反思如何做得更好（根据代码错误、代码执行后的影响反馈调整代码，使得代码可以正确编译运行并带来正收益）。它不断地尝试新的行动和计划，并反复进行。一旦技能成熟（代码可以编译和运行，并且运行后可以获得正收益），Voyager 就把它保存到技能库中，后边可以持续使用。技能库其实就是一个代码库，可以执行并且执行后能得到正反馈的代码保存在里边。

在这个探索过程中，Voyager不仅能掌握技能，还可以发现新技能。而这一切并没有预编程，都是Voyager自己的主意。这里可以看到一个终身学习的人工智能的雏形。agent永远好奇，永远追求新的尝试。相比AlphaGo，Voyager大幅拓展了agent能做的许多事情。