AI技术颠覆游戏开发:谷歌DeepMind GameNGen实时生成《DOOM》探秘

本文主要是介绍AI技术颠覆游戏开发:谷歌DeepMind GameNGen实时生成《DOOM》探秘,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

引言

近年来,生成式人工智能(AIGC)在图像和视频生成领域取得了巨大突破。然而,谁能想到,这项技术正逐渐渗透进游戏开发领域,且潜力巨大。2023年8月29日,谷歌DeepMind发布了名为《扩散模型是实时游戏引擎》(Diffusion Models Are Real-Time Game Engines)的论文,提出了全新的AI游戏生成引擎GameNGen。令人惊讶的是,GameNGen无需传统的游戏引擎与预设代码逻辑,仅依赖神经网络和提示词,即可实时生成复杂的游戏内容。在此研究中,GameNGen成功复现了经典游戏《DOOM》,并在单个TPU上实现了每秒20帧的实时渲染。此举有望彻底颠覆传统游戏开发流程。

本文将详细剖析GameNGen的技术原理、创新点及其对游戏行业的潜在影响。

GameNGen的工作原理

游戏开发的传统逻辑

传统的电子游戏开发流程,通常涉及复杂的预设逻辑,遵循用户输入、更新游戏状态、渲染画面的固定循环。无论是经典的贪吃蛇还是复杂的3D游戏,都依赖开发者预设的代码逻辑来控制游戏的运行。因此,游戏引擎通常通过固定的编程规则来响应用户输入并更新游戏画面。

然而,DeepMind提出了一种革命性的想法——通过生成式AI模型完全抛弃这些预设逻辑,依赖AI实时生成游戏的内容与状态更新。这种创新不仅有望降低游戏开发的技术门槛,还可以大幅减少开发成本和时间。

扩散模型与GameNGen架构

GameNGen的核心技术基于扩散模型(Diffusion Models),这是一种生成式模型,最早被应用于图像和视频生成任务,如Stable Diffusion和DALL-E等。GameNGen则对这一技术进行了改进,使其可以高效生成游戏场景和逻辑。

数据集与训练

为了训练一个能够高效玩游戏的AI,研究人员首先构建了一个900M帧的数据集。这些数据包括游戏角色的动作、玩家视角等关键信息。通过深度强化学习方法(如PPO训练),并结合卷积神经网络(CNN)提取特征,研究团队成功地训练了一个可以理解游戏逻辑的AI agent。

模型架构改进

GameNGen的模型基础是Stable Diffusion 1.4,原本是一个生成文本到图像的扩散模型。在此基础上,研究团队做了几项关键的改动:

  1. 动作数据嵌入:将游戏中的动作序列作为token嵌入到模型中,使得模型能够理解游戏角色的动作。
  2. 交叉注意力机制改进:通过将编码后的动作序列替换原有的文本输入,模型得以从玩家的输入和先前的帧信息中生成下一帧画面。
  3. 去噪采样优化:GameNGen使用了名为“速度参数化”的新技术来最小化扩散损失,并通过在上下文帧中添加高斯噪声,优化了模型的帧生成质量。

高效实时渲染

与传统生成模型不同的是,GameNGen仅需要4次DDIM去噪步骤即可生成高质量的游戏帧,而非通常需要的20次采样。这极大提升了游戏的生成效率,使其能够稳定在每秒20帧的速度下运行。

实际效果与局限性

复现《DOOM》:AI与人类难辨的游戏体验

GameNGen首次被应用于复现经典射击游戏《DOOM》,该游戏以其复杂的3D场景和快节奏的战斗著称。实验表明,GameNGen在生成《DOOM》游戏画面的质量上几乎与原版游戏无异。研究人员甚至组织了多名评估者进行盲测,让他们判断哪一个画面来自真实游戏,哪一个来自AI生成的GameNGen。结果显示,约60%的情况下,评估者无法分辨AI生成的游戏与真实游戏之间的差异。这种几乎以假乱真的效果,证明了GameNGen在生成游戏画面和模拟复杂游戏逻辑上的能力。

当前存在的挑战

尽管GameNGen展示了极大的潜力,但其仍存在明显的局限性:

  1. 通用性不足:目前,GameNGen仅在《DOOM》这款特定游戏上表现出色。模型需要针对特定游戏进行大量训练,尚未实现对多种游戏的普适性支持。
  2. 帧率限制:虽然GameNGen已经实现了每秒20帧的速度,但这远未达到现代游戏普遍要求的60帧甚至更高帧率。这意味着当前的技术水平尚不足以支持实时生成复杂的现代游戏。
  3. 无法创造新内容:虽然GameNGen能够高效生成现有场景,但其并不能创造新的场景或游戏机制,限制了其在创新型游戏开发中的应用。

GameNGen对游戏开发的影响

开发成本与时间大幅降低

通过AI生成游戏内容,开发者可以节省大量编写逻辑和设计关卡的时间。未来的游戏开发可能只需要给出一个提示词,AI就能够生成完整的游戏场景和交互逻辑。这不仅简化了开发流程,也大大降低了开发成本。

游戏行业的颠覆与机遇

AI生成游戏的出现,预示着未来游戏行业的潜在变革。正如米哈游前董事长蔡浩宇所言,未来的游戏开发者可能只有两类:极少数顶尖天才和大量纯粹的爱好者。通过AI,人人都可能成为游戏开发者,甚至无需任何编程知识。这对传统的游戏开发公司和开发者将带来巨大冲击。

未来展望

虽然GameNGen目前仍处于早期阶段,面临诸多挑战,但其展示出的颠覆性潜力不容忽视。随着AI技术的不断进步,游戏开发的门槛将继续降低,开发者可以将更多精力放在游戏创意与创新上,而不再局限于技术实现。

正如英伟达CEO黄仁勋所预言的那样,未来5至8年内,AI生成的每个像素都可能达到实时渲染水平。届时,游戏开发将进入全新时代,每个人都有可能通过AI工具创造属于自己的虚拟世界。

结论

GameNGen作为世界上首个由神经网络驱动的实时游戏引擎,展示了AI技术在游戏开发中的巨大潜力。虽然它目前仍面临通用性和性能上的挑战,但这一技术有望在未来几年内彻底改变游戏开发流程,为游戏行业带来全新的可能性。

随着AI技术的快速发展,游戏开发者将不再局限于编写复杂的逻辑与代码,而是可以通过简单的提示词让AI生成出完整的游戏世界。GameNGen

的出现,预示着我们正在逐步走向一个完全由人工智能主导的游戏开发时代。这不仅为开发者提供了强大的工具,也为玩家们带来了更多创意和定制化的游戏体验。今后的游戏开发将会越来越智能化,游戏行业也将面临更多的创新机遇与挑战。

在这里插入图片描述

这篇关于AI技术颠覆游戏开发:谷歌DeepMind GameNGen实时生成《DOOM》探秘的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1141699

相关文章

Ilya-AI分享的他在OpenAI学习到的15个提示工程技巧

Ilya(不是本人,claude AI)在社交媒体上分享了他在OpenAI学习到的15个Prompt撰写技巧。 以下是详细的内容: 提示精确化:在编写提示时,力求表达清晰准确。清楚地阐述任务需求和概念定义至关重要。例:不用"分析文本",而用"判断这段话的情感倾向:积极、消极还是中性"。 快速迭代:善于快速连续调整提示。熟练的提示工程师能够灵活地进行多轮优化。例:从"总结文章"到"用

AI绘图怎么变现?想做点副业的小白必看!

在科技飞速发展的今天,AI绘图作为一种新兴技术,不仅改变了艺术创作的方式,也为创作者提供了多种变现途径。本文将详细探讨几种常见的AI绘图变现方式,帮助创作者更好地利用这一技术实现经济收益。 更多实操教程和AI绘画工具,可以扫描下方,免费获取 定制服务:个性化的创意商机 个性化定制 AI绘图技术能够根据用户需求生成个性化的头像、壁纸、插画等作品。例如,姓氏头像在电商平台上非常受欢迎,

这15个Vue指令,让你的项目开发爽到爆

1. V-Hotkey 仓库地址: github.com/Dafrok/v-ho… Demo: 戳这里 https://dafrok.github.io/v-hotkey 安装: npm install --save v-hotkey 这个指令可以给组件绑定一个或多个快捷键。你想要通过按下 Escape 键后隐藏某个组件,按住 Control 和回车键再显示它吗?小菜一碟: <template

Hadoop企业开发案例调优场景

需求 (1)需求:从1G数据中,统计每个单词出现次数。服务器3台,每台配置4G内存,4核CPU,4线程。 (2)需求分析: 1G / 128m = 8个MapTask;1个ReduceTask;1个mrAppMaster 平均每个节点运行10个 / 3台 ≈ 3个任务(4    3    3) HDFS参数调优 (1)修改:hadoop-env.sh export HDFS_NAMENOD

从去中心化到智能化:Web3如何与AI共同塑造数字生态

在数字时代的演进中,Web3和人工智能(AI)正成为塑造未来互联网的两大核心力量。Web3的去中心化理念与AI的智能化技术,正相互交织,共同推动数字生态的变革。本文将探讨Web3与AI的融合如何改变数字世界,并展望这一新兴组合如何重塑我们的在线体验。 Web3的去中心化愿景 Web3代表了互联网的第三代发展,它基于去中心化的区块链技术,旨在创建一个开放、透明且用户主导的数字生态。不同于传统

AI一键生成 PPT

AI一键生成 PPT 操作步骤 作为一名打工人,是不是经常需要制作各种PPT来分享我的生活和想法。但是,你们知道,有时候灵感来了,时间却不够用了!😩直到我发现了Kimi AI——一个能够自动生成PPT的神奇助手!🌟 什么是Kimi? 一款月之暗面科技有限公司开发的AI办公工具,帮助用户快速生成高质量的演示文稿。 无论你是职场人士、学生还是教师,Kimi都能够为你的办公文

Andrej Karpathy最新采访:认知核心模型10亿参数就够了,AI会打破教育不公的僵局

夕小瑶科技说 原创  作者 | 海野 AI圈子的红人,AI大神Andrej Karpathy,曾是OpenAI联合创始人之一,特斯拉AI总监。上一次的动态是官宣创办一家名为 Eureka Labs 的人工智能+教育公司 ,宣布将长期致力于AI原生教育。 近日,Andrej Karpathy接受了No Priors(投资博客)的采访,与硅谷知名投资人 Sara Guo 和 Elad G

嵌入式QT开发:构建高效智能的嵌入式系统

摘要: 本文深入探讨了嵌入式 QT 相关的各个方面。从 QT 框架的基础架构和核心概念出发,详细阐述了其在嵌入式环境中的优势与特点。文中分析了嵌入式 QT 的开发环境搭建过程,包括交叉编译工具链的配置等关键步骤。进一步探讨了嵌入式 QT 的界面设计与开发,涵盖了从基本控件的使用到复杂界面布局的构建。同时也深入研究了信号与槽机制在嵌入式系统中的应用,以及嵌入式 QT 与硬件设备的交互,包括输入输出设

OpenHarmony鸿蒙开发( Beta5.0)无感配网详解

1、简介 无感配网是指在设备联网过程中无需输入热点相关账号信息,即可快速实现设备配网,是一种兼顾高效性、可靠性和安全性的配网方式。 2、配网原理 2.1 通信原理 手机和智能设备之间的信息传递,利用特有的NAN协议实现。利用手机和智能设备之间的WiFi 感知订阅、发布能力,实现了数字管家应用和设备之间的发现。在完成设备间的认证和响应后,即可发送相关配网数据。同时还支持与常规Sof

【专题】2024飞行汽车技术全景报告合集PDF分享(附原数据表)

原文链接: https://tecdat.cn/?p=37628 6月16日,小鹏汇天旅航者X2在北京大兴国际机场临空经济区完成首飞,这也是小鹏汇天的产品在京津冀地区进行的首次飞行。小鹏汇天方面还表示,公司准备量产,并计划今年四季度开启预售小鹏汇天分体式飞行汽车,探索分体式飞行汽车城际通勤。阅读原文,获取专题报告合集全文,解锁文末271份飞行汽车相关行业研究报告。 据悉,业内人士对飞行汽车行业