三次元的文本到图像AI成了:单GPU不到一分钟出货,OpenAI出品

2023-10-15 01:59

本文主要是介绍三次元的文本到图像AI成了:单GPU不到一分钟出货,OpenAI出品,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

点击上方“视学算法”,选择加"星标"或“置顶

重磅干货,第一时间送达7218014395118de3619902f6fb2e0b3d.jpeg

来源丨机器之心

编辑丨泽南、杜伟

导读

 

文本到 3D 模型生成的速度一下提升了 600 倍,代码也已开源。 

6662bd4a1a06e494936d5413dd5c43a6.png

文本生成图像的 AI 最近已经火到了圈外,不论是 DALL-E 2、DeepAI 还是 Stable Diffusion,人人都在调用 AI 算法搞绘画艺术,研究对 AI 讲的「咒语」。不断进化的技术推动了文生图生态的蓬勃发展,甚至还催生出了独角兽创业公司 Stability AI。

技术发展的脚步并没有停止,下个突破可能是 3D 模型生成了:本周,OpenAI 开源的 3D 模型生成器 Point-E 引发了 AI 圈的新一轮热潮,刚摆上 GitHub 一天就获得了 800 多个 star。

根据与开源内容一并发布的论文介绍,Point-E 可以在单块 Nvidia V100 GPU 上在一到两分钟内生成 3D 模型。相比之下,现有系统(如谷歌的 DreamFusion)通常需要数小时和多块 GPU。

论文《Point-E: A System for Generating 3D Point Clouds from Complex Prompts》:

fb76c28dbd78a26fbd78fb8f3783e6fd.png

  • 论文链接:https://arxiv.org/abs/2212.08751

  • 项目链接:https://github.com/openai/point-e

Point-E 不输出传统意义上的 3D 图像,它会生成点云,或空间中代表 3D 形状的离散数据点集。Point-E 中的 E 是「效率」的缩写,表示其比以前的 3D 对象生成方法更快。不过从计算的角度来看,点云更容易合成,但它们无法捕获对象的细粒度形状或纹理 —— 这是目前 Point-E 的一个关键限制。

为了解决这一问题,OpenAI 团队训练了一个额外的人工智能系统来将 Point-E 的点云转换为网格。

8c2157a17d24d5aa1d0df4a706ec0bf5.gif

Point-E 架构及运行原理

在独立的网格生成模型之外,Point-E 主要由两个模型组成:文本到图像模型和图像到 3D 模型。文本到图像模型类似于 OpenAI 自家的 DALL-E 2 和 Stable Diffusion 等生成模型系统,在标记图像上进行训练以理解单词和视觉概念之间的关联。在图像生成之后,图像到 3D 模型被输入一组与 3D 对象配对的图像,训练出在两者之间有效转换的能力。

953bc1fe862af5a8d491211b6d91250a.png

当人们给出一个文本提示 —— 例如,「一个可 3D 打印的齿轮,一个直径为 3 英寸、厚度为半英寸的齿轮」时,AI 会生成符合描述的内容:

acb960b73a1fd34e32143309ae802d84.png

Point-E 通过 30 亿参数的 GLIDE 模型生成综合视图渲染,内容被馈送到图像到 3D 模型,通过一系列扩散模型运行生成的图像,以创建初始图像的 3D RGB 点云 —— 先生成粗略的 1024 点云模型,然后生成更精细的 4096 点云模型。

a0033e19f3ab6e4d64530e1c88a04158.png

Point-E 的点云扩散模型架构。图像通过一个冻结的、预训练的 CLIP 模型输入,输出网格作为标记输入到 transformer 中。

OpenAI 研究人员表示,在经过「数百万 3D 对象和相关元数据的数据集上训练模型后,Point-E 拥有了生成匹配文本提示的彩色点云的能力。Point-E 的问题和目前的生成模型一样,图像到 3D 转换过程中有时无法理解文本叙述的内容,导致生成的形状与文本提示不匹配。尽管如此,根据 OpenAI 团队的说法,它仍然比以前的最先进技术快几个数量级。

90c543c632c7166a7905c529b471a83e.png

Point-E 将点云转换为网格。

OpenAI 在论文中表示,「虽然 Point-E 在评估中表现得比 SOTA 方法差,但它只用了后者一小部分的时间就可以生成样本。这使得 Point-E 对某些应用程序更实用,或者可以利用效率获得更高质量的 3D 对象。」

应用前景及版权问题

也许你会问,Point-E 具体有哪些应用呢?OpenAI 研究人员指出,Point-E 的点云可用于制作真实世界的对象,比如通过 3D 打印制作。再加上额外的网格转换模型,系统在完善后可以用于游戏和动画开发工作流程。

OpenAI 可能是最新一家涉足 3D 对象生成器领域的公司,但它并不是第一家。今年早些时候,谷歌就发布了 DreamFusion,它是谷歌 2021 年推出的生成式 3D 系统 Dream Fields 的扩展版本。

虽然当前所有目光都集中在 2D 艺术生成器上,但模型合成 AI 可能是下一个重大的行业颠覆者。现代电影、视频游戏、VR 和 AR 的 CGI 效果、空间探索中的测绘任务、古迹遗址保护项目以及 Meta 等科技公司的元宇宙愿景都需要高性能的 3D 建模能力。在传统行业中,建筑公司也会使用 3D 模型演示建筑物和景观,工程师会利用模型设计新设备、车辆和结构等。

2cabb362a28059dc2a515a6532be5ec0.png

Point-E 失败的案例。

不过,制作 3D 模型通常需要一段时间,从几小时到几天不等。如果有一天解决了这一问题,像 Point-E 这样的 AI 可以改变很多,并让 OpenAI 获得可观的利润。

潜在的问题是可能会产生知识产权纠纷。3D 模型有很大的市场,包括 CGStudio 和 CreativeMarket 在内的几个在线市场允许艺术家销售他们创建的内容。如果 Point-E 流行起来并投放到市场,模型艺术家们可能会抗议,并拿出现代生成式 AI 严重依赖其自身训练数据的证据,比如 Point-E 中有现成的 3D 模型。

与 DALL-E 2 一样,Point-E 不承认也没有引用任何可能影响其代代发展的艺术家的作品。OpenAI 没有明确地说明这一问题,Point-E 论文及相应 GitHub 项目中也都没有提到版权问题。

最后,OpenAI 研究人员预计 Point-E 还面临着一些挑战,例如训练数据存在的偏差以及对可能用于创建「危险对象」的模型缺乏保护措施。因此,OpenAI 谨慎地将 Point-E 描述为一个起点,并希望激励文本到 3D 合成领域进一步发展。

不过按照 AI 作画发展的速度,我们或许很快就会看见下一轮技术爆发了。

参考内容:

https://www.engadget.com/openai-releases-point-e-dall-e-3d-text-modeling-210007892.html

https://techcrunch.com/2022/12/20/openai-releases-point-e-an-ai-that-generates-3d-models/

0f5cc0f44a7a0d02ccafe9cd26b25a5e.png

outside_default.png

点个在看 paper不断!

这篇关于三次元的文本到图像AI成了:单GPU不到一分钟出货,OpenAI出品的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/214627

相关文章

Java操作xls替换文本或图片的功能实现

《Java操作xls替换文本或图片的功能实现》这篇文章主要给大家介绍了关于Java操作xls替换文本或图片功能实现的相关资料,文中通过示例代码讲解了文件上传、文件处理和Excel文件生成,需要的朋友可... 目录准备xls模板文件:template.xls准备需要替换的图片和数据功能实现包声明与导入类声明与

python解析HTML并提取span标签中的文本

《python解析HTML并提取span标签中的文本》在网页开发和数据抓取过程中,我们经常需要从HTML页面中提取信息,尤其是span元素中的文本,span标签是一个行内元素,通常用于包装一小段文本或... 目录一、安装相关依赖二、html 页面结构三、使用 BeautifulSoup javascript

Ilya-AI分享的他在OpenAI学习到的15个提示工程技巧

Ilya(不是本人,claude AI)在社交媒体上分享了他在OpenAI学习到的15个Prompt撰写技巧。 以下是详细的内容: 提示精确化:在编写提示时,力求表达清晰准确。清楚地阐述任务需求和概念定义至关重要。例:不用"分析文本",而用"判断这段话的情感倾向:积极、消极还是中性"。 快速迭代:善于快速连续调整提示。熟练的提示工程师能够灵活地进行多轮优化。例:从"总结文章"到"用

AI绘图怎么变现?想做点副业的小白必看!

在科技飞速发展的今天,AI绘图作为一种新兴技术,不仅改变了艺术创作的方式,也为创作者提供了多种变现途径。本文将详细探讨几种常见的AI绘图变现方式,帮助创作者更好地利用这一技术实现经济收益。 更多实操教程和AI绘画工具,可以扫描下方,免费获取 定制服务:个性化的创意商机 个性化定制 AI绘图技术能够根据用户需求生成个性化的头像、壁纸、插画等作品。例如,姓氏头像在电商平台上非常受欢迎,

基于人工智能的图像分类系统

目录 引言项目背景环境准备 硬件要求软件安装与配置系统设计 系统架构关键技术代码示例 数据预处理模型训练模型预测应用场景结论 1. 引言 图像分类是计算机视觉中的一个重要任务,目标是自动识别图像中的对象类别。通过卷积神经网络(CNN)等深度学习技术,我们可以构建高效的图像分类系统,广泛应用于自动驾驶、医疗影像诊断、监控分析等领域。本文将介绍如何构建一个基于人工智能的图像分类系统,包括环境

从去中心化到智能化:Web3如何与AI共同塑造数字生态

在数字时代的演进中,Web3和人工智能(AI)正成为塑造未来互联网的两大核心力量。Web3的去中心化理念与AI的智能化技术,正相互交织,共同推动数字生态的变革。本文将探讨Web3与AI的融合如何改变数字世界,并展望这一新兴组合如何重塑我们的在线体验。 Web3的去中心化愿景 Web3代表了互联网的第三代发展,它基于去中心化的区块链技术,旨在创建一个开放、透明且用户主导的数字生态。不同于传统

AI一键生成 PPT

AI一键生成 PPT 操作步骤 作为一名打工人,是不是经常需要制作各种PPT来分享我的生活和想法。但是,你们知道,有时候灵感来了,时间却不够用了!😩直到我发现了Kimi AI——一个能够自动生成PPT的神奇助手!🌟 什么是Kimi? 一款月之暗面科技有限公司开发的AI办公工具,帮助用户快速生成高质量的演示文稿。 无论你是职场人士、学生还是教师,Kimi都能够为你的办公文

Andrej Karpathy最新采访:认知核心模型10亿参数就够了,AI会打破教育不公的僵局

夕小瑶科技说 原创  作者 | 海野 AI圈子的红人,AI大神Andrej Karpathy,曾是OpenAI联合创始人之一,特斯拉AI总监。上一次的动态是官宣创办一家名为 Eureka Labs 的人工智能+教育公司 ,宣布将长期致力于AI原生教育。 近日,Andrej Karpathy接受了No Priors(投资博客)的采访,与硅谷知名投资人 Sara Guo 和 Elad G

AI hospital 论文Idea

一、Benchmarking Large Language Models on Communicative Medical Coaching: A Dataset and a Novel System论文地址含代码 大多数现有模型和工具主要迎合以患者为中心的服务。这项工作深入探讨了LLMs在提高医疗专业人员的沟通能力。目标是构建一个模拟实践环境,人类医生(即医学学习者)可以在其中与患者代理进行医学

AI行业应用(不定期更新)

ChatPDF 可以让你上传一个 PDF 文件,然后针对这个 PDF 进行小结和提问。你可以把各种各样你要研究的分析报告交给它,快速获取到想要知道的信息。https://www.chatpdf.com/