Stability AI发布Stable Video 3D模型:可从单张图像创建多视图3D视频,视频扩散模型史诗级提升!

本文主要是介绍Stability AI发布Stable Video 3D模型:可从单张图像创建多视图3D视频,视频扩散模型史诗级提升!,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

Stability AI发布了Stable Video 3D (SV3D),这是一种基于稳定视频扩散的生成模型,推动了3D技术领域的发展,并大大提高了质量和视图一致性。

该版本有两个版本:

  • SV3D_u:该变体基于单图像输入生成轨道视频,无需相机调节。

  • SV3D_p:扩展SVD3_u的功能,此变体可容纳单图像和轨道视图,允许沿着指定的相机路径创建3D视频。

Stable Video 3D现在可以用于商业目的与稳定的AI会员。对于非商业用途,可以在huggingface上下载模型权重并查看论文。

相关链接

目前模型和技术报告已经发布:

  • 模型:https://huggingface.co/stabilityai/sv3d

  • 技术报告:https://stability.ai/s/SV3D_rep

  • 项目主页:https://stability.ai/news/introducing-stable-video-3d

论文阅读

摘要

论文提出了稳定视频3D (SV3D),一种潜在的视频扩散模型,用于高分辨率,图像到多视图生成围绕3D物体的轨道视频。最近的工作三维生成方面,提出了将二维生成模型用于新视图合成(NVS)和三维优化的技术。

然而,这些方法有几个缺点由于有限的视角或不一致的NVS,从而影响了3D对象生成的性能。在这个 在本文中,我们提出了基于图像到视频扩散模型的SV3D,用于新的多视图合成和3D生成,从而利用了泛化和多视图视频模型的一致性,同时进一步为NVS添加显式摄像机控制。

我们还建议改进使用SV3D及其NVS输出进行图像到3D生成的3D优化技术。大量的实验在2D和3D指标的多个数据集上的结果用户研究证明了SV3D在NVS和3D重建方面的最先进性能。

方法

SV3D架构

SV3D建立在SVD的基础上,SVD由多层UNet组成,每层包含一个带有Conv3D层的残差块和两个变压器块的序列(空间和时间)有注意层。

  • 我们删除了"fps id"和"motion bucket id "的向量条件,因为它们与SV3D无关。

  • 条件反射图像通过SVD的VAE编码器嵌入到隐空间后,与UNet在噪声时间步长t处的噪声潜状态输入z t连接。

  • 将条件图像的CLIPembedding矩阵作为其键和值提供给每个transformer块的交叉注意力层。

  • 将摄像机轨迹连同扩散噪声时间步长一起输入到残差块中。首先,将摄像机姿态角度ei和ai以及噪声时间步长t嵌入到正弦位置嵌入中。然后,将相机姿态嵌入连接在一起,进行线性变换,并将其添加到噪声时间步嵌入中。这被馈送到每个残差块,在那里它们被添加到块的输出特征中。

实验结果

Stable Video 3D引入了3D生成的重大进步,特别是在新视图合成(NVS)方面。不像以前的方法,往往与有限的视角和输出不一致,稳定的视频3D能够提供连贯的观点,从任何给定的角度与熟练的泛化。这种能力不仅增强了姿态可控性,而且确保了跨多个视图的一致对象外观,进一步提高了逼真和准确的3D生成的关键方面。

新视图合成

多视点合成

SV3D能够生成更详细、更真实的新颖多视图。以调理图像为主,与前人作品的多视角比较一致。

3D生成

SV3D利用其多视图一致性来优化3D神经辐射场(NeRF)和网格表示,以提高从新视图直接生成的3D网格的质量。为此论文设计了一个掩蔽分数蒸馏采样损失,以进一步提高在预测视图中不可见区域的3D质量。此外为了减少嵌入式照明问题,SV 3D采用了与3D形状和纹理共同优化的解纠缠照明模型。

感谢你看到这里,也欢迎点击关注下方公众号,一个有趣有AI的AIGC公众号:关注AI、深度学习、计算机视觉、AIGC、Stable Diffusion、Sora等相关技术,欢迎一起交流学习💗~

 

这篇关于Stability AI发布Stable Video 3D模型:可从单张图像创建多视图3D视频,视频扩散模型史诗级提升!的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/839986

相关文章

Ilya-AI分享的他在OpenAI学习到的15个提示工程技巧

Ilya(不是本人,claude AI)在社交媒体上分享了他在OpenAI学习到的15个Prompt撰写技巧。 以下是详细的内容: 提示精确化:在编写提示时,力求表达清晰准确。清楚地阐述任务需求和概念定义至关重要。例:不用"分析文本",而用"判断这段话的情感倾向:积极、消极还是中性"。 快速迭代:善于快速连续调整提示。熟练的提示工程师能够灵活地进行多轮优化。例:从"总结文章"到"用

流媒体平台/视频监控/安防视频汇聚EasyCVR播放暂停后视频画面黑屏是什么原因?

视频智能分析/视频监控/安防监控综合管理系统EasyCVR视频汇聚融合平台,是TSINGSEE青犀视频垂直深耕音视频流媒体技术、AI智能技术领域的杰出成果。该平台以其强大的视频处理、汇聚与融合能力,在构建全栈视频监控系统中展现出了独特的优势。视频监控管理系统EasyCVR平台内置了强大的视频解码、转码、压缩等技术,能够处理多种视频流格式,并以多种格式(RTMP、RTSP、HTTP-FLV、WebS

AI绘图怎么变现?想做点副业的小白必看!

在科技飞速发展的今天,AI绘图作为一种新兴技术,不仅改变了艺术创作的方式,也为创作者提供了多种变现途径。本文将详细探讨几种常见的AI绘图变现方式,帮助创作者更好地利用这一技术实现经济收益。 更多实操教程和AI绘画工具,可以扫描下方,免费获取 定制服务:个性化的创意商机 个性化定制 AI绘图技术能够根据用户需求生成个性化的头像、壁纸、插画等作品。例如,姓氏头像在电商平台上非常受欢迎,

大模型研发全揭秘:客服工单数据标注的完整攻略

在人工智能(AI)领域,数据标注是模型训练过程中至关重要的一步。无论你是新手还是有经验的从业者,掌握数据标注的技术细节和常见问题的解决方案都能为你的AI项目增添不少价值。在电信运营商的客服系统中,工单数据是客户问题和解决方案的重要记录。通过对这些工单数据进行有效标注,不仅能够帮助提升客服自动化系统的智能化水平,还能优化客户服务流程,提高客户满意度。本文将详细介绍如何在电信运营商客服工单的背景下进行

基于人工智能的图像分类系统

目录 引言项目背景环境准备 硬件要求软件安装与配置系统设计 系统架构关键技术代码示例 数据预处理模型训练模型预测应用场景结论 1. 引言 图像分类是计算机视觉中的一个重要任务,目标是自动识别图像中的对象类别。通过卷积神经网络(CNN)等深度学习技术,我们可以构建高效的图像分类系统,广泛应用于自动驾驶、医疗影像诊断、监控分析等领域。本文将介绍如何构建一个基于人工智能的图像分类系统,包括环境

无人叉车3d激光slam多房间建图定位异常处理方案-墙体画线地图切分方案

墙体画线地图切分方案 针对问题:墙体两侧特征混淆误匹配,导致建图和定位偏差,表现为过门跳变、外月台走歪等 ·解决思路:预期的根治方案IGICP需要较长时间完成上线,先使用切分地图的工程化方案,即墙体两侧切分为不同地图,在某一侧只使用该侧地图进行定位 方案思路 切分原理:切分地图基于关键帧位置,而非点云。 理论基础:光照是直线的,一帧点云必定只能照射到墙的一侧,无法同时照到两侧实践考虑:关

从去中心化到智能化:Web3如何与AI共同塑造数字生态

在数字时代的演进中,Web3和人工智能(AI)正成为塑造未来互联网的两大核心力量。Web3的去中心化理念与AI的智能化技术,正相互交织,共同推动数字生态的变革。本文将探讨Web3与AI的融合如何改变数字世界,并展望这一新兴组合如何重塑我们的在线体验。 Web3的去中心化愿景 Web3代表了互联网的第三代发展,它基于去中心化的区块链技术,旨在创建一个开放、透明且用户主导的数字生态。不同于传统

AI一键生成 PPT

AI一键生成 PPT 操作步骤 作为一名打工人,是不是经常需要制作各种PPT来分享我的生活和想法。但是,你们知道,有时候灵感来了,时间却不够用了!😩直到我发现了Kimi AI——一个能够自动生成PPT的神奇助手!🌟 什么是Kimi? 一款月之暗面科技有限公司开发的AI办公工具,帮助用户快速生成高质量的演示文稿。 无论你是职场人士、学生还是教师,Kimi都能够为你的办公文

高效+灵活,万博智云全球发布AWS无代理跨云容灾方案!

摘要 近日,万博智云推出了基于AWS的无代理跨云容灾解决方案,并与拉丁美洲,中东,亚洲的合作伙伴面向全球开展了联合发布。这一方案以AWS应用环境为基础,将HyperBDR平台的高效、灵活和成本效益优势与无代理功能相结合,为全球企业带来实现了更便捷、经济的数据保护。 一、全球联合发布 9月2日,万博智云CEO Michael Wong在线上平台发布AWS无代理跨云容灾解决方案的阐述视频,介绍了

Andrej Karpathy最新采访:认知核心模型10亿参数就够了,AI会打破教育不公的僵局

夕小瑶科技说 原创  作者 | 海野 AI圈子的红人,AI大神Andrej Karpathy,曾是OpenAI联合创始人之一,特斯拉AI总监。上一次的动态是官宣创办一家名为 Eureka Labs 的人工智能+教育公司 ,宣布将长期致力于AI原生教育。 近日,Andrej Karpathy接受了No Priors(投资博客)的采访,与硅谷知名投资人 Sara Guo 和 Elad G