Stability AI发布Stable Video 3D模型:可从单张图像创建多视图3D视频,视频扩散模型史诗级提升!

本文主要是介绍Stability AI发布Stable Video 3D模型:可从单张图像创建多视图3D视频,视频扩散模型史诗级提升!,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

Stability AI发布了Stable Video 3D (SV3D),这是一种基于稳定视频扩散的生成模型,推动了3D技术领域的发展,并大大提高了质量和视图一致性。

该版本有两个版本:

  • SV3D_u:该变体基于单图像输入生成轨道视频,无需相机调节。

  • SV3D_p:扩展SVD3_u的功能,此变体可容纳单图像和轨道视图,允许沿着指定的相机路径创建3D视频。

Stable Video 3D现在可以用于商业目的与稳定的AI会员。对于非商业用途,可以在huggingface上下载模型权重并查看论文。

相关链接

目前模型和技术报告已经发布:

  • 模型:https://huggingface.co/stabilityai/sv3d

  • 技术报告:https://stability.ai/s/SV3D_rep

  • 项目主页:https://stability.ai/news/introducing-stable-video-3d

论文阅读

摘要

论文提出了稳定视频3D (SV3D),一种潜在的视频扩散模型,用于高分辨率,图像到多视图生成围绕3D物体的轨道视频。最近的工作三维生成方面,提出了将二维生成模型用于新视图合成(NVS)和三维优化的技术。

然而,这些方法有几个缺点由于有限的视角或不一致的NVS,从而影响了3D对象生成的性能。在这个 在本文中,我们提出了基于图像到视频扩散模型的SV3D,用于新的多视图合成和3D生成,从而利用了泛化和多视图视频模型的一致性,同时进一步为NVS添加显式摄像机控制。

我们还建议改进使用SV3D及其NVS输出进行图像到3D生成的3D优化技术。大量的实验在2D和3D指标的多个数据集上的结果用户研究证明了SV3D在NVS和3D重建方面的最先进性能。

方法

SV3D架构

SV3D建立在SVD的基础上,SVD由多层UNet组成,每层包含一个带有Conv3D层的残差块和两个变压器块的序列(空间和时间)有注意层。

  • 我们删除了"fps id"和"motion bucket id "的向量条件,因为它们与SV3D无关。

  • 条件反射图像通过SVD的VAE编码器嵌入到隐空间后,与UNet在噪声时间步长t处的噪声潜状态输入z t连接。

  • 将条件图像的CLIPembedding矩阵作为其键和值提供给每个transformer块的交叉注意力层。

  • 将摄像机轨迹连同扩散噪声时间步长一起输入到残差块中。首先,将摄像机姿态角度ei和ai以及噪声时间步长t嵌入到正弦位置嵌入中。然后,将相机姿态嵌入连接在一起,进行线性变换,并将其添加到噪声时间步嵌入中。这被馈送到每个残差块,在那里它们被添加到块的输出特征中。

实验结果

Stable Video 3D引入了3D生成的重大进步,特别是在新视图合成(NVS)方面。不像以前的方法,往往与有限的视角和输出不一致,稳定的视频3D能够提供连贯的观点,从任何给定的角度与熟练的泛化。这种能力不仅增强了姿态可控性,而且确保了跨多个视图的一致对象外观,进一步提高了逼真和准确的3D生成的关键方面。

新视图合成

多视点合成

SV3D能够生成更详细、更真实的新颖多视图。以调理图像为主,与前人作品的多视角比较一致。

3D生成

SV3D利用其多视图一致性来优化3D神经辐射场(NeRF)和网格表示,以提高从新视图直接生成的3D网格的质量。为此论文设计了一个掩蔽分数蒸馏采样损失,以进一步提高在预测视图中不可见区域的3D质量。此外为了减少嵌入式照明问题,SV 3D采用了与3D形状和纹理共同优化的解纠缠照明模型。

感谢你看到这里,也欢迎点击关注下方公众号,一个有趣有AI的AIGC公众号:关注AI、深度学习、计算机视觉、AIGC、Stable Diffusion、Sora等相关技术,欢迎一起交流学习💗~

 

这篇关于Stability AI发布Stable Video 3D模型:可从单张图像创建多视图3D视频,视频扩散模型史诗级提升!的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/839986

相关文章

Window Server2016 AD域的创建的方法步骤

《WindowServer2016AD域的创建的方法步骤》本文主要介绍了WindowServer2016AD域的创建的方法步骤,文中通过图文介绍的非常详细,对大家的学习或者工作具有一定的参考学习价... 目录一、准备条件二、在ServerA服务器中常见AD域管理器:三、创建AD域,域地址为“test.ly”

Golang的CSP模型简介(最新推荐)

《Golang的CSP模型简介(最新推荐)》Golang采用了CSP(CommunicatingSequentialProcesses,通信顺序进程)并发模型,通过goroutine和channe... 目录前言一、介绍1. 什么是 CSP 模型2. Goroutine3. Channel4. Channe

C#使用yield关键字实现提升迭代性能与效率

《C#使用yield关键字实现提升迭代性能与效率》yield关键字在C#中简化了数据迭代的方式,实现了按需生成数据,自动维护迭代状态,本文主要来聊聊如何使用yield关键字实现提升迭代性能与效率,感兴... 目录前言传统迭代和yield迭代方式对比yield延迟加载按需获取数据yield break显式示迭

基于WinForm+Halcon实现图像缩放与交互功能

《基于WinForm+Halcon实现图像缩放与交互功能》本文主要讲述在WinForm中结合Halcon实现图像缩放、平移及实时显示灰度值等交互功能,包括初始化窗口的不同方式,以及通过特定事件添加相应... 目录前言初始化窗口添加图像缩放功能添加图像平移功能添加实时显示灰度值功能示例代码总结最后前言本文将

Python视频处理库VidGear使用小结

《Python视频处理库VidGear使用小结》VidGear是一个高性能的Python视频处理库,本文主要介绍了Python视频处理库VidGear使用小结,文中通过示例代码介绍的非常详细,对大家的... 目录一、VidGear的安装二、VidGear的主要功能三、VidGear的使用示例四、VidGea

Ubuntu系统怎么安装Warp? 新一代AI 终端神器安装使用方法

《Ubuntu系统怎么安装Warp?新一代AI终端神器安装使用方法》Warp是一款使用Rust开发的现代化AI终端工具,该怎么再Ubuntu系统中安装使用呢?下面我们就来看看详细教程... Warp Terminal 是一款使用 Rust 开发的现代化「AI 终端」工具。最初它只支持 MACOS,但在 20

五大特性引领创新! 深度操作系统 deepin 25 Preview预览版发布

《五大特性引领创新!深度操作系统deepin25Preview预览版发布》今日,深度操作系统正式推出deepin25Preview版本,该版本集成了五大核心特性:磐石系统、全新DDE、Tr... 深度操作系统今日发布了 deepin 25 Preview,新版本囊括五大特性:磐石系统、全新 DDE、Tree

Linux Mint Xia 22.1重磅发布: 重要更新一览

《LinuxMintXia22.1重磅发布:重要更新一览》Beta版LinuxMint“Xia”22.1发布,新版本基于Ubuntu24.04,内核版本为Linux6.8,这... linux Mint 22.1「Xia」正式发布啦!这次更新带来了诸多优化和改进,进一步巩固了 Mint 在 Linux 桌面

Python在固定文件夹批量创建固定后缀的文件(方法详解)

《Python在固定文件夹批量创建固定后缀的文件(方法详解)》文章讲述了如何使用Python批量创建后缀为.md的文件夹,生成100个,代码中需要修改的路径、前缀和后缀名,并提供了注意事项和代码示例,... 目录1. python需求的任务2. Python代码的实现3. 代码修改的位置4. 运行结果5.

使用IntelliJ IDEA创建简单的Java Web项目完整步骤

《使用IntelliJIDEA创建简单的JavaWeb项目完整步骤》:本文主要介绍如何使用IntelliJIDEA创建一个简单的JavaWeb项目,实现登录、注册和查看用户列表功能,使用Se... 目录前置准备项目功能实现步骤1. 创建项目2. 配置 Tomcat3. 项目文件结构4. 创建数据库和表5.