Text2Video-Zero:Text-to-Image Diffusion Models are Zero-Shot Video Generators

2023-11-03 02:20

本文主要是介绍Text2Video-Zero:Text-to-Image Diffusion Models are Zero-Shot Video Generators,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

【AIGC-AI视频生成系列-文章1】Text2Video-Zero - 知乎一句话亮点:当文本-视频生成也不需要额外数据训练,只需要基于现有的diffusion-model 如Stable Diffusion能力调整即可实现,解决生成视频帧间不一致问题,是不是很心动。 文章链接:Text-to-Image Diffusion Mode…https://zhuanlan.zhihu.com/p/626777733

0.abstract

本文不需要额外数据训练,利用现有的文本到图像合成能力,例如stable diffusion,可以解决帧间不一致的问题。调整包括两方面:1.使用motion dynamics丰富真的latent code,以保持全局场景和背景的一致性。2.重新编程帧间self-attention,使用每个帧对第一个帧的cross-frame attention来保留前景对象的content、appearance和identity。方法不局限于文生视频,还适用于条件和内容专用的视频生成,以及pix2pix,引导引导的视频编辑。

1.introduction

一些工作试图在视频领域重新利用文本到图像扩散模型来扩展文本到视频生成和编辑,但是需要大量标注数据,VideoFusion就属于要用视频数据训练的,tune a video属于one-shot的,zero-shot方法利用图文生成模型,但是要解决一致性问题,三个贡献:

1.zero-shot

2.在latent code中编码motion dynamics和使用跨帧注意力来重新编码帧级别self-attention。

3.条件和内容专用视频生成,video instruct pix2pix,视频编辑。

2.related works

NUMA->Phenaki->Cogvideo(Cogview2)->VDM->Imagen Video->Make  a video->Gen-1->Tune a Video->Text2Video-Zero

3.methods

Text2video-zero和controlnet,dreambooth结合,以及Video Instruct-pix2pix。由于需要生成视频,stable diffusion应当在latent code的序列上操作,朴素的方法是从标准高斯中独立采样m个latent code,并对每个latent code应用DDIM采样以获得相应的张量,然后解码以获得生成的视频序列,但是如下图:

上图中第一行是没有motion和cross-frame attention的,导致了完全随机的图像生成,仅有文本描述的语义,没有物体运动的连贯性,为了解决这个问题:

1.在latent code中引入了motion dynamics,使得生成视频序列具有连贯性和一致性。

2.引入跨帧注意力机制保证前景对象的外观一致性。

3.1 motion dynamics in latent codes

3.2 reprogramming cross-frame attention

为了保留前景对象的外形、形状和身份等信息,使用cross-frame attention并在生成的过程贯穿整个序列。为了利用cross-frame attention也不重新训练sd,将sd中的每个self-attention替换成cross-frame attention,其中每帧的注意力都放在第一帧上。在原始的sd unet架构中,每一层都能得到一个feature map,对其进行线性投影获得query,key,value,计算如下:

在text2video-zero中每个attention层都接收m个输入,线性投影后残生m个queries,keys和values,因此cross-frame attention:

通过cross-frame attention,对象和背景的外观,结构和身份都从第一帧传到了后续帧,大大提高了生成帧的时间一致性。

 模型结构:

上面这个图是本文的核心,首先从latent code开始,使用进过预训练好的sd中的DDIM反向传播得x,此处得到就是一帧一帧的图像,为每一帧指定一个运动场,这个运动场就是所谓的motion dynamics,通过变形函数W来完成,然后再通过DDPM前向将其编码到latent code中,此时的latent code就具备了全局运动一致性,通过DDPM是因为可以在对象的运动方面获得更大的自由度,最后,将latent code传递给修改后的sd产生一帧一帧的视频。

4.结合controlnet

这篇关于Text2Video-Zero:Text-to-Image Diffusion Models are Zero-Shot Video Generators的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/334898

相关文章

uva 10061 How many zero's and how many digits ?(不同进制阶乘末尾几个0)+poj 1401

题意是求在base进制下的 n!的结果有几位数,末尾有几个0。 想起刚开始的时候做的一道10进制下的n阶乘末尾有几个零,以及之前有做过的一道n阶乘的位数。 当时都是在10进制下的。 10进制下的做法是: 1. n阶位数:直接 lg(n!)就是得数的位数。 2. n阶末尾0的个数:由于2 * 5 将会在得数中以0的形式存在,所以计算2或者计算5,由于因子中出现5必然出现2,所以直接一

论文翻译:arxiv-2024 Benchmark Data Contamination of Large Language Models: A Survey

Benchmark Data Contamination of Large Language Models: A Survey https://arxiv.org/abs/2406.04244 大规模语言模型的基准数据污染:一项综述 文章目录 大规模语言模型的基准数据污染:一项综述摘要1 引言 摘要 大规模语言模型(LLMs),如GPT-4、Claude-3和Gemini的快

论文翻译:ICLR-2024 PROVING TEST SET CONTAMINATION IN BLACK BOX LANGUAGE MODELS

PROVING TEST SET CONTAMINATION IN BLACK BOX LANGUAGE MODELS https://openreview.net/forum?id=KS8mIvetg2 验证测试集污染在黑盒语言模型中 文章目录 验证测试集污染在黑盒语言模型中摘要1 引言 摘要 大型语言模型是在大量互联网数据上训练的,这引发了人们的担忧和猜测,即它们可能已

lvgl8.3.6 控件垂直布局 label控件在image控件的下方显示

在使用 LVGL 8.3.6 创建一个垂直布局,其中 label 控件位于 image 控件下方,你可以使用 lv_obj_set_flex_flow 来设置布局为垂直,并确保 label 控件在 image 控件后添加。这里是如何步骤性地实现它的一个基本示例: 创建父容器:首先创建一个容器对象,该对象将作为布局的基础。设置容器为垂直布局:使用 lv_obj_set_flex_flow 设置容器

Apple quietly slips WebRTC audio, video into Safari's WebKit spec

转自:http://www.zdnet.com/article/apple-quietly-slips-webrtc-audio-video-into-safaris-webkit-spec/?from=timeline&isappinstalled=0 http://www.zdnet.com/article/apple-quietly-slips-webrtc-audio-video-

SAM2POINT:以zero-shot且快速的方式将任何 3D 视频分割为视频

摘要 我们介绍 SAM2POINT,这是一种采用 Segment Anything Model 2 (SAM 2) 进行零样本和快速 3D 分割的初步探索。 SAM2POINT 将任何 3D 数据解释为一系列多向视频,并利用 SAM 2 进行 3D 空间分割,无需进一步训练或 2D-3D 投影。 我们的框架支持各种提示类型,包括 3D 点、框和掩模,并且可以泛化到不同的场景,例如 3D 对象、室

【Python报错已解决】AttributeError: ‘list‘ object has no attribute ‘text‘

🎬 鸽芷咕:个人主页  🔥 个人专栏: 《C++干货基地》《粉丝福利》 ⛺️生活的理想,就是为了理想的生活! 文章目录 前言一、问题描述1.1 报错示例1.2 报错分析1.3 解决思路 二、解决方法2.1 方法一:检查属性名2.2 步骤二:访问列表元素的属性 三、其他解决方法四、总结 前言 在Python编程中,属性错误(At

速通GPT-3:Language Models are Few-Shot Learners全文解读

文章目录 论文实验总览1. 任务设置与测试策略2. 任务类别3. 关键实验结果4. 数据污染与实验局限性5. 总结与贡献 Abstract1. 概括2. 具体分析3. 摘要全文翻译4. 为什么不需要梯度更新或微调⭐ Introduction1. 概括2. 具体分析3. 进一步分析 Approach1. 概括2. 具体分析3. 进一步分析 Results1. 概括2. 具体分析2.1 语言模型

MonoHuman: Animatable Human Neural Field from Monocular Video 翻译

MonoHuman:来自单目视频的可动画人类神经场 摘要。利用自由视图控制来动画化虚拟化身对于诸如虚拟现实和数字娱乐之类的各种应用来说是至关重要的。已有的研究试图利用神经辐射场(NeRF)的表征能力从单目视频中重建人体。最近的工作提出将变形网络移植到NeRF中,以进一步模拟人类神经场的动力学,从而动画化逼真的人类运动。然而,这种流水线要么依赖于姿态相关的表示,要么由于帧无关的优化而缺乏运动一致性

论文精读-Supervised Raw Video Denoising with a Benchmark Dataset on Dynamic Scenes

论文精读-Supervised Raw Video Denoising with a Benchmark Dataset on Dynamic Scenes 优势 1、构建了一个用于监督原始视频去噪的基准数据集。为了多次捕捉瞬间,我们手动为对象s创建运动。在高ISO模式下捕获每一时刻的噪声帧,并通过对多个噪声帧进行平均得到相应的干净帧。 2、有效的原始视频去噪网络(RViDeNet),通过探