【论文阅读】(WALT)Photorealistic Video Generation with Diffusion Models

本文主要是介绍【论文阅读】(WALT)Photorealistic Video Generation with Diffusion Models,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

(WALT)Photorealistic Video Generation with Diffusion Models

文章目录

  • (WALT)Photorealistic Video Generation with Diffusion Models
    • 论文概述
    • WALT
      • Learning Visual Tokens
      • Learning to Generate Images and Videos
      • Conditional Generation
      • Autoregressive Generation
      • Video Super Resolution
    • 实验
    • 参考文献

引用: Gupta A, Yu L, Sohn K, et al. Photorealistic video generation with diffusion models[J]. arXiv preprint arXiv:2312.06662, 2023.

论文链接: https://arxiv.org/abs/2312.06662

论文概述

论文提出了WALT,这是一种基于transformer的方法,用于通过扩散建模生成逼真的视频。首先,使用因果编码器在统一的潜在空间内联合压缩图像和视频,从而实现跨模态的训练和生成。其次,为了记忆和训练效率,使用了为联合空间和时空生成建模量身定制的窗口注意力架构。综上所述,这些设计决策使模型在已建立的视频(UCF-101 和 Kinetics-600)和图像 (ImageNet) 生成基准测试中实现最先进的性能,而无需使用无分类器引导。最后,我们还训练了三个模型的级联,用于文本到视频的生成任务,包括一个基本的潜在视频扩散模型和两个视频超分辨率扩散模型来生成512×896分辨率且每秒8帧。

WALT

如图所示,WALT将图像和视频编码到一个共享的潜在空间中。Transformer 主干网使用具有两层窗口限制注意力的块来处理这些潜伏:空间层捕获图像和视频中的空间关系,而时空层通过身份注意力掩码对视频中的时间动态和传递图像进行建模。文本调节是通过空间交叉注意力完成的。

Learning Visual Tokens

视频生成建模的一个关键设计决策是潜在空间表示的选择。 理想情况下,我们想要一个共享和统一的压缩视觉表示,可用于图像和视频的生成建模。具体来说,给定一个视频序列x,目标是学习一个低维表示z,它在空间上执行时空压缩,在空间上按 fs = H/h = W/w 的系数和在时间上的 ft = T /t 的系数执行时空压缩。为了实现视频和静态图像的统一表示,第一帧始终独立于视频的其余部分进行编码。WALT使用 MAGVIT-v2 分词器的因果 3D CNN 编码器-解码器架构[1]来实例化此设计。通常,编码器-解码器由规则的3D卷积层组成,这些卷积层不能独立处理第一帧。因果 3D 卷积层解决了这个问题,因为卷积核仅对过去的 kt − 1 帧进行操作。这可确保每个帧的输出仅受前面的帧的影响,从而使模型能够独立地标记第一个帧。在此阶段之后,模型的输入是一批潜在张量z,代表单个视频或 1 + t 独立图像的堆栈。与[1]不同,WALT的潜在表示是实值的,并且没有量化。

Learning to Generate Images and Videos

  • Patchify:按照最初的ViT,通过将每个潜在帧转换为一系列不重叠的hp×wp补丁来独立地“Patchify”每个潜在帧,其中hp = h/p,wp = w/p,p是补丁大小。使用可学习的位置嵌入[2],它是空间和时间位置嵌入的总和。位置嵌入被添加到补丁的线性投影[3]中。注意,对于图像,只需添加与第一个潜在帧相对应的时间位置嵌入即可。

  • Window attention: 完全由全局自注意力模块组成的 Transformer 模型会产生巨大的计算和内存成本,尤其是对于视频任务。为了提高效率并共同处理图像和视频,WALT基于两种类型的非重叠配置来计算窗口中的自注意力:空间(S)和时空(ST),cf。图中空间窗口 (SW) 的注意力仅限于大小为 1×hp×wp(第一个维度是时间)的潜在帧内的所有标记。SW 对图像和视频中的空间关系进行建模。时空窗口 (STW) 注意力被限制在大小为 (1 + t) × h ′ p × h ′ w 的 3D 窗口内,对视频潜在帧之间的时间关系进行建模。对于图像,只需使用标识注意掩码,确保对应于图像帧潜在值的值嵌入按原样通过层。最后,除了绝对位置嵌入之外,还使用相对位置嵌入。

Conditional Generation

为了实现可控的视频生成,除了以时间步长 t 为条件外,扩散模型通常还以其他条件信息 c 为条件,例如类标签、自然语言、过去的帧或低分辨率视频。在WALT的 Transformer 主干网中,采用了三种类型的conditioning机制:

  • Cross-attention:除了 Windows Transformer 模块中的自注意力层外,还添加了一个用于文本条件生成的交叉注意力层。当仅在视频上训练模型时,交叉注意力层采用与自注意力层相同的窗口限制注意力,这意味着 S/ST 模块将具有 SW/STW 交叉注意力层。但是,对于联合训练,只使用SW交叉注意力层。对于交叉注意力,将输入信号(查询)与conditioning信号(键、值)连接起来。

  • AdaLN-LoRA:自适应归一化层是各种生成和视觉合成模型中的重要组成部分。合并自适应层归一化的一种简单方法是为每个层 i 包含一个 MLP 层,以回归条件参数 Ai = MLP(c + t) 的向量,其中 Ai = concat(γ1, γ2, β1, β2, α1, α2), Ai ∈ R 6×dmodel 和 c ∈ R dmodel , t ∈ R dmodel 是条件和时间步长嵌入。在 transformer 模块中,γ 和 β 分别缩放和移动多头注意力层和 MLP 层的输入,而 α 缩放多头注意力层和 MLP 层的输出。这些附加 MLP 层的参数计数随层数线性缩放,并与模型的维度大小二次缩放(dmodel × 6 个× dmodel ×块数)。例如,在具有 1B 参数的 ViT-g 模型中,MLP 层贡献了额外的 475M 参数。受[4]的启发,我们提出了一种称为AdaLN-LoRA的简单解决方案,以减少模型参数。对于每一层,将条件参数回归为

  • Self-conditioning除了以外部输入为条件外,迭代生成算法还可以在推理过程中以自己先前生成的样本为条件。具体来说,Chen等[5]修改了扩散模型的训练过程,使得模型以某种概率首先生成一个样本,然后使用另一个以该初始样本为条件的前向传递来细化该估计。将模型估计与沿通道维度的输入连接起来,发现这种简单的技术在与 v-prediction结合使用时效果很好。

Autoregressive Generation

为了通过自回归预测生成长视频,WALT还在帧预测任务上联合训练模型。这是通过在训练期间以p的概率将模型调节到过去的帧来实现的。使用 Cfp = concat(mfp ◦ Zt, mfp) 对模型进行调节,其中mfp是二进制掩码。二进制掩码表示用于调节的过去帧数,以 1 个潜在帧(图像到视频生成)或 2 个潜在帧(视频预测)为条件。这种调节通过沿噪声潜在输入的信道维度的串联集成到模型中。在推理过程中,使用 cfp 作为条件信号的标准无分类器引导。

Video Super Resolution

使用单个模型生成高分辨率视频在计算上是令人望而却步的。因此,使用级联方法,三个模型以递增的分辨率运行。基本模型生成 128 × 128 分辨率的视频,随后通过两个超分辨率阶段进行两次上采样。首先使用depth-to-space卷积操作对低分辨率输入(视频或图像)进行上采样。注意,与提供ground-truth的低分辨率输入的训练不同,推理依赖于前几个阶段产生的潜在内容。为了减少这种差异并提高超分辨率级在处理低分辨率级产生的伪影时的鲁棒性,使用了噪声调节增强[6]

实验


参考文献

[1] Lijun Yu, Jose Lezama, Nitesh B Gundavarapu, Luca Versari, Kihyuk Sohn, David Minnen, Yong Cheng, Agrim Gupta, Xiuye Gu, Alexander G Hauptmann, et al. Language model beats diffusion–tokenizer is key to visual generation. arXiv preprint arXiv:2310.05737, 2023. 3, 4, 5, 1.

[2] Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N Gomez, Łukasz Kaiser, and Illia Polosukhin. Attention is all you need. In NeurIPS, 2017. 1, 2, 4.

[3] Alexey Dosovitskiy, Lucas Beyer, Alexander Kolesnikov, Dirk Weissenborn, Xiaohua Zhai, Thomas Unterthiner, Mostafa Dehghani, Matthias Minderer, Georg Heigold, Sylvain Gelly, et al. An image is worth 16x16 words: Transformers for image recognition at scale. In ICLR, 2020. 1, 4, 5.

[4] Edward J Hu, Yelong Shen, Phillip Wallis, Zeyuan Allen-Zhu, Yuanzhi Li, Shean Wang, Lu Wang, and Weizhu Chen. Lora: Low-rank adaptation of large language models. In ICLR, 2021. 4.

[5] Ting Chen, Ruixiang Zhang, and Geoffrey Hinton. Analog bits: Generating discrete data using diffusion models with self-conditioning. arXiv preprint arXiv:2208.04202, 2022. 4.

[6] Jonathan Ho, Chitwan Saharia, William Chan, David J Fleet, Mohammad Norouzi, and Tim Salimans. Cascaded diffusion models for high fidelity image generation. JMLR, 23(1):2249–2281, 2022. 5.

这篇关于【论文阅读】(WALT)Photorealistic Video Generation with Diffusion Models的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/775128

相关文章

JAVA智听未来一站式有声阅读平台听书系统小程序源码

智听未来,一站式有声阅读平台听书系统 🌟 开篇:遇见未来,从“智听”开始 在这个快节奏的时代,你是否渴望在忙碌的间隙,找到一片属于自己的宁静角落?是否梦想着能随时随地,沉浸在知识的海洋,或是故事的奇幻世界里?今天,就让我带你一起探索“智听未来”——这一站式有声阅读平台听书系统,它正悄悄改变着我们的阅读方式,让未来触手可及! 📚 第一站:海量资源,应有尽有 走进“智听

AI hospital 论文Idea

一、Benchmarking Large Language Models on Communicative Medical Coaching: A Dataset and a Novel System论文地址含代码 大多数现有模型和工具主要迎合以患者为中心的服务。这项工作深入探讨了LLMs在提高医疗专业人员的沟通能力。目标是构建一个模拟实践环境,人类医生(即医学学习者)可以在其中与患者代理进行医学

论文翻译:arxiv-2024 Benchmark Data Contamination of Large Language Models: A Survey

Benchmark Data Contamination of Large Language Models: A Survey https://arxiv.org/abs/2406.04244 大规模语言模型的基准数据污染:一项综述 文章目录 大规模语言模型的基准数据污染:一项综述摘要1 引言 摘要 大规模语言模型(LLMs),如GPT-4、Claude-3和Gemini的快

论文阅读笔记: Segment Anything

文章目录 Segment Anything摘要引言任务模型数据引擎数据集负责任的人工智能 Segment Anything Model图像编码器提示编码器mask解码器解决歧义损失和训练 Segment Anything 论文地址: https://arxiv.org/abs/2304.02643 代码地址:https://github.com/facebookresear

论文翻译:ICLR-2024 PROVING TEST SET CONTAMINATION IN BLACK BOX LANGUAGE MODELS

PROVING TEST SET CONTAMINATION IN BLACK BOX LANGUAGE MODELS https://openreview.net/forum?id=KS8mIvetg2 验证测试集污染在黑盒语言模型中 文章目录 验证测试集污染在黑盒语言模型中摘要1 引言 摘要 大型语言模型是在大量互联网数据上训练的,这引发了人们的担忧和猜测,即它们可能已

OmniGlue论文详解(特征匹配)

OmniGlue论文详解(特征匹配) 摘要1. 引言2. 相关工作2.1. 广义局部特征匹配2.2. 稀疏可学习匹配2.3. 半稠密可学习匹配2.4. 与其他图像表示匹配 3. OmniGlue3.1. 模型概述3.2. OmniGlue 细节3.2.1. 特征提取3.2.2. 利用DINOv2构建图形。3.2.3. 信息传播与新的指导3.2.4. 匹配层和损失函数3.2.5. 与Super

软件架构模式:5 分钟阅读

原文: https://orkhanscience.medium.com/software-architecture-patterns-5-mins-read-e9e3c8eb47d2 软件架构模式:5 分钟阅读 当有人潜入软件工程世界时,有一天他需要学习软件架构模式的基础知识。当我刚接触编码时,我不知道从哪里获得简要介绍现有架构模式的资源,这样它就不会太详细和混乱,而是非常抽象和易

Apple quietly slips WebRTC audio, video into Safari's WebKit spec

转自:http://www.zdnet.com/article/apple-quietly-slips-webrtc-audio-video-into-safaris-webkit-spec/?from=timeline&isappinstalled=0 http://www.zdnet.com/article/apple-quietly-slips-webrtc-audio-video-

BERT 论文逐段精读【论文精读】

BERT: 近 3 年 NLP 最火 CV: 大数据集上的训练好的 NN 模型,提升 CV 任务的性能 —— ImageNet 的 CNN 模型 NLP: BERT 简化了 NLP 任务的训练,提升了 NLP 任务的性能 BERT 如何站在巨人的肩膀上的?使用了哪些 NLP 已有的技术和思想?哪些是 BERT 的创新? 1标题 + 作者 BERT: Pre-trainin

[论文笔记]LLM.int8(): 8-bit Matrix Multiplication for Transformers at Scale

引言 今天带来第一篇量化论文LLM.int8(): 8-bit Matrix Multiplication for Transformers at Scale笔记。 为了简单,下文中以翻译的口吻记录,比如替换"作者"为"我们"。 大语言模型已被广泛采用,但推理时需要大量的GPU内存。我们开发了一种Int8矩阵乘法的过程,用于Transformer中的前馈和注意力投影层,这可以将推理所需