MAGVIT: Masked Generative Video Transformer

2023-12-27 00:15

本文主要是介绍MAGVIT: Masked Generative Video Transformer,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

Paper name

MAGVIT: Masked Generative Video Transformer

Paper Reading Note

Paper URL: https://arxiv.org/abs/2212.05199

Project URL: https://magvit.cs.cmu.edu/

Code URL: https://github.com/google-research/magvit

TL;DR

  • 2023 年 CMU、google 等发表 CVPR2023 Highlight 文章,提出了视频生成方法 MAsked Generative VIdeo Transformer (MAGVIT),基于两阶段方式训练,在多个视频生成测试集上取得了最佳效果。同时推理速度会显著优于同时期的 diffusion 方法和自回归方法。

Introduction

本文方案

  • 受到 DALLE 等工作的启发。通过掩码 token 建模和多任务学习,提出了一种高效的视频生成模型

  • 提出了 MAsked Generative VIdeo Transformer (MAGVIT)

    • 第一个用于高效视频生成和操作的掩码多任务 transformer
    • 单个训练模型可以在 10 种不同任务上推理
    • 提出了一种高效的 embedding 方法,使用多样的掩码用于众多视频生成任务
    • 在三个广泛使用的基准测试上取得了最佳的保真度性能,包括 UCF101,BAIR Robot Pushing 和 Kinetics-600
  • 下图介绍

    • a 展示了定量指标分析,实现了 SOTA 的 FVD 和 IS 指标,与之前最佳的 diffusion 模型(RaMViD, Video Diffusion)以及自回归模型(CCVS,TATS,NUWA)相比较
    • b 展示了推理性能的优势,比 diffusion 模型快两个数量级,比自回归模型快 60x
      • 128 分辨率下,MAGVIT-B 在 V100 上可以达到 37fps,MAGVIT-L 在 TPU v4i 上可以达到 65fps
    • c 展示了多个任务上的视频生成效果
      MAGVIT 整体效果展示

Methods

  • MAGVIT 训练分为两个步骤

    • 学习一个 3D 矢量量化(VQ)自编码器,将视频量化为离散标记
    • 通过多任务掩码标记建模学习视频 transformer
  • 下图展示了第二阶段的训练流程,在每个训练步骤中,随机选择一个任务及其提示 token,获取特定于任务的条件掩码,并优化 transformer 以在给定掩码输入的情况下预测所有目标 token:
    MAGVIT pipeline

基础知识:掩码图像生成 (masked image synthesis)

  • 基于非自回归 transformer,masked image synthesis 分为两个阶段

    • 基于 Vector-quantized 自编码器将图像量化并展平为一系列离散序列
    • 使用 masked token modeling (MTM)在离散序列上训练 transformer,训练目标是最小化掩码位置 token 与真实 token 之间的交叉熵
  • 掩码图像生成在训练、测试阶段的具体流程(以 MaskGIT 为例):

    • 训练过程:基于一个余弦衰减的逻辑来确定掩码比例,来随机 mask 掉图片中的一些 token 进行训练
    • 测试过程:使用非自回归的解码方式进行 12 步预测,从所有视觉 token 掩码的空白画布开始进行并行预测,每一步都并行预测所有 token,同时保留具有最高预测分数的 token,其余 token 被掩码并下一次迭代中进行预测,直到生成所有 token。

一阶段:Spatial-Temporal Tokenization

  • 基于 VQGAN 改进

    • VQ 自编码器是一个关键模块,它不仅为生成设置了质量界限,还确定了 token 序列长度,从而影响生成效率
    • 现有方法在每帧上独立应用 VQ 编码器(2D-VQ)或在超体素上应用(3D-VQ),本文提出了一个不同的设计:将所有 2D 卷积扩展为带有时间轴的 3D 卷积。由于时间和空间维度的下采样率通常不同,使用 3D 和 2D 下采样层,其中 3D 下采样层出现在编码器较浅的层中,解码器在前几个块中使用 2D 上采样层,然后是 3D 上采样层
    • 将 2D-VQ 的网络转换为带时间维度的 3D-VQ。同时使用 3D 膨胀 (3D inflation) 的方式,利用 2D-VQ 的权重初始化 3D-VQ。这对于 UCF-101 等小数据集较为有效。同时使用 reflect padding 替换 zeros padding,用于提高相同内容在不同位置的标记一致性
  • 网络结构细节,其中灰色部分是主要不同的模块
    网络结构细节

  • 训练细节

    • 每帧使用 image perceptual 损失
    • 基于以下优化使得 GAN loss 可以从头开始训
      • GAN loss 上增加了 LeCam regularization
      • 使用 StyleGAN 的 discriminator 架构,inflate 为 3D

二阶段:Multi-Task Masked Token Modeling

  • 采用各种掩码方案来进行训练,以适应具有不同条件的视频生成任务。这些条件可以是用于修复/生成图像的空间区域,也可以是用于帧预测/插值的几帧。

  • 考虑十个多任务视频生成任务,其中每个任务具有不同的内部条件和掩码:帧预测(FP)、帧插值(FI)、中央外扩(OPC)、垂直外扩(OPV)、水平外扩(OPH)、动态外扩(OPD)、中央修复(IPC)和动态修复(IPD)、类别条件生成(CG)、类别条件帧预测(CFP)。

  • 推理算法,固定推理步数进行非自回归预测
    推理算法

  • 下图比较了非自回归图像解码(MTM, from MaskGIT)和本文的视频解码过程。与 MTM 解码不同,本文的解码从嵌入内部条件的多变量掩码开始,由此掩码引导,通过在每一步替换新生成的 token 的一部分进行有条件的转换过程,最终预测出所有 token,其中内部条件 token 得到了细化
    解码方式对比

Experiments

  • MAGVIT有两个变种,即基础(B)型,参数为128M,和大型(L)型,参数为464M。

评测指标

  • FVD:FVD 特征基于在 Kinetics-400 数据集上训练的 I3D 模型提取
  • IS:基于在 UCF101 上训练的 C3D 模型提取

UCF101

  • MAGVIT 结果最佳
    在这里插入图片描述
  • 生成效果对比,从单图的效果和视频中运动的幅度来看 MAGVIT 更有优势
    在这里插入图片描述

生成效率

  • magvit 有极大优势
    在这里插入图片描述

tokenizer 架构对比

  • 在 MAGVIT 中评估了 3D-VQ 模型的不同设计方式。在 UCF101 数据集上对比。这里的指标衡量了中间量化的质量。结果表明:
    • 尽管产生了更高的压缩率,3D-VQ模型显示出比2D-VQ更好的视频重建质量。
    • 所提出的VQ在与相似大小的基线架构相比中表现得更好,并且在使用更大模型时效果更好
    • imagenet 初始化涨点
    • 中心膨胀优于平均膨胀
      在这里插入图片描述

Thoughts

  • MPT 看起来很有前景,目前从推理效率上来看有较大优势

这篇关于MAGVIT: Masked Generative Video Transformer的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/541274

相关文章

Apple quietly slips WebRTC audio, video into Safari's WebKit spec

转自:http://www.zdnet.com/article/apple-quietly-slips-webrtc-audio-video-into-safaris-webkit-spec/?from=timeline&isappinstalled=0 http://www.zdnet.com/article/apple-quietly-slips-webrtc-audio-video-

MonoHuman: Animatable Human Neural Field from Monocular Video 翻译

MonoHuman:来自单目视频的可动画人类神经场 摘要。利用自由视图控制来动画化虚拟化身对于诸如虚拟现实和数字娱乐之类的各种应用来说是至关重要的。已有的研究试图利用神经辐射场(NeRF)的表征能力从单目视频中重建人体。最近的工作提出将变形网络移植到NeRF中,以进一步模拟人类神经场的动力学,从而动画化逼真的人类运动。然而,这种流水线要么依赖于姿态相关的表示,要么由于帧无关的优化而缺乏运动一致性

论文精读-Supervised Raw Video Denoising with a Benchmark Dataset on Dynamic Scenes

论文精读-Supervised Raw Video Denoising with a Benchmark Dataset on Dynamic Scenes 优势 1、构建了一个用于监督原始视频去噪的基准数据集。为了多次捕捉瞬间,我们手动为对象s创建运动。在高ISO模式下捕获每一时刻的噪声帧,并通过对多个噪声帧进行平均得到相应的干净帧。 2、有效的原始视频去噪网络(RViDeNet),通过探

深度学习--对抗生成网络(GAN, Generative Adversarial Network)

对抗生成网络(GAN, Generative Adversarial Network)是一种深度学习模型,由Ian Goodfellow等人在2014年提出。GAN主要用于生成数据,通过两个神经网络相互对抗,来生成以假乱真的新数据。以下是对GAN的详细阐述,包括其概念、作用、核心要点、实现过程、代码实现和适用场景。 1. 概念 GAN由两个神经网络组成:生成器(Generator)和判别器(D

HumanNeRF:Free-viewpoint Rendering of Moving People from Monocular Video 翻译

HumanNeRF:单目视频中运动人物的自由视点绘制 引言。我们介绍了一种自由视点渲染方法- HumanNeRF -它适用于一个给定的单眼视频ofa人类执行复杂的身体运动,例如,从YouTube的视频。我们的方法可以在任何帧暂停视频,并从任意新的摄像机视点或甚至针对该特定帧和身体姿势的完整360度摄像机路径渲染主体。这项任务特别具有挑战性,因为它需要合成身体的照片级真实感细节,如从输入视频中可能

Transformer从零详细解读

Transformer从零详细解读 一、从全局角度概况Transformer ​ 我们把TRM想象为一个黑盒,我们的任务是一个翻译任务,那么我们的输入是中文的“我爱你”,输入经过TRM得到的结果为英文的“I LOVE YOU” ​ 接下来我们对TRM进行细化,我们将TRM分为两个部分,分别为Encoders(编码器)和Decoders(解码器) ​ 在此基础上我们再进一步细化TRM的

LLM模型:代码讲解Transformer运行原理

视频讲解、获取源码:LLM模型:代码讲解Transformer运行原理(1)_哔哩哔哩_bilibili 1 训练保存模型文件 2 模型推理 3 推理代码 import torchimport tiktokenfrom wutenglan_model import WutenglanModelimport pyttsx3# 设置设备为CUDA(如果可用),否则使用CPU#

逐行讲解Transformer的代码实现和原理讲解:计算交叉熵损失

LLM模型:Transformer代码实现和原理讲解:前馈神经网络_哔哩哔哩_bilibili 1 计算交叉熵目的 计算 loss = F.cross_entropy(input=linear_predictions_reshaped, target=targets_reshaped) 的目的是为了评估模型预测结果与实际标签之间的差距,并提供一个量化指标,用于指导模型的训练过程。具体来说,交叉

深度学习每周学习总结N9:transformer复现

🍨 本文为🔗365天深度学习训练营 中的学习记录博客🍖 原作者:K同学啊 | 接辅导、项目定制 目录 多头注意力机制前馈传播位置编码编码层解码层Transformer模型构建使用示例 本文为TR3学习打卡,为了保证记录顺序我这里写为N9 总结: 之前有学习过文本预处理的环节,对文本处理的主要方式有以下三种: 1:词袋模型(one-hot编码) 2:TF-I

RNN发展(RNN/LSTM/GRU/GNMT/transformer/RWKV)

RNN到GRU参考: https://blog.csdn.net/weixin_36378508/article/details/115101779 tRANSFORMERS参考: seq2seq到attention到transformer理解 GNMT 2016年9月 谷歌,基于神经网络的翻译系统(GNMT),并宣称GNMT在多个主要语言对的翻译中将翻译误差降低了55%-85%以上, G