AnyV2V:一种用于各种视频编辑任务的即插即用框架

2024-08-25 21:12

本文主要是介绍AnyV2V:一种用于各种视频编辑任务的即插即用框架,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

人工智能咨询培训老师叶梓 转载标明出处

视频编辑任务通常涉及根据额外的控制信息(如文本提示、主题、风格等)编辑源视频,以生成与源视频和提供的控制信息相符的新视频。然而,现有方法往往局限于特定类型的编辑任务,难以满足广泛的用户需求。而且一些方法需要额外的参数调整或视频特征提取,导致时间和内存成本较高。为了解决这些问题,加拿大滑铁卢大学和多伦多Vector Institute的研究团队提出了一种创新的视频编辑框架——AnyV2V。这一框架能够简化视频编辑流程,支持广泛的编辑任务,包括基于文本提示、主题、风格等的编辑。它具有以下两大优势:

  1. 兼容性:AnyV2V与所有图像编辑方法具有优越的兼容性。AnyV2V可以无缝地建立在先进的图像编辑方法之上,如InstructPix2Pix、InstantID、NST、AnyDoor等,以执行多种类型的编辑。
  2. 简单性:AnyV2V是一种无需调整的方法,不需要任何额外的视频特征即可实现高外观和时间一致性。

方法

AnyV2V框架的整体架构(图1),显示视频编辑过程被分解为两个阶段:第一阶段是第一帧图像编辑,第二阶段是利用DDIM反演和特征注入的图像到视频生成。

AnyV2V 框架处理视频编辑任务的两个阶段流程如图2所示。首先,输入源视频 ​,接着在第一阶段利用黑盒图像编辑方法对第一帧 进行编辑以满足特定的编辑需求。第二阶段,将源视频通过 DDIM 反演转换成初始噪声 ,然后使用 DDIM 采样对其进行去噪处理。在采样过程中,从图像到视频模型的解码层提取空间卷积特征、空间注意力和时间注意力特征。为了生成编辑后的视频,通过将固定为 并使用编辑后的第一帧作为条件信号来进行 DDIM 采样。在采样过程中,将提取的特征和注意力注入模型的相应层中,以确保编辑后视频在外观和运动上与源视频保持一致性。 

第一阶段:灵活的第一帧编辑

在视频编辑中,控制性是实现精确编辑的关键因素。AnyV2V通过利用各种图像编辑模型来修改视频的第一帧,从而实现更可控的视频编辑。这种方法不仅能够对视频进行高度精确的修改,还与多种图像编辑模型兼容,包括但不限于以下几类:

  • 图像风格迁移:能够将一种艺术风格应用到视频的第一帧上。
  • 基于遮罩的图像编辑:允许对视频的第一帧进行局部修改,如添加或移除特定对象。
  • 图像修复:在第一帧中填补或修改不期望的区域。
  • 身份保持的图像编辑:在修改第一帧时保留特定人物的身份特征。
  • 主题驱动的图像编辑:根据给定的主题图像替换第一帧中的特定对象。

第二阶段:结构化引导使用DDIM反演

为了确保从I2V(Image-to-Video)生成模型产生的视频遵循源视频的一般结构,AnyV2V采用了DDIM(Denoising Diffusion Implicit Models)反演技术。这个过程在没有文本提示条件的情况下,只使用第一帧作为条件来进行。通过这种方式,可以在每个时间步骤t获得源视频的潜在噪声

在实际操作中,如果直接使用最终时间步骤T的初始噪声(源视频的初始噪声)作为编辑视频的初始噪声,可能会因为某些I2V模型的局限性而导致编辑后的视频出现失真。解决方案为:从早于T的一个时间步骤T'开始采样。

尽管仅使用编辑后的第一帧和DDIM反演的噪声作为模型输入,I2V生成模型已经具备一定的编辑能力,但这种方法往往无法正确保留编辑后第一帧的背景和源视频中的运动,因为编码在反演噪声中的源视频的有条件信号是有限的。

为了加强与源视频的一致性,AnyV2V在去噪U-Net的卷积层和空间注意力层执行特征注入。在视频采样过程中,同时对源视频使用先前收集的DDIM反演的潜在噪声进行去噪,以保存两种类型的特征:卷积特征和空间自注意力分数。

空间特征注入机制显著增强了编辑视频的背景和整体结构的一致性。然而,这种方法在一定程度上帮助保持源视频的运动,编辑后的视频仍有很高几率包含与源视频相比不正确的运动。

为了更好地在编辑视频中重建源视频的运动,AnyV2V提出注入时间注意力特征到视频生成过程中。与空间注意力注入类似,收集源视频的时间自注意力查询和键,并将其注入到编辑视频的去噪分支中。

结合空间和时间特征注入机制,AnyV2V可以在不同的层中替换编辑分支的特征。这种特征注入方案使得I2V生成模型能够无需调整地适应视频编辑任务。实验结果表明,设计中的每个组件对于准确编辑源视频都至关重要。

实验

AnyV2V框架在三个现成的图像到视频(I2V)生成模型上进行了测试:I2VGen-XL、ConsistI2V 和 SEINE。对于所有的I2V模型,研究者设置了特定的超参数,其中τconv、τsa 和 τta 分别代表卷积特征注入、空间注意力注入和时间注意力注入的阈值,并且这些阈值与总采样步数T有关。研究者使用了DDIM采样器,并为所选的I2V模型设置了T的默认值。在采样过程中,所有模型都应用了无文本分类器的引导(CFG),使用了相同的负面提示。

为了获取初始编辑帧,研究者使用了一组图像编辑模型,包括基于提示的图像编辑模型InstructPix2Pix、风格迁移模型Neural Style Transfer (NST)、主题驱动的图像编辑模型AnyDoor 和身份驱动的图像编辑模型InstantID。研究者只对成功编辑的帧进行了实验,这对于本方法至关重要。所有实验都在单个Nvidia A6000 GPU上进行。编辑一个16帧的视频大约需要15G的GPU内存和大约100秒的推理时间。

Figure 3 展示了AnyV2V在多种基于提示的视频编辑任务中的鲁棒性,同时保持了背景的一致性。结果显示,AnyV2V与文本提示的对齐度最高,并且保持了高运动一致性。例如,AnyV2V能够准确地在老人的头上放置一个派对帽,并将飞机涂成蓝色,同时保持原始视频的背景和保真度。

Table 2 展示了AnyV2V与基线模型(Tune-A-Video、TokenFlow 和 FLATTEN)在基于提示的视频编辑任务上的定量比较。AnyV2V在文本对齐和时间一致性方面通常表现更好,特别是使用I2VGen-XL作为骨架时,因为它不会过度编辑视频。

对于风格迁移、主题驱动的编辑和身份操作这些新任务,研究者强调与参考图像的对齐,而不是文本提示。Figure 4 展示了AnyV2V在这些任务上的能力,例如,能够捕捉到定制的风格,即使这种风格没有被文本编码器学习过。在示例中,AnyV2V准确地捕捉到了瓦西里·康定斯基的“构图VII”和文森特·梵高的“奥弗斯的城堡”的艺术风格。

当前最先进的I2V模型大多只训练了包含16帧的视频数据。为了编辑超出I2V模型训练帧数的视频,研究者利用了更长的反演潜在变量作为初始潜在变量,并强制I2V模型生成更长的输出帧。实验发现,反演的潜在变量包含了足够的时间和语义信息,使得生成的视频能够保持时间和语义的一致性,如Figure 5 所示。

为了验证模型设计选择的有效性,研究者进行了消融研究,逐步禁用了模型中的三个核心组件:

  1. 时间特征注入(Temporal Feature Injection):禁用时间特征注入后,虽然CLIP-Image分数略有上升,但编辑后的视频往往显示出对源视频中呈现的运动的依从性降低。例如,在“couple sitting”案例中,如果没有应用时间注入,源视频中女性抬腿的动作在编辑后的视频中没有得到反映。

  2. 空间特征注入(Spatial Feature Injection):移除空间特征注入机制后,CLIP-Image分数下降,表明编辑后的视频在连续帧之间过渡不顺畅,并包含更多外观和运动的不一致性。例如,在“ballet dancing”案例中,移除空间特征注入会导致主体外观和姿态不正确。

  3. DDIM反演噪声作为初始噪声(DDIM Inverted Latent as Initial Noise):将初始DDIM反演噪声替换为随机噪声后,CLIP-Image分数进一步下降,视觉外观显著降低。这表明,当编辑提示完全脱离领域时,I2V生成模型对输入图像的动画制作能力变弱,突出了DDIM反演噪声作为编辑视频结构化引导的重要性。

Table 3展示了消融研究的结果,显示了不同组件对模型性能的影响。这些观察结果表明,直接从DDIM反演噪声生成编辑后的视频通常不足以完全保留源视频的结构,空间特征注入机制对于实现更好的编辑结果至关重要。通过这些评估和消融研究,研究者们展示了AnyV2V模型在视频编辑任务中的有效性和灵活性,并验证了其核心组件在保持视频质量和一致性方面的重要性。

论文链接:https://arxiv.org/abs/2403.13248

GitHub 地址:https://github.com/lichao-sun/Mora

这篇关于AnyV2V:一种用于各种视频编辑任务的即插即用框架的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1106670

相关文章

流媒体平台/视频监控/安防视频汇聚EasyCVR播放暂停后视频画面黑屏是什么原因?

视频智能分析/视频监控/安防监控综合管理系统EasyCVR视频汇聚融合平台,是TSINGSEE青犀视频垂直深耕音视频流媒体技术、AI智能技术领域的杰出成果。该平台以其强大的视频处理、汇聚与融合能力,在构建全栈视频监控系统中展现出了独特的优势。视频监控管理系统EasyCVR平台内置了强大的视频解码、转码、压缩等技术,能够处理多种视频流格式,并以多种格式(RTMP、RTSP、HTTP-FLV、WebS

综合安防管理平台LntonAIServer视频监控汇聚抖动检测算法优势

LntonAIServer视频质量诊断功能中的抖动检测是一个专门针对视频稳定性进行分析的功能。抖动通常是指视频帧之间的不必要运动,这种运动可能是由于摄像机的移动、传输中的错误或编解码问题导致的。抖动检测对于确保视频内容的平滑性和观看体验至关重要。 优势 1. 提高图像质量 - 清晰度提升:减少抖动,提高图像的清晰度和细节表现力,使得监控画面更加真实可信。 - 细节增强:在低光条件下,抖

cross-plateform 跨平台应用程序-03-如果只选择一个框架,应该选择哪一个?

跨平台系列 cross-plateform 跨平台应用程序-01-概览 cross-plateform 跨平台应用程序-02-有哪些主流技术栈? cross-plateform 跨平台应用程序-03-如果只选择一个框架,应该选择哪一个? cross-plateform 跨平台应用程序-04-React Native 介绍 cross-plateform 跨平台应用程序-05-Flutte

Spring框架5 - 容器的扩展功能 (ApplicationContext)

private static ApplicationContext applicationContext;static {applicationContext = new ClassPathXmlApplicationContext("bean.xml");} BeanFactory的功能扩展类ApplicationContext进行深度的分析。ApplicationConext与 BeanF

数据治理框架-ISO数据治理标准

引言 "数据治理"并不是一个新的概念,国内外有很多组织专注于数据治理理论和实践的研究。目前国际上,主要的数据治理框架有ISO数据治理标准、GDI数据治理框架、DAMA数据治理管理框架等。 ISO数据治理标准 改标准阐述了数据治理的标准、基本原则和数据治理模型,是一套完整的数据治理方法论。 ISO/IEC 38505标准的数据治理方法论的核心内容如下: 数据治理的目标:促进组织高效、合理地

ZooKeeper 中的 Curator 框架解析

Apache ZooKeeper 是一个为分布式应用提供一致性服务的软件。它提供了诸如配置管理、分布式同步、组服务等功能。在使用 ZooKeeper 时,Curator 是一个非常流行的客户端库,它简化了 ZooKeeper 的使用,提供了高级的抽象和丰富的工具。本文将详细介绍 Curator 框架,包括它的设计哲学、核心组件以及如何使用 Curator 来简化 ZooKeeper 的操作。 1

【Kubernetes】K8s 的安全框架和用户认证

K8s 的安全框架和用户认证 1.Kubernetes 的安全框架1.1 认证:Authentication1.2 鉴权:Authorization1.3 准入控制:Admission Control 2.Kubernetes 的用户认证2.1 Kubernetes 的用户认证方式2.2 配置 Kubernetes 集群使用密码认证 Kubernetes 作为一个分布式的虚拟

《x86汇编语言:从实模式到保护模式》视频来了

《x86汇编语言:从实模式到保护模式》视频来了 很多朋友留言,说我的专栏《x86汇编语言:从实模式到保护模式》写得很详细,还有的朋友希望我能写得更细,最好是覆盖全书的所有章节。 毕竟我不是作者,只有作者的解读才是最权威的。 当初我学习这本书的时候,只能靠自己摸索,网上搜不到什么好资源。 如果你正在学这本书或者汇编语言,那你有福气了。 本书作者李忠老师,以此书为蓝本,录制了全套视频。 试

Spring Framework系统框架

序号表示的是学习顺序 IoC(控制反转)/DI(依赖注入): ioc:思想上是控制反转,spring提供了一个容器,称为IOC容器,用它来充当IOC思想中的外部。 我的理解就是spring把这些对象集中管理,放在容器中,这个容器就叫Ioc这些对象统称为Bean 用对象的时候不用new,直接外部提供(bean) 当外部的对象有关系的时候,IOC给它俩绑好(DI) DI和IO

Sentinel 高可用流量管理框架

Sentinel 是面向分布式服务架构的高可用流量防护组件,主要以流量为切入点,从限流、流量整形、熔断降级、系统负载保护、热点防护等多个维度来帮助开发者保障微服务的稳定性。 Sentinel 具有以下特性: 丰富的应用场景:Sentinel 承接了阿里巴巴近 10 年的双十一大促流量的核心场景,例如秒杀(即突发流量控制在系统容量可以承受的范围)、消息削峰填谷、集群流量控制、实时熔断下游不可用应