无需标注数据:引领视频编辑模型达到新高度

2024-08-26 20:44

本文主要是介绍无需标注数据:引领视频编辑模型达到新高度,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

人工智能咨询培训老师叶梓 转载标明出处

由于标注视频编辑数据的稀缺,开发精确且多样化的视频编辑模型一直是个挑战。目前研究者们大多聚焦于无需训练的方法,但这些方法在性能和编辑能力范围上都有所限制。为此Meta AI的研究团队提出了一种新的方法,无需任何标注的视频编辑数据,就能训练出达到最新技术水平的视频编辑模型。图1为EVE模型进行各种编辑任务的样例,如在墙上涂鸦、给马盖上粉红色毯子、将眼睛颜色变为蓝色、移除吉他等。

方法

这种方法的核心在于将视频编辑任务分解为两个主要的能力:一是精确编辑图像,二是确保生成帧之间的时间连续性。

研究者们构建了一个包含图像编辑适配器和视频生成适配器的架构,这两个适配器共同堆叠在同一个文本到图像的backbone模型之上。他们选用了Emu模型作为backbone,这是一个潜在的扩散模型,其权重用θ表示。通过这种方式,研究者们能够开发并结合不同的组件以实现视频编辑。

对于视频生成适配器,研究者们利用了Emu Video,这是一个文本到视频(T2V)的模型,它在冻结的Emu模型之上包含了训练有素的时间层。这些时间层被视为视频适配器。具体而言文本到视频模型的输出表示为,其中是文本到图像和视频适配器的权重,xs是噪声视频样本,s是时间步长,cout是输出视频标题。

为了创建图像编辑适配器,研究者们训练了一个ControlNet适配器,其参数为,在训练Emu Edit的数据集上进行训练。在训练过程中,研究者们遵循ControlNet训练的标准实践,并将适配器初始化为文本到图像模型的下层和中层块的副本。在训练期间,研究者们将文本到图像模型的条件设置为输出图像标题,同时使用输入图像和编辑指令作为ControlNet图像编辑适配器的输入。因此,图像编辑模型的输出可以表示为,其中是文本到图像和图像编辑适配器的权重,xs是噪声图像样本,s是时间步长,cout是输出图像标题,cinstruct是文本编辑指令,cimg是研究者们希望编辑的输入图像。

为了使模型具备视频编辑的能力,研究者们将这两个适配器同时附加到文本到图像的backbone上。他们的目标是使用输入视频cvid、编辑指令cinstruct和输出视频标题cout来去噪一个噪声编辑视频。值得注意的是,仅附加图像编辑适配器时,得到的函数将独立处理每一帧。因此,预测视频中的每一帧应该精确且忠实于输入帧和编辑指令,但与其余编辑帧相比可能缺乏一致性。同样,仅附加视频生成适配器时,得到的函数将生成一个与输出标题忠实但不一定忠实于输入视频的时间一致视频。当结合使用这两个适配器和共享的文本到图像backbone时,得到的功能是,其中。这种公式应该能够编辑一个既时间一致又忠实于输入的视频。在实践中,研究者们观察到,尽管这种“即插即用”的方法能够实现视频编辑能力,但它仍然包含了显著的伪影。

由于适配器中已经存在必要的知识,研究者们预计一个小的对齐就足够了。因此,他们保持适配器冻结,并在文本到图像的backbone上使用低秩适配(LoRA)权重。他们的最终架构变为

图2为模型架构和对齐过程。研究者们在共享的文本到图像骨干上训练图像编辑适配器(蓝色)和视频生成适配器(橙色),然后创建一个学生网络,通过堆叠两个适配器在共享骨干上(绿色),并使用学生网络进行训练,同时使用来自每个冻结教师适配器的得分蒸馏和对抗性损失。

为了在没有监督视频编辑数据的情况下训练并对适配器进行对齐,研究者们提出了一种新的无监督蒸馏过程,即分解扩散蒸馏(FDD)。在此过程中,他们冻结了两个适配器,并将其知识联合蒸馏到视频编辑学生模型中。由于他们的方法不能假设有监督数据,他们只收集了输入数据集。数据集中的每个数据点由组成,其中cout是输出视频标题,cinstruct是编辑指令,cvid是输入视频。

在FDD的每次迭代中,研究者们首先使用学生模型利用数据点y进行k次扩散步骤生成编辑后的视频x'0(详细信息,见下面)。他们稍后将通过所有这些扩散步骤反向传播损失。然后,他们使用每个教师应用得分蒸馏采样(SDS)损失。他们采样噪声ϵ和时间步t,并使用它们将x'0噪声化为x't。然后,他们要求每位教师独立预测x't中的噪声。对于教师,SDS损失是ϵ和教师预测之间的差异:其中c(t)是权重函数,sg表示教师保持冻结。该指标是通过对学生生成的x'0、采样的时间步t和噪声ϵ取平均得到的。代入编辑和视频教师,损失变为

每个教师为不同的标准提供反馈:图像编辑适配器负责忠实和精确地编辑,视频生成适配器负责时间一致性。类似于以前的使用蒸馏方法的工作,研究者们观察到模糊的结果,因此对每个教师使用了一个额外的对抗性目标,类似于对抗性扩散蒸馏(ADD)。具体来说,他们训练了两个鉴别器。第一个,De,接收输入帧、指令和输出帧,并尝试确定编辑是由图像编辑教师还是视频编辑学生执行的。第二个,Dv,接收视频和标题,并尝试确定视频是由视频生成教师还是视频编辑学生生成的。他们进一步遵循ADD并采用铰链损失目标进行对抗性训练。因此,鉴别器最小化以下目标:而学生最小化以下目标:其中x'ψ和x'ϕ是通过应用图像编辑和视频生成教师相应地进行多次前向扩散步骤使用DDIM采样从随机噪声生成的样本。训练学生模型的组合损失是:,鉴别器用以下方式训练:。在实践中,他们将α和β都设置为0.5。他们将λ设置为2.5。

如前所述,学生模型使用k次扩散步骤生成编辑后的视频,研究者们通过所有这些步骤反向传播损失。在训练期间,他们将k设置为3,这是适合内存的最大扩散步数。值得注意的是,如果在训练期间使用相同的k时间步,并在推理时设置更大的k,可能会导致训练-测试不一致。为了避免这种训练-测试不一致,他们将T个扩散步骤分成k个大小相等的箱子,每个箱子包含T/k个步骤。然后,在每次训练生成迭代中,他们从相应的箱子中随机选择一个步骤。

鉴别器的基础架构中,研究者使用DINO作为冻结的特征网络,并添加了可训练的头部。为了对De的输入图像进行条件化,他们除了文本和噪声图像投影外,还使用了图像投影,并用额外的注意力层组合条件。为了支持Dv的视频条件化,他们在DINO的投影特征上添加了单时间注意力层,每个像素应用。

实验

研究者们使用主观和客观的成功指标进行评估。客观指标包括TGVE竞赛中使用的指标:(i) CLIPFrame(帧一致性)——测量所有视频帧之间CLIP图像嵌入的平均余弦相似度,以及(ii) PickScore——测量所有视频帧的平均预测人类偏好。这两个指标的固有局限性在于它们没有考虑时间一致性。例如,CLIPFrame对图像之间的相似度分数应用简单平均,因此它偏向于静态视频,这些视频的运动有限或没有运动。为了解决这个问题,研究者们引入了额外的指标,这些指标利用了ViCLIP,这是一个在处理视频时考虑时间信息的视频CLIP模型。他们增加了以下指标:(i) ViCLIP文本-视频方向相似度(ViCLIPdir,灵感来自CLIPdir)——测量标题变化和视频变化之间的一致性,以及(ii) ViCLIP输出相似度(ViCLIPout)——测量编辑后的图像与输出标题的相似度。

研究者们遵循TGVE基准,并依赖人类评分员进行主观评估。他们向评分员展示了输入视频、描述输出视频的标题以及两个编辑后的视频。然后,他们要求评分员回答以下问题:(i) 文本对齐:哪个视频更好地匹配标题,(ii) 结构:哪个视频更好地保留了输入视频的结构,以及(iii) 质量:从美学角度来看,哪个视频更好。他们通过平均所有三个问题的首选分数来报告整体人类评估分数。

FDD方法需要一个包含学生和教师输入的数据集。在视频编辑的情况下,每个数据点包含y = (cout, cinstruct, cvid),其中cout是输出视频标题,cinstruct是编辑指令,cvid是输入视频。为了创建这个数据集,他们利用了Emu Video的高质量数据集,该数据集包含1600个视频。对于每个视频,他们使用Llama-2生成七个编辑指令,每个指令对应Emu Edit中的一个任务:添加、移除、背景、纹理、局部、风格、全局。

研究者们使用相同的冻结Emu backbone训练两个适配器,并在训练期间强制执行零终端信噪比。他们总共训练模型1500次迭代,批量大小为64,固定学习率为1e-5,没有预热。在前1000次迭代中,他们仅使用SDS损失进行训练,在随后的500次迭代中,他们添加了对抗性损失。他们在分辨率为512×512的8帧视频剪辑上进行训练。在整篇论文中,他们使用去噪扩散隐式模型(DDIM)算法生成示例。他们对编辑适配器进行任务标签的条件化,对视频适配器进行第一帧的条件化。具体而言他们使用编辑适配器编辑第一帧。为了生成超过8帧的视频,他们对输入视频应用滑动窗口。

目前,TGVE基准是评估基于文本的视频编辑方法的既定标准。基准包含76个视频,每个视频有四个编辑提示。所有视频要么是32帧,要么是128帧,分辨率为480×480。基准包括四种类型的编辑任务:(i)局部对象修改,(ii)风格变化,(iii)背景变化,以及(iv)同时执行多个编辑任务。由于TGVE专注于较窄范围的编辑任务,他们选择通过添加三个新的编辑任务来增加其多样性:(i)对象移除(移除),(ii)对象添加(添加),以及(iii)纹理更改(纹理)。对于TGVE中的每个视频以及每个新的编辑操作,他们指派众包工作人员编写编辑指令和描述期望输出视频的输出标题。

他们将他们的模型与TGVE基准中的领先者InsV2V进行了比较。为了完整性,他们还与空间时间扩散特征(STDF)、Tune-A-Video (TAV)(在TGVE竞赛中作为基线)、SDEdit(一种流行的扩散编辑基线)和Fairy进行了比较。对于SDEdit,他们在比较了多个噪声水平并选择了与自动指标相关的最好水平后,使用了0.75的噪声水平。与官方TGVE竞赛将所有参与方法与TAV进行比较不同,他们直接将他们的模型与不同的基线进行了比较。表1显示了他们的结果与基线的比较。可以看出,人类评分员明显更倾向于EVE而不是所有基线。当考虑自动指标时,EVE在除CLIPFrame之外的所有客观指标上都呈现出最新水平的结果。尽管STDF和Fairy在CLIPFrame指标上取得了最高分,但人类评分员分别有72.4%和71.7%的时间更倾向于我们的模型。除了数字结果,图3还提供了EVE和表现最好的基线的输出之间的视觉比较。

研究者们在表2中提供了人类评分的消融研究,以评估他们对TGVE+基准的不同贡献的有效性。他们首先消融了将预训练适配器添加到学生模型而不是在对齐过程中联合学习它们的决定。在这个实验(Random Init)中,他们用文本到图像编码器的权重初始化ControlNet编辑适配器,并将时间层初始化为身份。然后他们对整个结果模型进行微调。他们的观察表明,这种变体在获取视频编辑任务的熟练度方面是不成功的,这意味着FDD更擅长对齐预训练适配器,而不是从头开始训练它们。

他们继续消融对齐过程的设计本身,检查了三种结合适配器的方法:(i) 没有任何对齐(w/o alignment),(ii) 仅使用对抗性损失并排除SDS(w/o SDS),以及(iii) 包含SDS但排除对抗性损失(w/o Discriminators)。正如预期的那样,不使用任何对齐会导致结构保留和质量方面的结果较差。这表明FDD在结合分别训练用于不同任务的适配器时是必不可少的。在评估EVE中每个术语的贡献时,即SDS和对抗性损失,SDS项对对齐过程有更大的影响。仅使用对抗性项就足以实现一定程度的对齐。然而,使用这两个术语对于成功的对齐至关重要。

消融实验最后研究者们验证了使用K-Bin扩散采样的贡献。他们在整个训练过程中均匀地采样k步,而不是从k个桶中随机采样。正如结果所显示的,从k个桶中采样步骤的过程进一步提高了FDD的性能。

研究者们探索了FDD对齐其他适配器的能力。他们在文本到图像的backbone上训练了四个不同的LoRA适配器;两个用于主题驱动的生成,两个用于风格驱动的生成。然后他们将每个适配器与他们的图像编辑适配器对齐,以促进个性化和风格化图像编辑能力。为了创建风格化编辑的无监督数据集,他们利用了Emu Edit的数据集中的1000个(输入标题、指令、输出标题)三元组。对于个性化编辑,他们使用1000个输入标题,并使用Llama-2生成添加主题或用主题替换图像中的项目的指令。值得注意的是,他们在训练期间不使用图像,而是使用LoRA适配器生成输入图像。虽然每个LoRA适配器需要不同的对齐,但他们指出可以使用主题条件适配器,如ReferenceNet,并对所有主题和风格执行一次对齐。

在图5中,他们展示了他们的方法在这些组合上的应用的定性示例。对于每个输入图像和指令,他们展示了使用:(i) 纯Emu Edit,(ii) 附加两个适配器而不进行对齐,以及 (iii) 对齐后获得的样本。正如预期的那样,Emu Edit无法进行个性化编辑,因为它缺乏对期望主题的认识。同样,对于风格化编辑,它在保持输入风格方面存在困难。当使用“即插即用”方法时,模型要么无法保持风格或主题身份,要么产生带有显著伪影的不满意生成。然而,在对齐之后,编辑变得更加符合参考风格和主题。

Meta AI的研究团队通过Emu Video Edit (EVE)模型,展示了一种无需标注视频编辑数据就能训练出高性能视频编辑模型的新方法。该方法不仅在视频编辑领域达到了最新技术水平,还展示了通过无监督学习对其他适配器组合进行对齐,从而解锁新能力的潜力。

论文链接:https://arxiv.org/abs/2403.09334

这篇关于无需标注数据:引领视频编辑模型达到新高度的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1109635

相关文章

流媒体平台/视频监控/安防视频汇聚EasyCVR播放暂停后视频画面黑屏是什么原因?

视频智能分析/视频监控/安防监控综合管理系统EasyCVR视频汇聚融合平台,是TSINGSEE青犀视频垂直深耕音视频流媒体技术、AI智能技术领域的杰出成果。该平台以其强大的视频处理、汇聚与融合能力,在构建全栈视频监控系统中展现出了独特的优势。视频监控管理系统EasyCVR平台内置了强大的视频解码、转码、压缩等技术,能够处理多种视频流格式,并以多种格式(RTMP、RTSP、HTTP-FLV、WebS

大模型研发全揭秘:客服工单数据标注的完整攻略

在人工智能(AI)领域,数据标注是模型训练过程中至关重要的一步。无论你是新手还是有经验的从业者,掌握数据标注的技术细节和常见问题的解决方案都能为你的AI项目增添不少价值。在电信运营商的客服系统中,工单数据是客户问题和解决方案的重要记录。通过对这些工单数据进行有效标注,不仅能够帮助提升客服自动化系统的智能化水平,还能优化客户服务流程,提高客户满意度。本文将详细介绍如何在电信运营商客服工单的背景下进行

基于MySQL Binlog的Elasticsearch数据同步实践

一、为什么要做 随着马蜂窝的逐渐发展,我们的业务数据越来越多,单纯使用 MySQL 已经不能满足我们的数据查询需求,例如对于商品、订单等数据的多维度检索。 使用 Elasticsearch 存储业务数据可以很好的解决我们业务中的搜索需求。而数据进行异构存储后,随之而来的就是数据同步的问题。 二、现有方法及问题 对于数据同步,我们目前的解决方案是建立数据中间表。把需要检索的业务数据,统一放到一张M

关于数据埋点,你需要了解这些基本知识

产品汪每天都在和数据打交道,你知道数据来自哪里吗? 移动app端内的用户行为数据大多来自埋点,了解一些埋点知识,能和数据分析师、技术侃大山,参与到前期的数据采集,更重要是让最终的埋点数据能为我所用,否则可怜巴巴等上几个月是常有的事。   埋点类型 根据埋点方式,可以区分为: 手动埋点半自动埋点全自动埋点 秉承“任何事物都有两面性”的道理:自动程度高的,能解决通用统计,便于统一化管理,但个性化定

使用SecondaryNameNode恢复NameNode的数据

1)需求: NameNode进程挂了并且存储的数据也丢失了,如何恢复NameNode 此种方式恢复的数据可能存在小部分数据的丢失。 2)故障模拟 (1)kill -9 NameNode进程 [lytfly@hadoop102 current]$ kill -9 19886 (2)删除NameNode存储的数据(/opt/module/hadoop-3.1.4/data/tmp/dfs/na

异构存储(冷热数据分离)

异构存储主要解决不同的数据,存储在不同类型的硬盘中,达到最佳性能的问题。 异构存储Shell操作 (1)查看当前有哪些存储策略可以用 [lytfly@hadoop102 hadoop-3.1.4]$ hdfs storagepolicies -listPolicies (2)为指定路径(数据存储目录)设置指定的存储策略 hdfs storagepolicies -setStoragePo

Hadoop集群数据均衡之磁盘间数据均衡

生产环境,由于硬盘空间不足,往往需要增加一块硬盘。刚加载的硬盘没有数据时,可以执行磁盘数据均衡命令。(Hadoop3.x新特性) plan后面带的节点的名字必须是已经存在的,并且是需要均衡的节点。 如果节点不存在,会报如下错误: 如果节点只有一个硬盘的话,不会创建均衡计划: (1)生成均衡计划 hdfs diskbalancer -plan hadoop102 (2)执行均衡计划 hd

Andrej Karpathy最新采访:认知核心模型10亿参数就够了,AI会打破教育不公的僵局

夕小瑶科技说 原创  作者 | 海野 AI圈子的红人,AI大神Andrej Karpathy,曾是OpenAI联合创始人之一,特斯拉AI总监。上一次的动态是官宣创办一家名为 Eureka Labs 的人工智能+教育公司 ,宣布将长期致力于AI原生教育。 近日,Andrej Karpathy接受了No Priors(投资博客)的采访,与硅谷知名投资人 Sara Guo 和 Elad G

综合安防管理平台LntonAIServer视频监控汇聚抖动检测算法优势

LntonAIServer视频质量诊断功能中的抖动检测是一个专门针对视频稳定性进行分析的功能。抖动通常是指视频帧之间的不必要运动,这种运动可能是由于摄像机的移动、传输中的错误或编解码问题导致的。抖动检测对于确保视频内容的平滑性和观看体验至关重要。 优势 1. 提高图像质量 - 清晰度提升:减少抖动,提高图像的清晰度和细节表现力,使得监控画面更加真实可信。 - 细节增强:在低光条件下,抖

【Prometheus】PromQL向量匹配实现不同标签的向量数据进行运算

✨✨ 欢迎大家来到景天科技苑✨✨ 🎈🎈 养成好习惯,先赞后看哦~🎈🎈 🏆 作者简介:景天科技苑 🏆《头衔》:大厂架构师,华为云开发者社区专家博主,阿里云开发者社区专家博主,CSDN全栈领域优质创作者,掘金优秀博主,51CTO博客专家等。 🏆《博客》:Python全栈,前后端开发,小程序开发,人工智能,js逆向,App逆向,网络系统安全,数据分析,Django,fastapi