勇夺三项SOTA!北航爱诗科技联合发布灵活高效可控视频生成方法TrackGo!

本文主要是介绍勇夺三项SOTA!北航爱诗科技联合发布灵活高效可控视频生成方法TrackGo!,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

论文链接:https://arxiv.org/pdf/2408.11475
项目链接:https://zhtjtcz.github.io/TrackGo-Page/

亮点直击

  • 本文引入了一种新颖的运动可控视频生成方法,称为TrackGo。该方法为用户提供了一种灵活的运动控制机制,通过结合 masks 和箭头,实现了在复杂场景中的精确操控,包括涉及多个对象、细粒度对象部件和复杂运动轨迹的场景。

  • 本文开发了一个新组件,称为TrackAdapter,用于有效且高效地将运动控制信息集成到时间自注意力层中。

  • 本文进行了广泛的实验来验证本文的方法。实验结果表明,本文的模型在视频质量(FVD)、图像质量(FID)和运动真实性(ObjMC)方面优于现有模型。

近年来,基于扩散的可控视频生成领域取得了显著进展。然而,在复杂场景中实现精确控制仍然是一个挑战,包括对细粒度的物体部分、复杂的运动轨迹以及连贯的背景运动的控制。在本文中,本文介绍了TrackGo,这是一种利用自由形式的masks和箭头进行条件视频生成的新方法。该方法为用户提供了一种灵活且精确的机制来操控视频内容。本文还提出了用于控制实现的TrackAdapter,这是一种高效轻量的适配器,旨在无缝集成到预训练视频生成模型的时间自注意力层中。该设计利用了本文的观察,即这些层的注意力图可以准确激活与视频中运动对应的区域。本文的实验结果表明,借助TrackAdapter增强的新方法在关键指标如FVD、FID和ObjMC得分上实现了最先进的性能。

方法

概览

本文的任务是运动可控的视频生成。对于输入图像 和从箭头中提取的点轨迹 ,描述了轨迹信息,生成与轨迹一致的视频 ,其中 表示视频的长度。

我们使用SVD模型(Stable Video Diffusion Model, SVD)作为本文的基础架构。SVD模型类似于大多数视频潜在扩散模型,在图像扩散的U-Net上添加了一系列时间层以形成3D U-Net。在此基础上,本文通过一个可训练的编码器 将点轨迹 转化为压缩表示 。然后将该表示注入到每个时间自注意力模块中,使用下采样来处理并适应到合适的分辨率。本文引入了TrackAdapter,并在SVD的每个时间自注意力中添加一个TrackAdapter来注入 ,如下图3所示。

在接下来的部分中,本文将讨论三个主要主题:

  1. 点轨迹的优势以及本文如何获取和使用它们。

  2. TrackAdapter的结构以及它如何帮助SVD理解复杂的运动模式并完成复杂动作的生成。

  3. 我们模型的训练和推理过程。

点轨迹生成

在推理过程中,当用户提供第一帧图像、编辑区域的masks以及相应的箭头时,本文的方法可以通过预处理将用户输入的masks和箭头转换为点轨迹,如上图3所示。

在训练过程中,本文首先使用DEVA对真实视频中的主要组件进行分割,并获得相应的分割序列,其中表示第帧,表示第个组件。然后,对于第一帧的masks序列,本文需要在每个masks区域选择个点作为控制点,其中表示组件的数量。对于masks,本文在白色区域随机选择个点,然后使用K-means得到个点。这保证了选择的个点的均匀性,同时不会带来过多的时间开销。经过这个阶段,本文将总共获得个控制点。在获得控制点后,本文使用Co-Tracker追踪这些点,并获得相应的运动轨迹,其中是视频的长度。最后,本文为对应于同一组件的控制点分配颜色,绘制轨迹并得到点轨迹。本文使用这种方法构建了训练数据集,并经过数据清理和其他操作,最终获得了110k 个三元组。

通过 TrackAdapter 注入运动条件

运动条件提取。 本文使用与Animate Anyone相同的编码器结构来提取时间特征。这个过程可以通过公式1获得,其中是的压缩时间表示。

f 将根据不同时间自注意力层的分辨率进行下采样,并与其输入尺寸对齐。

TrackAdapter设计。 为了利用压缩的时间表示指导模型生成对应于该动作的视频,一个直接的方法是使用构建如下图2所示的注意力图。因此,本文提出了一种轻量且简单的结构,称为TrackAdapter。TrackAdapter的功能是激活与指定对象对应的运动区域,从而引导模型的生成过程。在注入点轨迹时,TrackAdapter负责激活指定对象的运动区域。本文首先为TrackAdapter计算注意力图:

其中, 和 是 TrackAdapter 的查询和键矩阵,其中 是从方程 1 中获得的 的压缩表示。

为了避免原始时间自注意力分支对最终活跃区域的影响,本文根据注意力图获得一个注意力 mask ,以抑制由原始时间自注意力分支激活的区域。

本文通过设置一个阈值 将注意力图 转换为相应的注意力 mask :

TrackAdapter 所关注的运动区域是注意力图 中超过阈值 的部分。通过将注意力 mask 中对应的区域设置为 ,原始时间自注意力将不再关注这一部分,从而产生分离效果。然后,原始时间自注意力的注意力图可以重写为:

最终,本文得到当前块的时间自注意力输出:,其中 ,, 分别是时间自注意力操作中的查询、键和值矩阵, 是输入特征, 是最终的注意力图。在注意力计算过程中,本文完成了对应区域和未指定区域的分离。

TrackAdapter的训练和推理

训练视频扩散模型时,该模型通过迭代预测噪声 在噪声输入中,逐步将高斯噪声转化为有意义的视频帧。模型 的优化是通过噪声预测损失实现的。

其中, 表示时间步, 表示 U-Net 的参数, 表示条件, 是经过噪声变换后的真实视频 的版本。

这里, 和 表示预定义的常数序列。在方程 (5) 的基础上,本文添加点轨迹 和图像 作为条件,优化目标可以写为:

为了使原始的时间自注意力机制快速适应新的输入模式,并加速模型的收敛,本文设计了一种基于注意力图的损失函数。本文从不同的块中收集注意力图,得到一个集合,其中包含16个不同的注意力图。对于,表示在块中帧和帧之间的时间自注意力图。注意力损失的目的是抑制原始分支的注意力图中对应于 mask 的区域,即运动区域。

其中,表示下采样操作,表示第帧中所有运动组件的 mask 。总的来说,本文的最终损失函数由这两个项的加权平均定义。

其中,是一个超参数。

推理。 在推理过程中,本文将未指定区域的强度设置为,即将方程3中小于的部分设置为。用户可以通过调整来控制未指定区域的运动,以便在需要与前景运动同步移动或需要减轻未指定区域的感官干扰时进行调整。此功能将极大地提升流畅且高度同步的运动视频的创作。

Experiment Settings

实现细节。 本文采用SVD作为基础模型。所有实验均使用PyTorch在8个NVIDIA A100-80G GPU上进行。AdamW被配置为本文的优化器,总共运行18,000个训练步骤,学习率为,批量大小为8。根据Animate Anyone中提出的方法,本文开发了一个轻量级编码器。该编码器使用总共六个卷积层、两个池化层和一个最终的全连接层。其主要功能是将点轨迹对齐到适当的分辨率。TrackAdapter的查询和键矩阵从原始的时间注意力分支初始化。

数据集。 对于本文的实验,本文使用了一个内部数据集,该数据集具有优质的视频质量,包括大约20万段视频。根据实验设计,本文进一步筛选数据,得到约11万段视频作为本文的最终训练数据集。在训练过程中,每个视频被调整为1024 × 576的分辨率,并标准化为每段25帧。

本文的测试集包括VIPSeg验证集以及内部验证数据集中额外的300段视频。值得注意的是,VIPSeg数据集中的所有视频均为16:9的宽高比。为了保持一致性,本文将验证集中的所有视频的分辨率调整为1024 × 576,而不是DragAnything中使用的256 × 256。为了评估,本文从测试集中每个视频的前14帧中提取轨迹。

评估指标和基线方法。 本文使用FVD(Frechet Video Distance)来测量视频质量,并使用FID来测量图像质量。本文将本文的方法与DragNUWA和DragAnything进行比较,这些方法也可以使用轨迹信息作为条件输入。根据DragAnything,ObjMC用于通过计算预测轨迹和真实轨迹之间的欧几里得距离来评估运动控制性能。

定量评价

本文的方法与基线方法的定量比较如下表1所示。本文在VIPSeg验证集和内部验证集上测试了所有模型。从结果可以看出,TrackGo在所有指标上都优于其他方法,这表明本文的方法可以生成具有更高视觉质量的视频,并且更加忠实于输入的运动控制。本文还比较了三种方法的模型参数和推理速度。由于这三种方法都使用相同的基础模型,本文的比较专注于新增模块的总权重。为了评估模型的推理速度,本文在NVIDIA A100 GPU上使用相同的输入数据对每种方法进行了100次推理测试。结果表明,本文的方法不仅提供了最佳的视觉质量,还实现了最快的推理速度,同时需要的额外参数最少。

定性评价

可视化。 本文在下图4中展示了与DragAnything和DragNUWA的可视化比较。本文可以做出以下观察:首先,DragNUWA在感知控制区域时存在困难,这可能导致光流不完整或不准确。在案例(b)中,行星未被正确感知,而在案例(a)中,枪的移动也是不正确的。在案例(c)中,虽然成功预测了火车的光流,但烟雾的光流缺失导致了刺眼的视觉效果。其次,DragAnything在处理部分或细粒度物体的移动时也面临困难。如案例(a)所示,只有枪和马里奥的手应该移动,但马里奥的整个位置也意外地移动了。类似的问题也出现在案例(b)中。此外,DragAnything难以生成和谐的背景。在案例(c)中,烟雾没有跟随移动的火车。相比之下,本文提出的TrackGo可以生成视频,使目标区域的移动与用户输入精确对齐,同时保持背景的一致性和和谐性。这一能力显著提高了生成视频的视觉质量和连贯性,展示了TrackGo的有效性。更多本文方法的案例可以在上图1中找到。

背景运动的注意力 mask 控制。 本文的模型具备通过特定参数调整未指定区域运动强度的能力,如下图5所示。本文用参数定义未指定区域的运动抑制强度。如图5所示,当手部移动时,方向盘也需要相应移动以增强输出的真实感。当时,未指定区域的运动被显著抑制,仅允许手部沿其轨迹移动,而其他部分保持静止。这通常会导致视频整体失真。当时,未指定区域的抑制较少,允许手部和方向盘同时移动。然而,这种设置仍可能产生不和谐的结果,例如方向盘上的汽车标志保持静止。当时,未指定区域可以自由移动,这通常会导致视频更加连贯和和谐。然而,并非所有未指定区域的运动都是理想的,过度的运动可能损害视频质量。因此,仔细管理抑制水平以平衡真实感和艺术控制是至关重要的。

相机运动。 类似于 DragAnything,TrackGo 也能够实现相机运动效果,如下图 6 所示。只需选择整个图像区域作为运动区域,并提供一个运动轨迹,就可以实现相机沿着该轨迹指定方向移动的效果。

消融研究

为了验证注意力 mask 和注意力损失的有效性,本文在不同的训练步数下报告了内部验证集上的 FVD 指标,如下表 2 所示。在相同的训练步数下,未使用注意力损失的模型显示出略高的 FVD,与使用注意力损失的模型相比。当不使用注意力损失时,FVD 高于应用注意力损失时的水平。这种差异在 18K 训练步时尤为明显。这表明使用注意力损失可以加速模型训练并有助于收敛。在没有使用注意力 mask 和注意力损失的情况下,FVD 在大约 16K 步时趋于稳定,但仍然显著高于完整设置下的 FVD。

用户研究

本文进行了一项用户研究来评估合成视频的质量。本文随机抽取了60个案例,并对三种不同的方法进行用户研究。每份问卷包含从这60个案例中随机抽取的30个案例。本文要求用户根据整体质量从两个方面选择最佳视频:生成视频与给定条件之间的一致性,以及生成视频的质量(例如,主体是否失真,未选择的背景是否抖动等)。 本文邀请了30人填写问卷,性别比例约为3:1(男性:女性)。大多数参与者是来自不同科学与工程领域的大学生,年龄在18到27岁之间。结果显示,本文的方法获得了62%的投票,高于DragAnything的16.33%和DragNUWA的21.67%,如下图7所示。

结论

在本文中,本文引入了点轨迹来捕捉视频中的复杂时间信息。本文提出了TrackAdapter来处理这些点轨迹,重点关注指定目标的运动,并使用注意力 mask 来减轻原始时间自注意力对指定区域的影响。在推理过程中,注意力 mask 可以调节未指定区域的运动,从而使视频输出更符合用户输入。大量实验表明,本文的TrackGo在FVD、FID和ObjMC评分上达到了最新的水平。此外,定性分析显示,本文的方法在各种复杂场景中提供了精确的控制。

参考文献

[1]TrackGo: A Flexible and Efficient Method for Controllable Video Generation [1] TrackGo: A Flexible and Efficient Method for Controllable Video Generation

更多精彩内容,请关注公众号:AI生成未来

这篇关于勇夺三项SOTA!北航爱诗科技联合发布灵活高效可控视频生成方法TrackGo!的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1103034

相关文章

流媒体平台/视频监控/安防视频汇聚EasyCVR播放暂停后视频画面黑屏是什么原因?

视频智能分析/视频监控/安防监控综合管理系统EasyCVR视频汇聚融合平台,是TSINGSEE青犀视频垂直深耕音视频流媒体技术、AI智能技术领域的杰出成果。该平台以其强大的视频处理、汇聚与融合能力,在构建全栈视频监控系统中展现出了独特的优势。视频监控管理系统EasyCVR平台内置了强大的视频解码、转码、压缩等技术,能够处理多种视频流格式,并以多种格式(RTMP、RTSP、HTTP-FLV、WebS

AI一键生成 PPT

AI一键生成 PPT 操作步骤 作为一名打工人,是不是经常需要制作各种PPT来分享我的生活和想法。但是,你们知道,有时候灵感来了,时间却不够用了!😩直到我发现了Kimi AI——一个能够自动生成PPT的神奇助手!🌟 什么是Kimi? 一款月之暗面科技有限公司开发的AI办公工具,帮助用户快速生成高质量的演示文稿。 无论你是职场人士、学生还是教师,Kimi都能够为你的办公文

高效+灵活,万博智云全球发布AWS无代理跨云容灾方案!

摘要 近日,万博智云推出了基于AWS的无代理跨云容灾解决方案,并与拉丁美洲,中东,亚洲的合作伙伴面向全球开展了联合发布。这一方案以AWS应用环境为基础,将HyperBDR平台的高效、灵活和成本效益优势与无代理功能相结合,为全球企业带来实现了更便捷、经济的数据保护。 一、全球联合发布 9月2日,万博智云CEO Michael Wong在线上平台发布AWS无代理跨云容灾解决方案的阐述视频,介绍了

综合安防管理平台LntonAIServer视频监控汇聚抖动检测算法优势

LntonAIServer视频质量诊断功能中的抖动检测是一个专门针对视频稳定性进行分析的功能。抖动通常是指视频帧之间的不必要运动,这种运动可能是由于摄像机的移动、传输中的错误或编解码问题导致的。抖动检测对于确保视频内容的平滑性和观看体验至关重要。 优势 1. 提高图像质量 - 清晰度提升:减少抖动,提高图像的清晰度和细节表现力,使得监控画面更加真实可信。 - 细节增强:在低光条件下,抖

嵌入式QT开发:构建高效智能的嵌入式系统

摘要: 本文深入探讨了嵌入式 QT 相关的各个方面。从 QT 框架的基础架构和核心概念出发,详细阐述了其在嵌入式环境中的优势与特点。文中分析了嵌入式 QT 的开发环境搭建过程,包括交叉编译工具链的配置等关键步骤。进一步探讨了嵌入式 QT 的界面设计与开发,涵盖了从基本控件的使用到复杂界面布局的构建。同时也深入研究了信号与槽机制在嵌入式系统中的应用,以及嵌入式 QT 与硬件设备的交互,包括输入输出设

【C++】_list常用方法解析及模拟实现

相信自己的力量,只要对自己始终保持信心,尽自己最大努力去完成任何事,就算事情最终结果是失败了,努力了也不留遗憾。💓💓💓 目录   ✨说在前面 🍋知识点一:什么是list? •🌰1.list的定义 •🌰2.list的基本特性 •🌰3.常用接口介绍 🍋知识点二:list常用接口 •🌰1.默认成员函数 🔥构造函数(⭐) 🔥析构函数 •🌰2.list对象

高效录音转文字:2024年四大工具精选!

在快节奏的工作生活中,能够快速将录音转换成文字是一项非常实用的能力。特别是在需要记录会议纪要、讲座内容或者是采访素材的时候,一款优秀的在线录音转文字工具能派上大用场。以下推荐几个好用的录音转文字工具! 365在线转文字 直达链接:https://www.pdf365.cn/ 365在线转文字是一款提供在线录音转文字服务的工具,它以其高效、便捷的特点受到用户的青睐。用户无需下载安装任何软件,只

pdfmake生成pdf的使用

实际项目中有时会有根据填写的表单数据或者其他格式的数据,将数据自动填充到pdf文件中根据固定模板生成pdf文件的需求 文章目录 利用pdfmake生成pdf文件1.下载安装pdfmake第三方包2.封装生成pdf文件的共用配置3.生成pdf文件的文件模板内容4.调用方法生成pdf 利用pdfmake生成pdf文件 1.下载安装pdfmake第三方包 npm i pdfma

浅谈主机加固,六种有效的主机加固方法

在数字化时代,数据的价值不言而喻,但随之而来的安全威胁也日益严峻。从勒索病毒到内部泄露,企业的数据安全面临着前所未有的挑战。为了应对这些挑战,一种全新的主机加固解决方案应运而生。 MCK主机加固解决方案,采用先进的安全容器中间件技术,构建起一套内核级的纵深立体防护体系。这一体系突破了传统安全防护的局限,即使在管理员权限被恶意利用的情况下,也能确保服务器的安全稳定运行。 普适主机加固措施:

webm怎么转换成mp4?这几种方法超多人在用!

webm怎么转换成mp4?WebM作为一种新兴的视频编码格式,近年来逐渐进入大众视野,其背后承载着诸多优势,但同时也伴随着不容忽视的局限性,首要挑战在于其兼容性边界,尽管WebM已广泛适应于众多网站与软件平台,但在特定应用环境或老旧设备上,其兼容难题依旧凸显,为用户体验带来不便,再者,WebM格式的非普适性也体现在编辑流程上,由于它并非行业内的通用标准,编辑过程中可能会遭遇格式不兼容的障碍,导致操