本文主要是介绍trackgo 学习笔记,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
还没开源
可控视频生成仍然是一项极具挑战性的任务。首要挑 战是精确控制,包括管理目标运动对象及其轨迹。现有 方法往往难以实现对这些元素的精确控制。例如, DragAnything(Wu 等人,2024 年)利用中心点和高斯 图引导目标对象沿着预定义的路径移动。然而,它无法 有效控制部分或细粒度物体的移动。另一种方法是 Boximator(Wang 等人,2024a),它利用边界框来决 定运动控制。它使用一个框来指定目标区域,框的运动 序列引导目标的运动。遗憾的是,边界框通常包含冗余 区域,这会干扰目标的运动,并破坏生成视频中背景的 连贯性。第二个挑战是效率。现有的工作通常会以大幅 增加模型参数数量的 方式来满足企业条件。例如, DragAny- thing 采 用 了 ControlNet ( Zhang 、 Rao 和 Agrawala,2023 年)的架构,而 DragNUWA(Yin 等 ,2023 年)则采用了重编码器,将引导信号映射到预 训练模型的潜在空间中。这些设计选择不可避免地导致 推理时间变慢,从而阻碍了这些模型在实际应用中的实 际部署。
TrackGo 是一种用于生成可控视频的新 型框架,它利用用户输入来指导视频序列的生成。 TrackGo 使用用户提供的自由形式遮罩和箭头分别定 义目标区域和运动轨迹。这种方法包括两个阶段:点 轨迹生成和条件视频生成。在第一阶段,TrackGo 会自 动从用户定义的遮罩和箭头中提取点轨迹。这些轨迹 是视频生成的精确蓝图。在第二阶段,我们使用稳定 视频扩散模型(SVD)(Blattmann 等人,2023a)作 为基础模型,同时使用编码器对运动信息进行编码。 为了确保我们的模型能精确地进行引导,我们引入了 新颖的 TrackAdapter。该适配器可有效修改预训练视 频生成模型的现有时间自我注意层,以适应新的条件 ,从而增强模型对生成视频的控制。
稳定视频扩散模型中最后一个时间自我注意层的注意 图可视化。注意图中的高亮区域与视频中的移动区域相对应
这篇关于trackgo 学习笔记的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!