本文主要是介绍以色列魏茨曼科学研究所最新发布!TokenFlow:一致的扩散特征用于一致的视频编辑...,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
作者:幸运的石头 | 来源:3DCV
在公众号「3D视觉工坊」后台,回复「原论文」即可获取论文pdf。
添加微信:dddvisiona,备注:2D视觉,拉你入群。文末附行业细分群。
限于篇幅,对本文的的深入思考与理解,我们发表在了「3D视觉从入门到精通」知识星球。
最近,生成式人工智能革命已经扩展到了视频领域。然而,目前最先进的视频模型在视觉质量和用户对生成内容的控制方面仍落后于图像模型。在本文中,我们提出了一种框架,利用文本到图像扩散模型的能力来实现文本驱动的视频编辑任务。具体地,给定一个源视频和一个目标文本提示,我们的方法生成一个高质量的视频,遵循目标文本,同时保留输入视频的空间布局和运动。我们的方法基于一个关键观察:通过强制扩散特征空间上的一致性,可以获得编辑后的视频的一致性。我们通过根据模型中可用的帧间对应关系显式传播扩散特征来实现这一点。因此,我们的框架不需要进行任何培训或微调,并且可以与任何现成的文本到图像编辑方法配合使用。我们在多个真实世界视频上展示了最先进的编辑结果。
介绍
最近,文本到图像模型的发展促进了图像编辑和内容创作的进展,使用户能够控制生成和真实图像的各种属性。然而,将这一令人兴奋的进展扩展到视频领域仍然落后。涌现了大量大规模的文本到视频生成模型,展示了仅从
这篇关于以色列魏茨曼科学研究所最新发布!TokenFlow:一致的扩散特征用于一致的视频编辑...的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!