本文主要是介绍Motiondirector:motion customization of text-to-video diffusion model,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
1.Introduction
用户希望创建具有特定运动的视频,例如在预定义摄像机视角下,汽车向前移动然后左转,从文本到视频生成中定制运动。运动定制:给定表示运动概念的参考视频,目标是将预训练的基础模型转化为生成展现该特定运动的视频。定制扩散模型以生成所需运动而不损害其外观多样性是具有挑战的,因为运动和外观在逐步去噪阶段相互耦合。MotionDirector以解耦的方式调整基础模型,以学习给定单个或多个参考视频中的外观和动作,使用lora来调整模型,同时保持其预训练参数不变,保留学习的生成知识。
仅部署训练好的时间lora使得基础模型能够生成具有多样化外观的学习动作的视频,如第二行所示,第三行,视频混合,motionDirector可以解耦视频的外观和动作,通过在一个视频上训练的空间lora和另一个视频上训练的时间lora注入到基础模型中实现。第四行,所学习的动作可以部署用于动画图形。
2.Related work
文本到视频生成,通过训练条件3D
这篇关于Motiondirector:motion customization of text-to-video diffusion model的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!