本文主要是介绍51-43 DragNUWA,集成文本、图像和轨迹实现视频生成细粒度控制,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
微软 NÜWA 系列主要功能及发布时间如下:
- 22年11月,微软亚洲研究院、北京大学联合提出同时覆盖语言、图像和视频的统一多模态生成模型女娲NÜWA,直接包揽草图转图像、图像补全、视频预测、文字指导修改视频等8项SOTA。
- 23年3月,微软亚洲研究院发布多模态新模型NUWA-XL,可直接生成11分钟长动画。
- 23年8月,微软亚洲研究院联合北大、中科院提出了一种基于开放域的新型视频生成模型DragNUWA。
生成视频时,主要关注两种运动,即摄像机和对象运动。DragNUWA同时引入simultaneously introduce文本、图像和轨迹信息三种控制因素,使得模型能够同时控制摄像机运动camera movements、多个对象移动object motions以及复杂轨迹complex trajectories,从语义、空间和时间层面对视频内容实现细粒度控制,从而生成具有真实世界场景和艺术绘画特色的视频。
您只要在图上Drag给出运动轨迹,DragNUWA就能让图像中的物体对象按照该轨迹移动位置生成一致连贯的视频!!!
这篇关于51-43 DragNUWA,集成文本、图像和轨迹实现视频生成细粒度控制的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!