dragnuwa专题

51-43 DragNUWA，集成文本、图像和轨迹实现视频生成细粒度控制

微软 NÜWA 系列主要功能及发布时间如下： 22年11月，微软亚洲研究院、北京大学联合提出同时覆盖语言、图像和视频的统一多模态生成模型女娲NÜWA，直接包揽草图转图像、图像补全、视频预测、文字指导修改视频等8项SOTA。23年3月，微软亚洲研究院发布多模态新模型NUWA-XL，可直接生成11分钟长动画。23年8月，微软亚洲研究院联合北大、中科院提出了一种基于开放域的新型视频生成模型DragNU