这个「女娲」模型火了!怒刷8项SOTA!MSRA和北大提出NÜWA:图像、视频生成大一统!...

本文主要是介绍这个「女娲」模型火了!怒刷8项SOTA!MSRA和北大提出NÜWA:图像、视频生成大一统!...,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

点击下方卡片,关注“CVer”公众号

AI/CV重磅干货,第一时间送达

本文转载自:新智元

编辑:好困 小咸鱼 LRS

【导读】微软亚洲研究院、北京大学强强联合提出了一个可以同时覆盖语言、图像和视频的统一多模态预训练模型——NÜWA(女娲),直接包揽8项SOTA。其中,NÜWA更是在文本到图像生成中完虐OpenAI DALL-E。5天github项目,已获得1000+ star!

太卷了,太卷了!

在几年前,要说AI能直接用一段文字描述生成清晰的图像,那可真是天方夜谭。

结果现在,Transformer的出现彻底带火了「多模态」这一领域。

0e51cb5716ea9cbdebf613d2510745b6.png

照着文字「脑补」图像居然都不稀奇了!

b4638525fa55c55da86e3f39647f4dee.png

更夸张的是,竟然有AI已经可以用文字描述去生成一段视频了,看上去还挺像模像样的。

14ee5997c20c3ebb196109e8b917f07a.gif

这个AI不仅看文字描述可以生成视频,给它几幅草图,一样能「脑补」出视频来!

5510cb17e302a8db93fd2b4b6fc032bd.gif

这么秀的AI出自何方神圣啊?

答案是微软亚洲研究院+北京大学强强联合的研究团队!

最近,微软可谓是跟OpenAI「干」上了。

前脚刚推出取得了40多个新SOTA的Florence「佛罗伦萨」吊打CLIP,横扫40多个SOTA。

后脚就跟着放出NÜWA「女娲」对标DALL-E。

今年1月,OpenAI官宣了120亿参数的GPT-3变体DALL-E。

52cce74717b8f9f58b22f8b7fd5bf8ba.png

论文地址:https://arxiv.org/pdf/2102.12092.pdf

DALL-E会同时接收文本和图像作为单一数据流,其中包含多达1280个token,并使用最大似然估计来进行训练,以一个接一个地生成所有的token。

这个训练过程让DALL-E不仅可以从头开始生成图像,而且还可以重新生成现有图像的任何矩形区域,与文本提示内容基本一致。

5e94c8d979091802c6d8f296a19d116e.png

从文本「一个穿着芭蕾舞裙遛狗的萝卜宝宝」生成的图像示例

同时,DALL-E也有能力对生成的图像中的物体进行操作和重新排列,从而创造出一些根本不存在的东西,比如一个「一个长颈鹿乌龟」:

e4fc235b215c9420bc944c28bf7cbe68.png

这次,MSRA和北大联合团队提出的统一多模态预训练模型——NÜWA(女娲),则可以为各种视觉合成任务生成新的或编辑现有的图像和视频数据。

3d692467bc3c54ffd091889f34e57b67.png

论文地址:https://arxiv.org/abs/2111.12417

GitHub地址:https://github.com/microsoft/NUWA

为了在不同场景下同时覆盖语言、图像和视频,团队设计了一个三维变换器编码器-解码器框架,它不仅可以处理作为三维数据的视频,还可以适应分别作为一维和二维数据的文本和图像。

此外,论文还提出了一个3D邻近注意(3DNA)机制,以考虑视觉数据的性质并降低计算的复杂性。

在8个下游任务中,NÜWA在文本到图像生成、文本到视频生成、视频预测等方面取得了新的SOTA。其中,在文本到图像生成中的表现直接超越DALL-E。

同时,NÜWA在文本引导的图像和视频编辑任务中显示出优秀的zero-shot能力。

2804cb5101bb950cfa3873d752206792.gif

NÜWA模型支持的8种典型视觉生成任务

8大SOTA效果抢先看

文字转图像(Text-To-Image,T2I)

9ff636a494fc35a0c8f8d6bc6f8845df.png

草图转图像(SKetch-to-Image,S2I)

e986730dce97ea7121479227ed229e68.png

图像补全(Image Completion,I2I)

c8b28a85901515539142d15d84849fa9.png

用文字指示修改图像(Text-Guided Image Manipulation,TI2I)

564295216bac28e017152c4651bdef4a.png

文字转视频(Text-to-Video,T2V)

60f833e42ce40b555d4090c1a8ae0d50.png

视频预测(Video Prediction,V2V)

ab20b65ada9efd99308fec296e2c9c6f.gif

草图转视频(Sketch-to-Video,S2V)

e28b64e35d88290797f21a97f622badd.png

用文字指示修改视频(Text-Guided Video Manipulation,TV2V)

bf4ef1f39ff75008c59f359bce161997.gif

NÜWA为啥这么牛?

NÜWA模型的整体架构包含一个支持多种条件的adaptive编码器和一个预训练的解码器,能够同时使图像和视频的信息。

对于图像补全、视频预测、图像处理和视频处理任务,将输入的部分图像或视频直接送入解码器即可。

41e5a6172e2520931368de90d5b357f7.png

NÜWA的结构概述

模型支持所有文本、图像、视频输入,并将他们统一视作token输入,所以可以定义一个统一的向量表示X,维度包括高度h、宽度w,时间轴上的token数量s,每个token的维度d。

文本天然就是离散的,所以使用小写后的byte pair encoding (BPE)来分词,最终的维度为1×1×s×d中。因为文本没有空间维度,所以高度和宽度都为1。

图像输入是连续的像素。每个图像输入的高度为h、宽度为w和通道数为c。使用VQ-VAE训练一个编码把原始连续像素转换为离散的token,训练后B[z]的维度为h×w×1×d作为图像的表示,其中1 代表图像没有时序维度。

707262bcad1e9601bec76f9f4798d0f8.png

视频可以被视为图像的一种时序展开,最近一些研究如VideoGPT和VideoGen将VQ-VAE编码器中的卷积从2D扩展到3D,并能够训练一种针对视频输入的特殊表征。 

但这种方法无法使图像和视频的表示统一起来。研究人员证明了仅使用2D VQ-GAN 就能够编码视频中的每一帧,并且能生成时序一致的视频,结果表示维度为h×w×s×d,其中s代表视频的帧数。

对于图像素描(image sketch)来说,可以将其视为具有特殊通道的图像。

H×W的图像分割矩阵中每个值代表像素的类别,如果以one-hot编码后维度为H×W×C,其中c是分割类别的数目。通过对图像素描进行额外的VQ-GAN训练,最终得到图像embedding表示维度为 h×w×1×d。同样地,对于视频草图的embedding维度为h×w×s×d。

1f60c05f29c6b2c9a7d1ae0463fac6b4.png

基于统一的3D表示,文中还提出一种新的注意力机制3D Nearby Self-Attention (3DNA) ,能够同时支持self-attention 和cross-attention。

98d8e0370395b627dac10851a9f1c804.png

3DNA考虑了完整的邻近信息,并为每个token动态生成三维邻近注意块。注意力矩阵还显示出3DNA的关注部分(蓝色)比三维块稀疏注意力和三维轴稀疏注意力更平滑。

c19d691240abe8794c1d05151aca5f15.png

不同的三维稀疏注意力机制的比较

基于3DNA,文中还引入了3D encoder-decoder,能够在条件矩阵Y 为h'×w'×s'×d^{in}的情况下,生成h×w×s×d^{out} 的目标矩阵C,其中Y和C由三个不同的词典分别考虑高度,宽度和时序维度。

3c11c43eae4b44c1543ec5ab9abc6862.png

然后将条件C和一个堆叠的3DNA层输入到编码器中来建模自注意力的交互。

解码器也是由3DNA层堆叠得到,能够同时计算生成结果的self-attention和生成结果与条件之间的cross-attention。

c4b319d7b404f7a962b70813623f11f7.png

最终的训练包含了三个目标任务Text-to-Image(T2I), Video Prediction (V2V) 和Text-to-Video(T2V),所以目标函数包含三部分。

b6594ccba0347a5bbe2f8c7eefb7a31c.png

对于T2I和T2V任务,C^text表示文本条件。对于V2V任务,由于没有文本输入,所以c为一个常量,单词None的3D表示,θ表示模型参数。

实验结果

文本转图像(T2I)

作者使用FID-k和Inception Score(IS)来分别评估质量和种类,并使用结合了CLIP模型来计算语义相似度的CLIPSIM指标。

公平起见,所有的模型都使用256×256的分辨率,每个文本会生成60张图像,并通过CLIP选择最好的一张。

可以看到,NÜWA以12.9的FID-0和0.3429的CLIPSIM成绩,明显地优于CogView。

f00cc8cf66fc99212cb752de03bfbac7.png

在MSCOCO(256×256)数据集上与SOTA的定量比较

尽管XMC-GAN的FID分数为9.3,但与XMC-GAN的论文中完全相同的样本相比,NÜWA生成的图像更加真实。特别是在右下角的那个例子中,男孩的脸更清晰,气球也是正确的。

c8180f522b833ccb89e1277330356996.png

在MSCOCO(256×256)数据集上与SOTA的定性比较

文本转视频(T2V)

作者在Kinetics数据集上与现有的SOTA进行了比较,其中,在FID-img和FID-vid指标上评估视觉质量,在生成视频的标签准确性上评估语义一致性。

显然,NÜWA在上述所有指标上都取得了SOTA。

55e91a3f06f4157f6ba460861c8bccc5.png

在Kinetics数据集上与SOTA的定量比较

此外,对于生成未见过的文本来说,NÜWA在定性比较中显示出了强大的zero-shot能力,如「在游泳池打高尔夫球」以及「在海上跑步」。

d93d9181cc9e50b20a535cff0b6f9000.png

在Kinetics数据集上与SOTA的定性比较

图像补全(I2I)

作者定性地比较了NÜWA的zero-shot图像补全能力。

在只有塔的上半部分的情况下,与Taming Transformers相比,NÜWA在对塔的下半部分进行补全时,展现出更丰富的想象力,自主添加了建筑、湖泊、鲜花、草地、树木、山脉等等。

a4b65cf3ccb8116b1478642f4a1c634f.png

以zero-shot方式与现有SOTA进行定性比较

视频预测(V2V)

作者在BAIR数据集上进行了定量比较,其中,Cond.表示预测未来帧的帧数。

为了进行公平的比较,所有的模型都使用64×64的分辨率。尽管只给了一帧作为条件(Cond.),NÜWA仍将FVD的SOTA得分从94±2推至86.9。

979476f114d8bde73e7f3765c1cadd47.png

在BAIR(64×64)数据集上与SOTA的定量比较

草图转图像(S2I)

通过定性比较在MSCOCO上的表现可以看到,与Taming-Transformers和SPADE相比,NÜWA生成的图像种类更多,有的甚至连窗户上的反射也清晰可见。

73ec4541508b9863893bcdd9f295601c.png

在MSCOCO数据集上与SOTA的定性比较

用文本引导图像修改(TI2I)

作者以zero-shot的方式对NÜWA和现有SOTA进行了定性的比较。

与Paint By Word相比,NÜWA表现出了很强的编辑能力,在不改变图像其他部分的情况下,产生了高质量的结果。这得益于通过对各种视觉任务进行多任务预训练而学到的真实世界的视觉模式。

比如在第三个例子中,由NÜWA生成的蓝色卡车更加逼真,而且后方的建筑物也没有产生奇怪的变化。

另一个优点是NÜWA的推理速度,只需要50秒就能生成一幅图像,而Paint By Words在推理过程中需要额外的训练,并需要大约300秒才能收敛。

193e475103417b2231360c0fd3f6364a.png

以zero-shot方式与现有SOTA进行定性比较

结论

文章提出了一种统一的预训练模型NÜWA,这个女娲不光能补天,也能造图,可以为8个视觉合成任务生成新的或操作现有的图像和视频。

还提出了一个通用的3D encoder-decoder框架,能够同时覆盖文本、图像和视频。能同时考虑空间和时序维度的3D nearby-sparse attention机制。

这也是迈向人工智能平台的重要一步,能够让计算机拥有视觉,并辅助内容创作者生成一些人类想象力以外的事。

ICCV和CVPR 2021论文和代码下载后台回复:CVPR2021,即可下载CVPR 2021论文和代码开源的论文合集后台回复:ICCV2021,即可下载ICCV 2021论文和代码开源的论文合集后台回复:Transformer综述,即可下载最新的3篇Transformer综述PDF
CVer-Transformer交流群成立
扫码添加CVer助手,可申请加入CVer-Transformer 微信交流群,方向已涵盖:目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch和TensorFlow等群。
一定要备注:研究方向+地点+学校/公司+昵称(如Transformer+上海+上交+卡卡),根据格式备注,可更快被通过且邀请进群▲长按加小助手微信,进交流群
▲点击上方卡片,关注CVer公众号

整理不易,请点赞和在看6948df0c676a7d11d0fd7adf44e02d71.gif

这篇关于这个「女娲」模型火了!怒刷8项SOTA!MSRA和北大提出NÜWA:图像、视频生成大一统!...的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/299791

相关文章

Python基于火山引擎豆包大模型搭建QQ机器人详细教程(2024年最新)

《Python基于火山引擎豆包大模型搭建QQ机器人详细教程(2024年最新)》:本文主要介绍Python基于火山引擎豆包大模型搭建QQ机器人详细的相关资料,包括开通模型、配置APIKEY鉴权和SD... 目录豆包大模型概述开通模型付费安装 SDK 环境配置 API KEY 鉴权Ark 模型接口Prompt

详解Java中如何使用JFreeChart生成甘特图

《详解Java中如何使用JFreeChart生成甘特图》甘特图是一种流行的项目管理工具,用于显示项目的进度和任务分配,在Java开发中,JFreeChart是一个强大的开源图表库,能够生成各种类型的图... 目录引言一、JFreeChart简介二、准备工作三、创建甘特图1. 定义数据集2. 创建甘特图3.

流媒体平台/视频监控/安防视频汇聚EasyCVR播放暂停后视频画面黑屏是什么原因?

视频智能分析/视频监控/安防监控综合管理系统EasyCVR视频汇聚融合平台,是TSINGSEE青犀视频垂直深耕音视频流媒体技术、AI智能技术领域的杰出成果。该平台以其强大的视频处理、汇聚与融合能力,在构建全栈视频监控系统中展现出了独特的优势。视频监控管理系统EasyCVR平台内置了强大的视频解码、转码、压缩等技术,能够处理多种视频流格式,并以多种格式(RTMP、RTSP、HTTP-FLV、WebS

大模型研发全揭秘:客服工单数据标注的完整攻略

在人工智能(AI)领域,数据标注是模型训练过程中至关重要的一步。无论你是新手还是有经验的从业者,掌握数据标注的技术细节和常见问题的解决方案都能为你的AI项目增添不少价值。在电信运营商的客服系统中,工单数据是客户问题和解决方案的重要记录。通过对这些工单数据进行有效标注,不仅能够帮助提升客服自动化系统的智能化水平,还能优化客户服务流程,提高客户满意度。本文将详细介绍如何在电信运营商客服工单的背景下进行

基于人工智能的图像分类系统

目录 引言项目背景环境准备 硬件要求软件安装与配置系统设计 系统架构关键技术代码示例 数据预处理模型训练模型预测应用场景结论 1. 引言 图像分类是计算机视觉中的一个重要任务,目标是自动识别图像中的对象类别。通过卷积神经网络(CNN)等深度学习技术,我们可以构建高效的图像分类系统,广泛应用于自动驾驶、医疗影像诊断、监控分析等领域。本文将介绍如何构建一个基于人工智能的图像分类系统,包括环境

AI一键生成 PPT

AI一键生成 PPT 操作步骤 作为一名打工人,是不是经常需要制作各种PPT来分享我的生活和想法。但是,你们知道,有时候灵感来了,时间却不够用了!😩直到我发现了Kimi AI——一个能够自动生成PPT的神奇助手!🌟 什么是Kimi? 一款月之暗面科技有限公司开发的AI办公工具,帮助用户快速生成高质量的演示文稿。 无论你是职场人士、学生还是教师,Kimi都能够为你的办公文

Andrej Karpathy最新采访:认知核心模型10亿参数就够了,AI会打破教育不公的僵局

夕小瑶科技说 原创  作者 | 海野 AI圈子的红人,AI大神Andrej Karpathy,曾是OpenAI联合创始人之一,特斯拉AI总监。上一次的动态是官宣创办一家名为 Eureka Labs 的人工智能+教育公司 ,宣布将长期致力于AI原生教育。 近日,Andrej Karpathy接受了No Priors(投资博客)的采访,与硅谷知名投资人 Sara Guo 和 Elad G

综合安防管理平台LntonAIServer视频监控汇聚抖动检测算法优势

LntonAIServer视频质量诊断功能中的抖动检测是一个专门针对视频稳定性进行分析的功能。抖动通常是指视频帧之间的不必要运动,这种运动可能是由于摄像机的移动、传输中的错误或编解码问题导致的。抖动检测对于确保视频内容的平滑性和观看体验至关重要。 优势 1. 提高图像质量 - 清晰度提升:减少抖动,提高图像的清晰度和细节表现力,使得监控画面更加真实可信。 - 细节增强:在低光条件下,抖

pdfmake生成pdf的使用

实际项目中有时会有根据填写的表单数据或者其他格式的数据,将数据自动填充到pdf文件中根据固定模板生成pdf文件的需求 文章目录 利用pdfmake生成pdf文件1.下载安装pdfmake第三方包2.封装生成pdf文件的共用配置3.生成pdf文件的文件模板内容4.调用方法生成pdf 利用pdfmake生成pdf文件 1.下载安装pdfmake第三方包 npm i pdfma

Retrieval-based-Voice-Conversion-WebUI模型构建指南

一、模型介绍 Retrieval-based-Voice-Conversion-WebUI(简称 RVC)模型是一个基于 VITS(Variational Inference with adversarial learning for end-to-end Text-to-Speech)的简单易用的语音转换框架。 具有以下特点 简单易用:RVC 模型通过简单易用的网页界面,使得用户无需深入了