何恺明新作RCG:无自条件图像生成新SOTA!与MIT首次合作!

2024-03-14 17:10

本文主要是介绍何恺明新作RCG:无自条件图像生成新SOTA!与MIT首次合作!,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

点击下方卡片,关注“CVer”公众号

AI/CV重磅干货,第一时间送达

点击进入—>【视觉和Transformer】微信交流群

扫码加入CVer知识星球可以最快学习到最新顶会顶刊上的论文idea和CV从入门到精通资料,以及最前沿项目和应用!发论文,强烈推荐!

264f6709acb7f9ebe8df3cc86f3de44c.jpeg

在CVer微信公众号后台回复:RCG,即可下载论文pdf和代码链接!快学起来!

转载自:量子位

大佬何恺明还未正式入职MIT,但和MIT的第一篇合作研究已经出来了:

他和MIT师生一起开发了一个自条件图像生成框架,名叫RCG(代码已开源)。

这个框架结构非常简单但效果拔群,直接在ImageNet-1K数据集上实现了无条件图像生成的新SOTA

97649074a72c285c32170e4756a12a5a.png

它生成的图像不需要任何人类注释(也就是提示词、类标签什么的),就能做到既保真又具有多样性。

87c1d4659438ecc67d73349a9d9ba374.png

这样的它不仅显著提高了无条件图像生成的水平,还能跟当前最好的条件生成方法一较高下。

用何恺明团队自己的话来说:

有条件和无条件生成任务之间长期存在的性能差距,终于在这一刻被弥补了。

那么,它究竟是如何做到的呢?

类似自监督学习的自条件生成

首先,所谓无条件生成,就是模型在没有输入信号帮助的情况下直接捕获数据分布生成内容。

这种方式比较难以训练,所以一直和条件生成有很大性能差距——就像无监督学习比不过监督学习一样。

但就像自监督学习的出现,扭转了这一局面一样。

在无条件图像生成领域,也有一个类似于自监督学习概念的自条件生成方法。

相比传统的无条件生成简单地将噪声分布映射到图像分布,这种方法主要将像素生成过程设置在从数据分布本身导出的表示分布上

它有望超越条件图像生成,并推动诸如分子设计或药物发现这种不需要人类给注释的应用往前发展(这也是为什么条件生成图像发展得这么好,我们还要重视无条件生成)。

现在,基于这个自条件生成概念,何恺明团队首先开发了一个表示扩散模型RDM

它主要用于生成低维自监督图像表示,方法是通过自监督图像编码器从图像中截取:

a32e3841e582622820cd58ff5a0df540.png

它的核心架构如下:

首先是输入层,它负责将表征投射到隐藏维度C,接着是N个全连接块,最后是一个输出层,负责把隐藏层的潜在特征重新投射(转换)到原始表征维度。

其中每一层都包含一个LayerNorm层、一个SiLU层以及一个线性层。

9799d2684751cf058615a95f28d92b36.png

这样的RDM具有两个优点:

一是多样性强,二是计算开销小。

接着,利用RDM,团队就提出了今天的主角:表示条件图像生成架构RCG。

它是一个简单的自条件生成框架,由三个组件组成:

一个是SSL图像编码器,用于将图像分布转换为紧凑的表示分布。

一个是RDM,用于对该分布进行建模和采样。

最后是一个像素生成器MAGE,用于根据表示来处理图像像。

MAGE的工作方式主要是向token化的图像中添加随机掩码,并要求网络以从同一图像中提取的表示为条件来重建丢失的token。

3bc263e764821e3a8cf14dcef8fa76a0.png

最终,测试表明,这个自条件生成框架虽结构简单但效果非凡:

在ImageNet 256×256上,RCG实现了3.56的FID和186.9的IS(Inception Score)得分。

相比之下,在它之前最厉害的无条件生成方法FID分数为7.04,IS得分为123.5。

f99f89d4b098f4d99452e63038adc257.png

以及,相比条件生成,RCG也丝毫不逊色,可以达到相当甚至超过该领域基准模型的水平。

最后,在无分类器引导的情况下,RCG的成绩还能进一步提高到3.31(FID)和253.4(IS)。

团队表示:

这些结果表明,自条件图像生成模型拥有巨大潜力,可能预示这一领域新时代的到来。

团队介绍

本文一共三位作者:

8c09c7d2d23868ac8ad115b0e3f3accf.png

代码:https://github.com/LTH14/rcg

论文:https://arxiv.org/abs/2312.03701

一作是MIT博士生黎天鸿,本科毕业于清华姚班,研究方向为跨模态集成传感技术。

他的主页很有意思,还专门放了一个菜谱合集——做研究和做饭是他最热爱的两件事。

b1d188074a60473838e4a6cfb1c9286c.png

另一位作者是MIT电气工程与计算机科学系(EECS)教授、MIT无线网络和移动计算中心主任Dina Katabi,她是今年斯隆奖的获得者,并已当选美国国家科学院院士。

75d0833a9ff623a7da0a81b15e854bdc.png

最后,通讯作者为何恺明,他将在明年正式回归学界、离开Meta加入MIT电气工程和计算机科学系,与Dina Katabi成为同事。

bb366536c320791e458b037b1b6a94c1.png

在CVer微信公众号后台回复:RCG,即可下载论文pdf和代码链接!快学起来!

CVPR / ICCV 2023论文和代码下载

 

后台回复:CVPR2023,即可下载CVPR 2023论文和代码开源的论文合集

后台回复:ICCV2023,即可下载ICCV 2023论文和代码开源的论文合集
计算机视觉和Transformer交流群成立
扫描下方二维码,或者添加微信:CVer444,即可添加CVer小助手微信,便可申请加入CVer-计算机视觉或者Transformer 微信交流群。另外其他垂直方向已涵盖:目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer、NeRF等。
一定要备注:研究方向+地点+学校/公司+昵称(如目标检测或者Transformer+上海+上交+卡卡),根据格式备注,可更快被通过且邀请进群

 
▲扫码或加微信号: CVer444,进交流群
CVer计算机视觉(知识星球)来了!想要了解最新最快最好的CV/DL/AI论文速递、优质实战项目、AI行业前沿、从入门到精通学习教程等资料,欢迎扫描下方二维码,加入CVer计算机视觉(知识星球),已汇集近万人!▲扫码加入星球学习
 
▲点击上方卡片,关注CVer公众号
整理不易,请点赞和在看9c79cc496b0a41bb49d1bceb75db2249.gif

这篇关于何恺明新作RCG:无自条件图像生成新SOTA!与MIT首次合作!的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/809110

相关文章

详解如何在React中执行条件渲染

《详解如何在React中执行条件渲染》在现代Web开发中,React作为一种流行的JavaScript库,为开发者提供了一种高效构建用户界面的方式,条件渲染是React中的一个关键概念,本文将深入探讨... 目录引言什么是条件渲染?基础示例使用逻辑与运算符(&&)使用条件语句列表中的条件渲染总结引言在现代

MybatisGenerator文件生成不出对应文件的问题

《MybatisGenerator文件生成不出对应文件的问题》本文介绍了使用MybatisGenerator生成文件时遇到的问题及解决方法,主要步骤包括检查目标表是否存在、是否能连接到数据库、配置生成... 目录MyBATisGenerator 文件生成不出对应文件先在项目结构里引入“targetProje

Python使用qrcode库实现生成二维码的操作指南

《Python使用qrcode库实现生成二维码的操作指南》二维码是一种广泛使用的二维条码,因其高效的数据存储能力和易于扫描的特点,广泛应用于支付、身份验证、营销推广等领域,Pythonqrcode库是... 目录一、安装 python qrcode 库二、基本使用方法1. 生成简单二维码2. 生成带 Log

基于WinForm+Halcon实现图像缩放与交互功能

《基于WinForm+Halcon实现图像缩放与交互功能》本文主要讲述在WinForm中结合Halcon实现图像缩放、平移及实时显示灰度值等交互功能,包括初始化窗口的不同方式,以及通过特定事件添加相应... 目录前言初始化窗口添加图像缩放功能添加图像平移功能添加实时显示灰度值功能示例代码总结最后前言本文将

Python使用Pandas库将Excel数据叠加生成新DataFrame的操作指南

《Python使用Pandas库将Excel数据叠加生成新DataFrame的操作指南》在日常数据处理工作中,我们经常需要将不同Excel文档中的数据整合到一个新的DataFrame中,以便进行进一步... 目录一、准备工作二、读取Excel文件三、数据叠加四、处理重复数据(可选)五、保存新DataFram

SpringBoot生成和操作PDF的代码详解

《SpringBoot生成和操作PDF的代码详解》本文主要介绍了在SpringBoot项目下,通过代码和操作步骤,详细的介绍了如何操作PDF,希望可以帮助到准备通过JAVA操作PDF的你,项目框架用的... 目录本文简介PDF文件简介代码实现PDF操作基于PDF模板生成,并下载完全基于代码生成,并保存合并P

Oracle Expdp按条件导出指定表数据的方法实例

《OracleExpdp按条件导出指定表数据的方法实例》:本文主要介绍Oracle的expdp数据泵方式导出特定机构和时间范围的数据,并通过parfile文件进行条件限制和配置,文中通过代码介绍... 目录1.场景描述 2.方案分析3.实验验证 3.1 parfile文件3.2 expdp命令导出4.总结

详解Java中如何使用JFreeChart生成甘特图

《详解Java中如何使用JFreeChart生成甘特图》甘特图是一种流行的项目管理工具,用于显示项目的进度和任务分配,在Java开发中,JFreeChart是一个强大的开源图表库,能够生成各种类型的图... 目录引言一、JFreeChart简介二、准备工作三、创建甘特图1. 定义数据集2. 创建甘特图3.

Python按条件批量删除TXT文件行工具

《Python按条件批量删除TXT文件行工具》这篇文章主要为大家详细介绍了Python如何实现按条件批量删除TXT文件中行的工具,文中的示例代码讲解详细,感兴趣的小伙伴可以跟随小编一起学习一下... 目录1.简介2.运行效果3.相关源码1.简介一个由python编写android的可根据TXT文件按条件批

基于人工智能的图像分类系统

目录 引言项目背景环境准备 硬件要求软件安装与配置系统设计 系统架构关键技术代码示例 数据预处理模型训练模型预测应用场景结论 1. 引言 图像分类是计算机视觉中的一个重要任务,目标是自动识别图像中的对象类别。通过卷积神经网络(CNN)等深度学习技术,我们可以构建高效的图像分类系统,广泛应用于自动驾驶、医疗影像诊断、监控分析等领域。本文将介绍如何构建一个基于人工智能的图像分类系统,包括环境