RCG~~

2024-03-14 17:10
文章标签 rcg

本文主要是介绍RCG~~,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

搬来大佬何恺明和MIT师生一起开发的一个自条件图像生成框架,名叫RCG。这个框架结构非常简单但效果拔群,直接在ImageNet-1K数据集上实现了无条件图像生成的新SOTA。

大佬何恺明还未正式入职MIT,但和MIT的第一篇合作研究已经出来了:

他和MIT师生一起开发了一个自条件图像生成框架,名叫RCG(代码已开源)。

这个框架结构非常简单但效果拔群,直接在ImageNet-1K数据集上实现了无条件图像生成的新SOTA

它生成的图像不需要任何人类注释(也就是提示词、类标签什么的),就能做到既保真又具有多样性。

这样的它不仅显著提高了无条件图像生成的水平,还能跟当前最好的条件生成方法一较高下。

用何恺明团队自己的话来说:

有条件和无条件生成任务之间长期存在的性能差距,终于在这一刻被弥补了。

那么,它究竟是如何做到的呢?

类似自监督学习的自条件生成

首先,所谓无条件生成,就是模型在没有输入信号帮助的情况下直接捕获数据分布生成内容。

这种方式比较难以训练,所以一直和条件生成有很大性能差距——就像无监督学习比不过监督学习一样。

但就像自监督学习的出现,扭转了这一局面一样。

在无条件图像生成领域,也有一个类似于自监督学习概念的自条件生成方法。

相比传统的无条件生成简单地将噪声分布映射到图像分布,这种方法主要将像素生成过程设置在从数据分布本身导出的表示分布上

它有望超越条件图像生成,并推动诸如分子设计或药物发现这种不需要人类给注释的应用往前发展(这也是为什么条件生成图像发展得这么好,我们还要重视无条件生成)。

现在,基于这个自条件生成概念,何恺明团队首先开发了一个表示扩散模型RDM

它主要用于生成低维自监督图像表示,方法是通过自监督图像编码器从图像中截取:

它的核心架构如下:

首先是输入层,它负责将表征投射到隐藏维度C,接着是N个全连接块,最后是一个输出层,负责把隐藏层的潜在特征重新投射(转换)到原始表征维度。

其中每一层都包含一个LayerNorm层、一个SiLU层以及一个线性层。

这样的RDM具有两个优点:

一是多样性强,二是计算开销小。    whaosoft aiot http://143ai.com

接着,利用RDM,团队就提出了今天的主角:表示条件图像生成架构RCG。

它是一个简单的自条件生成框架,由三个组件组成:

一个是SSL图像编码器,用于将图像分布转换为紧凑的表示分布。

一个是RDM,用于对该分布进行建模和采样。

最后是一个像素生成器MAGE,用于根据表示来处理图像像。

MAGE的工作方式主要是向token化的图像中添加随机掩码,并要求网络以从同一图像中提取的表示为条件来重建丢失的token。

最终,测试表明,这个自条件生成框架虽结构简单但效果非凡:

在ImageNet 256×256上,RCG实现了3.56的FID和186.9的IS(Inception Score)得分。

相比之下,在它之前最厉害的无条件生成方法FID分数为7.04,IS得分为123.5。

以及,相比条件生成,RCG也丝毫不逊色,可以达到相当甚至超过该领域基准模型的水平。

最后,在无分类器引导的情况下,RCG的成绩还能进一步提高到3.31(FID)和253.4(IS)。

团队表示:

这些结果表明,自条件图像生成模型拥有巨大潜力,可能预示这一领域新时代的到来。

论文地址:
https://arxiv.org/abs/2312.03701

这篇关于RCG~~的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/809111

相关文章

RCG Self-conditioned Image Generation via Generating Representations

RCG: Self-conditioned Image Generation via Generating Representations TL; DR:将图像的无监督表征作为(自)条件(而非是将文本 prompt 作为条件),生成与原图语义内容一致的多样且高质量结果。视觉训练能不能 / 需不需要摆脱文本,仍有待研究。 引言 就像图像自监督表征学习(对比学习 / 图像掩码建模)成功赶超了有监

RCG:何恺明新作,无条件图像生成新SOTA

丰色 发自 凹非寺量子位 | 公众号 QbitAI 大佬何恺明还未正式入职MIT,但和MIT的第一篇合作研究已经出来了: 他和MIT师生一起开发了一个自条件图像生成框架,名叫RCG(代码已开源)。 这个框架结构非常简单但效果拔群,直接在ImageNet-1K数据集上实现了无条件图像生成的新SOTA。 它生成的图像不需要任何人类注释(也就是提示词、类标签什么的),就能做到既保真又具有多样性。

何恺明新作RCG:无自条件图像生成新SOTA!与MIT首次合作!

点击下方卡片,关注“CVer”公众号 AI/CV重磅干货,第一时间送达 点击进入—>【视觉和Transformer】微信交流群 扫码加入CVer知识星球,可以最快学习到最新顶会顶刊上的论文idea和CV从入门到精通资料,以及最前沿项目和应用!发论文,强烈推荐! 在CVer微信公众号后台回复:RCG,即可下载论文pdf和代码链接!快学起来! 转载自:量子位 大佬何恺明还未正式入职MIT,

论文阅读:Self-conditioned Image Generation via Generating Representations(RCG)

Self-conditioned Image Generation via Generating Representations(RCG) work 提出的表示条件图像生成(Representation-Conditioned image Generation,RCG),一个简单而有效的框架用于自适应图像生成。 简而言之就是无附加条件生成相同分布的图片。 框架主要分为三步: 使用一个