【扩散模型】5、Diffusion models beat GAN | 使用类别引导图像生成

本文主要是介绍【扩散模型】5、Diffusion models beat GAN | 使用类别引导图像生成,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

在这里插入图片描述

论文:Diffusion models beat GAN on image Synthesis

代码:https://github.com/openai/guided-diffusion

出处:OPENAI | NIPS2021

时间:2021

贡献:

  • 在本文章之前,扩散模型生成的图片已经非常逼真了,但是 inception score(IS FID等)不如GAN,如何提供一些人为指导来帮助模型采样和学习,提高分数和采样速度就是本文的出发点
  • 作者引入了 classifier guidance 模式,将扩散模型变成了 class-conditional 任务,使用分类梯度来指导扩散模型的生成,平衡了多样性和保真性,降低了扩散模型的采样时间,同时能提高高分辨率情况下的采样效果

一、背景

在近几年来,生成式模型已经能生成类似人类的自然语音、声音、音乐,也能生成高质量的图像

GAN[19] 在当时来说是很多图像生成任务的 SOTA,其评判标准都是例如 FID、Inception Score、Precision 等简单标准

但这些标准很难完全捕捉到图像之间的差异,而且 GAN 也被证明捕捉到的差异性比很多 likelihood-based 方法能够捕捉到的更少一些,而且 GAN 比较难以训练,一旦没有仔细的设置参数和规则,就容易崩塌

扩散模型就是 likelihood-based 方法的一种,其通过逐步从图像信号中移除噪声来生成图片,其训练的目标函数可以被看做一个重参数化的变分下届,扩散模型在 CIFAR-10 上已经得到了 SOTA,但是在 LSUN 和 ImageNet 这些比较难的数据集上比 GAN 稍微落后一点。

作者认为,扩散模型和 GAN 之间的差距主要由于下面两个因素,也是基于这两个因素,作者对 diffusion model 进行了改进:

  • GAN 的模型结构已经被探索和改进了很多了
  • GAN 能更好的平衡多样性和保真度,产生高质量的样本,但不覆盖整个分布

在这里插入图片描述

二、方法

2.1 扩散模型回顾

扩散模型是通过从一个渐进加噪声的逆过程来采样的,也就是说,最开始的时候从噪声 x T x_T xT 中开始采样,然后逐步得到噪声更少的 x T − 1 x_{T-1} xT1 x T − 2 x_{T-2} xT2 … ,直到得到最终的采样结果 x 0 x_0 x0

扩散模型就是在学习如何从 x t x_t xt 得到上一时刻的 x t − 1 x_{t-1} xt1,扩散模型可以被建模为 ϵ θ ( x t , t ) \epsilon_{\theta}(x_t, t) ϵθ(xt,t),表示预测到的当前时刻的噪声,训练目标函数是 ∣ ∣ ϵ θ ( x t , t ) − ϵ ∣ ∣ 2 ||\epsilon_{\theta}(x_t, t) - \epsilon||^2 ∣∣ϵθ(xt,t)ϵ2 ϵ \epsilon ϵ 是真实噪声

2.2 简单的质量测评标准

1、Inception Score(IS)

Inception Score (IS) 是用来衡量一个模型在生成单个类别的样本时能否很好地捕获整个 ImageNet 类别分布

然而,该指标有一个缺点,它并不奖励覆盖整个分布的行为,也不会奖励在一个类别中捕获很多多样性的行为,如果模型记住全数据集一小部分,仍然会有高 IS

2、FID

为了比 IS 更好地捕获多样性,Heusel等人[23] 提出了 Fréchet Inception Distance (FID),他们认为 FID 与人类判断更一致。FID 提供了一个对两个图像分布在 Inception-V3 [62] 潜空间中距离的对称度量

Nash 等人[42] 提出了 sFID 作为使用空间特征而非标准汇集特征的 FID 版本。他们发现这种指标更好地捕获了空间关系, 奖励具有连贯高级结构的图像分布

作者使用 FID 作为评判指标,因为其能同时捕捉样本的多样性和保真性

作者还使用了 Precision 或 IS 来衡量保真性,使用 Recall 来衡量多样性或分布范围

2.3 模型架构改进

作者为了获得简单有效的模型架构,进行了多种不同的架构消融实验

因为扩散模型使用的是 U-Net,所以作者主要对 U-Net 的结构进行了改进

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

虽然增加模型深度能提高效果,但训练时长增加了,所以不做模型深度的改变

作者还对比了使用不同 head 的效果,最终使用了 64
在这里插入图片描述
在这里插入图片描述

2.4 Classifier Guidance

GAN 用于条件合成时,除了精心设计结构外,还会使用很多 class labels,所以作者也想使用分类器来提升扩散模型的效果

方法:作者会在带噪声的图像 x t x_t xt 上训练一个分类器,然后使用梯度来指导扩散模型的采样过程来朝着对应类别进行采样,作者这里使用的 ImageNet

本文方法不用额外训练扩散模型,直接在原有训练好的扩散模型上,通过外部的分类器来引导生成期望的图像。唯一需要改动的地方其实只有 sampling 过程中的高斯采样的均值,也即采样过程中,期望噪声图像的采样中心越靠近判别器引导的条件越好。

使用分类模型对生成的图片进行分类,得到预测分数与目标类别的交叉熵,将其对带噪图像求梯度用梯度引导下一步的生成采样。

在这里插入图片描述

三、效果

在这里插入图片描述

在这里插入图片描述

这篇关于【扩散模型】5、Diffusion models beat GAN | 使用类别引导图像生成的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/363957

相关文章

使用Python实现可恢复式多线程下载器

《使用Python实现可恢复式多线程下载器》在数字时代,大文件下载已成为日常操作,本文将手把手教你用Python打造专业级下载器,实现断点续传,多线程加速,速度限制等功能,感兴趣的小伙伴可以了解下... 目录一、智能续传:从崩溃边缘抢救进度二、多线程加速:榨干网络带宽三、速度控制:做网络的好邻居四、终端交互

Python中注释使用方法举例详解

《Python中注释使用方法举例详解》在Python编程语言中注释是必不可少的一部分,它有助于提高代码的可读性和维护性,:本文主要介绍Python中注释使用方法的相关资料,需要的朋友可以参考下... 目录一、前言二、什么是注释?示例:三、单行注释语法:以 China编程# 开头,后面的内容为注释内容示例:示例:四

Go语言数据库编程GORM 的基本使用详解

《Go语言数据库编程GORM的基本使用详解》GORM是Go语言流行的ORM框架,封装database/sql,支持自动迁移、关联、事务等,提供CRUD、条件查询、钩子函数、日志等功能,简化数据库操作... 目录一、安装与初始化1. 安装 GORM 及数据库驱动2. 建立数据库连接二、定义模型结构体三、自动迁

ModelMapper基本使用和常见场景示例详解

《ModelMapper基本使用和常见场景示例详解》ModelMapper是Java对象映射库,支持自动映射、自定义规则、集合转换及高级配置(如匹配策略、转换器),可集成SpringBoot,减少样板... 目录1. 添加依赖2. 基本用法示例:简单对象映射3. 自定义映射规则4. 集合映射5. 高级配置匹

Spring 框架之Springfox使用详解

《Spring框架之Springfox使用详解》Springfox是Spring框架的API文档工具,集成Swagger规范,自动生成文档并支持多语言/版本,模块化设计便于扩展,但存在版本兼容性、性... 目录核心功能工作原理模块化设计使用示例注意事项优缺点优点缺点总结适用场景建议总结Springfox 是

嵌入式数据库SQLite 3配置使用讲解

《嵌入式数据库SQLite3配置使用讲解》本文强调嵌入式项目中SQLite3数据库的重要性,因其零配置、轻量级、跨平台及事务处理特性,可保障数据溯源与责任明确,详细讲解安装配置、基础语法及SQLit... 目录0、惨痛教训1、SQLite3环境配置(1)、下载安装SQLite库(2)、解压下载的文件(3)、

使用Python绘制3D堆叠条形图全解析

《使用Python绘制3D堆叠条形图全解析》在数据可视化的工具箱里,3D图表总能带来眼前一亮的效果,本文就来和大家聊聊如何使用Python实现绘制3D堆叠条形图,感兴趣的小伙伴可以了解下... 目录为什么选择 3D 堆叠条形图代码实现:从数据到 3D 世界的搭建核心代码逐行解析细节优化应用场景:3D 堆叠图

Springboot如何正确使用AOP问题

《Springboot如何正确使用AOP问题》:本文主要介绍Springboot如何正确使用AOP问题,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录​一、AOP概念二、切点表达式​execution表达式案例三、AOP通知四、springboot中使用AOP导出

Navicat数据表的数据添加,删除及使用sql完成数据的添加过程

《Navicat数据表的数据添加,删除及使用sql完成数据的添加过程》:本文主要介绍Navicat数据表的数据添加,删除及使用sql完成数据的添加过程,具有很好的参考价值,希望对大家有所帮助,如有... 目录Navicat数据表数据添加,删除及使用sql完成数据添加选中操作的表则出现如下界面,查看左下角从左

python 常见数学公式函数使用详解(最新推荐)

《python常见数学公式函数使用详解(最新推荐)》文章介绍了Python的数学计算工具,涵盖内置函数、math/cmath标准库及numpy/scipy/sympy第三方库,支持从基础算术到复杂数... 目录python 数学公式与函数大全1. 基本数学运算1.1 算术运算1.2 分数与小数2. 数学函数