stable diffusion(LDM)--图片生成模型

2023-10-14 12:20

文章标签 图片模型生成 diffusion stable ldm

本文主要是介绍stable diffusion(LDM)--图片生成模型，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

1 简介

本文根据2022年4月的《High-Resolution Image Synthesis with Latent Diffusion Models 》翻译总结的。论文地址https://arxiv.org/pdf/2112.10752.pdf。源码地址：GitHub - CompVis/latent-diffusion: High-Resolution Image Synthesis with Latent Diffusion Models。

以前的扩散模型（diffusion models (DMs) ）基于像素级别的，其需要上百个GPU day 进行训练。我们的方法latent diffusion models (LDMs) 在减少计算复杂度和保留细节、提升保真度中接近了最佳。

我们的方法latent diffusion models (LDMs)是两阶段模型（two-stage）。先对图片进行压缩，将图片压缩为隐变量表示（latent），减少计算复杂度，然后输入扩散模型。

如下图所示，我们进行的感知（perceptual）图片压缩不会丢失太多语义信息，但减少了计算量。

2 相关工作

图片生成模型

GAN模型的结果是被限制在比较的数据集，因为它的对抗学习过程不是很容易扩展模型复杂度和多模态分布。GAN虽然可以生成高分辨率的图片，但很难优化而较难捕捉完整的数据分布。
Variational autoencoders (VAE) 和 flow-based的模型可以高效的合成高分辨率图片，但其效果不如GAN模型。
autoregressive models (ARM)在密集（density）估计上有很强的表现，但计算要求高的体系结构和顺序采样过程，故只能生成低分辨率图像。因为图片的像素级别的表示包含着几乎不可感知、高频的细节， maximum-likelihood 训练花费大量的精力来对这些细节建模，导致了很长的训练时间。为了扩展到高分辨率，一些两阶段（two-stage）方法使用ARM来构建压缩的图片隐变量表示，而不是原始像素级别的表示。
扩散模型是属于基于可能性的（ likelihood-based ）模型。基于可能性的方法强调好的密集（density）估计，这使得其表现良好。

两阶段（two-stage）图片生成

VQ-VAEs在一个离散化的空间使用自回归模型（ARM）学习图片的先验。

我们的方法latent diffusion models (LDMs)也是两阶段模型。

3 方法

我们模型latent diffusion models (LDMs)是两阶段的。第一部分就是下面左半部分（红色），对图片进行压缩，将图片压缩为隐变量表示（latent），这样可以减少计算复杂度；第二部分还是扩散模型（diffusion与denoising），中间绿色部分。此外引入了cross-attention机制，下图右半部分，方便文本或者图片草稿图等对扩散模型进行施加影响，从而生成我们想要的图片，比如根据文本生成我们想要的图片。

3.1 感知（perceptual）图片压缩

主要讲上图模型的左半部分（红色）。

为了避免任意的高可变的隐空间，我们实验了两种正则。第一种是KL-reg，施加了一个轻微的KL惩罚到学习到的隐变量，类似于VAE。另一种是VQ-reg，在解码器里使用了向量量化层。

这个编码器/解码器，我们可以只训练一次，适用于不同的DM模型训练。

3.2 Latent Diffusion Models

主要讲上图模型的中间部分（绿色）。

一般扩散模型的目标函数如下，可以参考DDPM：DDPM--Denoising Diffusion Probabilistic Models_AI强仔的博客-CSDN博客：

采用隐变量表示的扩散模型目标函数，如下：

3.3 调节机制/cross-attention

我们通过在DM模型的UNET网络中引入cross-attention，实现灵活的图片生成控制。对不同输入模态，可以有效学习基于注意力的模型。

最终目标函数变成如下形式：

4 实验

4.1感知压缩权衡

编码器下采样因子，我们取f ∈ {1, 2, 4, 8, 16, 32} ，即LDM-f表示不同的模型。其中LDM-1表示没有压缩，等同于原来基于像素的DM。

从下图，可以看出来，LDM-4和LDM-8合成高质量图片效果较好。

4.2 图片生成

如下图，LDM模型效果很好。

LDM的参数也较少，1.45B（14.5亿参数）。

4.3条件生成

如下图，我们可以根据左上角的空间布局草稿图，生成高分辨率的大图。

下图根据文本生成图片，可以看到效果还不错。

4.4 高分辨率生成

我们可以根据低分辨率图片生成高分辨率图片，如下面中间部分。

4.5图像修复

可以将图片中的一部分恢复。下图是展示了抠图的效果。

这篇关于stable diffusion(LDM)--图片生成模型的文章就介绍到这儿，希望我们推荐的文章对编程师们有所帮助！

http://www.chinasem.cn/article/210462。 23002807@qq.com

相关文章

关于MongoDB图片URL存储异常问题以及解决

关于MongoDB图片URL存储异常问题以及解决

《关于MongoDB图片URL存储异常问题以及解决》：本文主要介绍关于MongoDB图片URL存储异常问题以及解决方案,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐... 目录MongoDB图片URL存储异常问题项目场景问题描述原因分析解决方案预防措施js总结MongoDB图

阅读更多...

python实现svg图片转换为png和gif

python实现svg图片转换为png和gif

《python实现svg图片转换为png和gif》这篇文章主要为大家详细介绍了python如何实现将svg图片格式转换为png和gif,文中的示例代码讲解详细,感兴趣的小伙伴可以跟随小编一起学习一下... 目录python实现svg图片转换为png和gifpython实现图片格式之间的相互转换延展：基于Py

阅读更多...

使用Python从PPT文档中提取图片和图片信息(如坐标、宽度和高度等)

使用Python从PPT文档中提取图片和图片信息(如坐标、宽度和高度等)

《使用Python从PPT文档中提取图片和图片信息(如坐标、宽度和高度等)》PPT是一种高效的信息展示工具,广泛应用于教育、商务和设计等多个领域,PPT文档中常常包含丰富的图片内容,这些图片不仅提升了... 目录一、引言二、环境与工具三、python 提取PPT背景图片3.1 提取幻灯片背景图片3.2 提取

阅读更多...

Python实现图片分割的多种方法总结

Python实现图片分割的多种方法总结

《Python实现图片分割的多种方法总结》图片分割是图像处理中的一个重要任务,它的目标是将图像划分为多个区域或者对象,本文为大家整理了一些常用的分割方法,大家可以根据需求自行选择... 目录1. 基于传统图像处理的分割方法(1) 使用固定阈值分割图片(2) 自适应阈值分割(3) 使用图像边缘检测分割(4)

阅读更多...

C#实现将Excel表格转换为图片(JPG/ PNG)

C#实现将Excel表格转换为图片(JPG/ PNG)

《C#实现将Excel表格转换为图片(JPG/PNG)》Excel表格可能会因为不同设备或字体缺失等问题,导致格式错乱或数据显示异常,转换为图片后,能确保数据的排版等保持一致,下面我们看看如何使用C... 目录通过C# 转换Excel工作表到图片通过C# 转换指定单元格区域到图片知识扩展C# 将 Excel

阅读更多...

IDEA自动生成注释模板的配置教程

IDEA自动生成注释模板的配置教程

《IDEA自动生成注释模板的配置教程》本文介绍了如何在IntelliJIDEA中配置类和方法的注释模板,包括自动生成项目名称、包名、日期和时间等内容,以及如何定制参数和返回值的注释格式,需要的朋友可以... 目录项目场景配置方法类注释模板定义类开头的注释步骤类注释效果方法注释模板定义方法开头的注释步骤方法注

阅读更多...

JS+HTML实现在线图片水印添加工具

JS+HTML实现在线图片水印添加工具

《JS+HTML实现在线图片水印添加工具》在社交媒体和内容创作日益频繁的今天,如何保护原创内容、展示品牌身份成了一个不得不面对的问题,本文将实现一个完全基于HTML+CSS构建的现代化图片水印在线工具... 目录概述功能亮点使用方法技术解析延伸思考运行效果项目源码下载总结概述在社交媒体和内容创作日益频繁的

阅读更多...

Python如何自动生成环境依赖包requirements

Python如何自动生成环境依赖包requirements

《Python如何自动生成环境依赖包requirements》：本文主要介绍Python如何自动生成环境依赖包requirements问题,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑... 目录生成当前 python 环境安装的所有依赖包1、命令2、常见问题只生成当前项目的所有依赖包1、

阅读更多...

使用Node.js制作图片上传服务的详细教程

使用Node.js制作图片上传服务的详细教程

《使用Node.js制作图片上传服务的详细教程》在现代Web应用开发中,图片上传是一项常见且重要的功能,借助Node.js强大的生态系统,我们可以轻松搭建高效的图片上传服务,本文将深入探讨如何使用No... 目录准备工作搭建 Express 服务器配置 multer 进行图片上传处理图片上传请求完整代码示例

阅读更多...

MySQL中动态生成SQL语句去掉所有字段的空格的操作方法

MySQL中动态生成SQL语句去掉所有字段的空格的操作方法

《MySQL中动态生成SQL语句去掉所有字段的空格的操作方法》在数据库管理过程中,我们常常会遇到需要对表中字段进行清洗和整理的情况,本文将详细介绍如何在MySQL中动态生成SQL语句来去掉所有字段的空... 目录在mysql中动态生成SQL语句去掉所有字段的空格准备工作原理分析动态生成SQL语句在MySQL

阅读更多...