stable diffusion(LDM)--图片生成模型

2023-10-14 12:20

本文主要是介绍stable diffusion(LDM)--图片生成模型,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

1 简介

本文根据2022年4月的《High-Resolution Image Synthesis with Latent Diffusion Models 》翻译总结的。论文地址https://arxiv.org/pdf/2112.10752.pdf。源码地址:GitHub - CompVis/latent-diffusion: High-Resolution Image Synthesis with Latent Diffusion Models。

以前的扩散模型(diffusion models (DMs) )基于像素级别的,其需要上百个GPU day 进行训练。我们的方法latent diffusion models (LDMs) 在减少计算复杂度和保留细节、提升保真度中接近了最佳。

我们的方法latent diffusion models (LDMs)是两阶段模型(two-stage)。先对图片进行压缩,将图片压缩为隐变量表示(latent),减少计算复杂度,然后输入扩散模型。

如下图所示,我们进行的感知(perceptual)图片压缩不会丢失太多语义信息,但减少了计算量。

2 相关工作

图片生成模型

  • GAN模型的结果是被限制在比较的数据集,因为它的对抗学习过程不是很容易扩展模型复杂度和多模态分布。GAN虽然可以生成高分辨率的图片,但很难优化而较难捕捉完整的数据分布。
  • Variational autoencoders (VAE) 和 flow-based的模型可以高效的合成高分辨率图片,但其效果不如GAN模型。
  • autoregressive models (ARM)在密集(density)估计上有很强的表现,但计算要求高的体系结构和顺序采样过程,故只能生成低分辨率图像。因为图片的像素级别的表示包含着几乎不可感知、高频的细节, maximum-likelihood 训练花费大量的精力来对这些细节建模,导致了很长的训练时间。为了扩展到高分辨率,一些两阶段(two-stage)方法使用ARM来构建压缩的图片隐变量表示,而不是原始像素级别的表示。
  • 扩散模型是属于基于可能性的( likelihood-based )模型。基于可能性的方法强调好的密集(density)估计,这使得其表现良好。

两阶段(two-stage)图片生成

VQ-VAEs在一个离散化的空间使用自回归模型(ARM)学习图片的先验。

我们的方法latent diffusion models (LDMs)也是两阶段模型。

3 方法

我们模型latent diffusion models (LDMs)是两阶段的。第一部分就是下面左半部分(红色),对图片进行压缩,将图片压缩为隐变量表示(latent),这样可以减少计算复杂度;第二部分还是扩散模型(diffusion与denoising),中间绿色部分。此外引入了cross-attention机制,下图右半部分,方便文本或者图片草稿图等对扩散模型进行施加影响,从而生成我们想要的图片,比如根据文本生成我们想要的图片。

3.1 感知(perceptual)图片压缩

主要讲上图模型的左半部分(红色)。

为了避免任意的高可变的隐空间,我们实验了两种正则。第一种是KL-reg,施加了一个轻微的KL惩罚到学习到的隐变量,类似于VAE。另一种是VQ-reg,在解码器里使用了向量量化层。

这个编码器/解码器,我们可以只训练一次,适用于不同的DM模型训练。

3.2 Latent Diffusion Models

主要讲上图模型的中间部分(绿色)。

  • 一般扩散模型的目标函数如下,可以参考DDPM:DDPM--Denoising Diffusion Probabilistic Models_AI强仔的博客-CSDN博客:

  • 采用隐变量表示的扩散模型目标函数,如下:​

3.3 调节机制/cross-attention

我们通过在DM模型的UNET网络中引入cross-attention,实现灵活的图片生成控制。对不同输入模态,可以有效学习基于注意力的模型。

最终目标函数变成如下形式:

4 实验

4.1感知压缩权衡

编码器下采样因子,我们取f ∈ {1, 2, 4, 8, 16, 32} ,即LDM-f表示不同的模型。其中LDM-1表示没有压缩,等同于原来基于像素的DM。

从下图,可以看出来,LDM-4和LDM-8合成高质量图片效果较好。

4.2 图片生成

如下图,LDM模型效果很好。

LDM的参数也较少,1.45B(14.5亿参数)。

4.3条件生成

如下图,我们可以根据左上角的空间布局草稿图,生成高分辨率的大图。

下图根据文本生成图片,可以看到效果还不错。

4.4 高分辨率生成

我们可以根据低分辨率图片生成高分辨率图片,如下面中间部分。

4.5图像修复

可以将图片中的一部分恢复。下图是展示了抠图的效果。

这篇关于stable diffusion(LDM)--图片生成模型的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/210462

相关文章

0基础租个硬件玩deepseek,蓝耘元生代智算云|本地部署DeepSeek R1模型的操作流程

《0基础租个硬件玩deepseek,蓝耘元生代智算云|本地部署DeepSeekR1模型的操作流程》DeepSeekR1模型凭借其强大的自然语言处理能力,在未来具有广阔的应用前景,有望在多个领域发... 目录0基础租个硬件玩deepseek,蓝耘元生代智算云|本地部署DeepSeek R1模型,3步搞定一个应

Deepseek R1模型本地化部署+API接口调用详细教程(释放AI生产力)

《DeepseekR1模型本地化部署+API接口调用详细教程(释放AI生产力)》本文介绍了本地部署DeepSeekR1模型和通过API调用将其集成到VSCode中的过程,作者详细步骤展示了如何下载和... 目录前言一、deepseek R1模型与chatGPT o1系列模型对比二、本地部署步骤1.安装oll

浅析如何使用Swagger生成带权限控制的API文档

《浅析如何使用Swagger生成带权限控制的API文档》当涉及到权限控制时,如何生成既安全又详细的API文档就成了一个关键问题,所以这篇文章小编就来和大家好好聊聊如何用Swagger来生成带有... 目录准备工作配置 Swagger权限控制给 API 加上权限注解查看文档注意事项在咱们的开发工作里,API

Spring AI Alibaba接入大模型时的依赖问题小结

《SpringAIAlibaba接入大模型时的依赖问题小结》文章介绍了如何在pom.xml文件中配置SpringAIAlibaba依赖,并提供了一个示例pom.xml文件,同时,建议将Maven仓... 目录(一)pom.XML文件:(二)application.yml配置文件(一)pom.xml文件:首

Python利用PIL进行图片压缩

《Python利用PIL进行图片压缩》有时在发送一些文件如PPT、Word时,由于文件中的图片太大,导致文件也太大,无法发送,所以本文为大家介绍了Python中图片压缩的方法,需要的可以参考下... 有时在发送一些文件如PPT、Word时,由于文件中的图片太大,导致文件也太大,无法发送,所有可以对文件中的图

java获取图片的大小、宽度、高度方式

《java获取图片的大小、宽度、高度方式》文章介绍了如何将File对象转换为MultipartFile对象的过程,并分享了个人经验,希望能为读者提供参考... 目China编程录Java获取图片的大小、宽度、高度File对象(该对象里面是图片)MultipartFile对象(该对象里面是图片)总结java获取图片

Java实战之自助进行多张图片合成拼接

《Java实战之自助进行多张图片合成拼接》在当今数字化时代,图像处理技术在各个领域都发挥着至关重要的作用,本文为大家详细介绍了如何使用Java实现多张图片合成拼接,需要的可以了解下... 目录前言一、图片合成需求描述二、图片合成设计与实现1、编程语言2、基础数据准备3、图片合成流程4、图片合成实现三、总结前

如何在本地部署 DeepSeek Janus Pro 文生图大模型

《如何在本地部署DeepSeekJanusPro文生图大模型》DeepSeekJanusPro模型在本地成功部署,支持图片理解和文生图功能,通过Gradio界面进行交互,展示了其强大的多模态处... 目录什么是 Janus Pro1. 安装 conda2. 创建 python 虚拟环境3. 克隆 janus

Java使用POI-TL和JFreeChart动态生成Word报告

《Java使用POI-TL和JFreeChart动态生成Word报告》本文介绍了使用POI-TL和JFreeChart生成包含动态数据和图表的Word报告的方法,并分享了实际开发中的踩坑经验,通过代码... 目录前言一、需求背景二、方案分析三、 POI-TL + JFreeChart 实现3.1 Maven

本地私有化部署DeepSeek模型的详细教程

《本地私有化部署DeepSeek模型的详细教程》DeepSeek模型是一种强大的语言模型,本地私有化部署可以让用户在自己的环境中安全、高效地使用该模型,避免数据传输到外部带来的安全风险,同时也能根据自... 目录一、引言二、环境准备(一)硬件要求(二)软件要求(三)创建虚拟环境三、安装依赖库四、获取 Dee