Stable diffusion文生图大模型——隐扩散模型原理解析

本文主要是介绍Stable diffusion文生图大模型——隐扩散模型原理解析，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

1、前言

本篇文章，我们将讲这些年非常流行的文生图大模型——Stable Diffusion。该模型也不难，甚至说很简单。创新点也相对较少，如果你学会了我以前的文章讲过的模型，学习这个也自然水到渠成！

参考论文：High-Resolution Image Synthesis with Latent Diffusion Models (arxiv.org)

官方代码：GitHub - CompVis/latent-diffusion: High-Resolution Image Synthesis with Latent Diffusion Models

视频：[Stable diffusion生成大模型——隐扩散模型原理解析-哔哩哔哩]

演示：

在这里插入图片描述

2、Stable Diffusion

2.1、隐空间扩散

在传统的扩散模型中，都是一上来就对图像就行加噪去噪。这种做法有一些难以避免的问题——效率。一方面，图像的像素如果非常大，那么计算量将是难以想象地；另一方面，我们在VAE那里说到过，图像之中，总是存在一些冗余地部分。我们直接拿图像去扩散，相当于也把那些冗余的部分也一起计算了。

所以，作者选择先把图像编码成一个维度相对较小的编码向量（或特征图）。然后再训练扩散模型

那么，该如何进行编码呢？答案就是使用VAE（详细请看VAE变分自编码器原理）。总所周知，使用VAE可以把图像编码成维度相对较小的向量（或特征图）

除此之外，就是使用离散化的编码器——VQGAN（详细请看VQGAN原理解析）

这两种方法，都可以进行图像的压缩。压缩完成之后，在进行扩散过程

在这里插入图片描述

其中编码器对应图中的 $\mathcal{E}$ ，解码器对应 $\mathcal{D}$ 。也就是说，先把图像x通过 $\mathcal{E}$ 进行编码，再进行Diffusion Process

2.2、条件生成

如果你用过Stable Diffusion。就必然知道它可以进行条件生成。那么该如何把条件引入Diffusion里面呢？在Diffusion系列里面，我其实从没有讲过如何进行条件生成。

其实进行条件生成有一个很简单的理解方式。那就是直接采用下面的损失函数
$L=||\epsilon-\epsilon_\theta(x_t,t,y)||^2\tag{1}$
为什么可以这样？我们回忆一下DDPM里面的损失函数
$L=||\epsilon-\epsilon_\theta(x_t,t)||^2\tag{2}$
区别在哪里，那就是Eq.(1)里面神经网络的输入多加了一个条件y。这个条件y可以是标签，文本等等信息。

为什么多加了一个y就可以进行条件生成？

我们从一个比较简单的方面的来理解。在DDPM里面，我们层提到三种预测方式——均值、原始图像，噪声

我们最终只使用噪声而已。那假如我们预测的是原始图像呢？
$L=||x_0-x_\theta(x_t,t)||^2$
如果我们加入一个条件y
$L=||x_0-x_\theta(x_t,t，y)||^2$
加入的一个条件y（比如假设它是图像的类别标签），这就意味着什么呢？意味着我们告诉了神经网络图像 $x_0$ 的类别是什么。那么让神经网络去预测 $x_0$ ，肯定会相对容易，因为神经网络已经知道了图像的类别，排除了其他类别图像的可能。

所以，对于预测噪声也是同理。那么Eq.(1)也是同理，加入一个条件y。更加有利于去噪。

2.3、损失函数和网络结构

对于DIffusion的网络结构，其实我从来没说过。我只讲了用神经网络去预测噪声。对网络结构这些东西，我以后打算出一个单独的系列来讲。

现在主要讲模型原理。但为了完整性。我还是简单讲一下吧。万一有些读者已经有这些方面的基础呢

那么网络的结构该如何呢？在DDPM中，其实用的是U-Net结构的神经网络去预测噪声。在Stable Diffusion里面的，也沿用了这个结构。

我们前面说过，要给预测噪声的神经网络加入条件。但我们不是纯粹的把条件直接送进去。而是对条件进行编码表征之后再送进去。我们用 $\mathcal{T}_\theta(y)$ 表示把条件编码成对应的中间表征。所以损失函数变成了这样
$L_{LDM}=\mathbb{E}_{{\mathcal{E}(x)},\epsilon\sim \mathcal{N}(0,1),t}\left[||\epsilon-\epsilon_\theta(z_t,t,\mathcal{T}_\theta(y)||^2\right]$
其中， $z_t$ 是 $\mathcal{E}$ 编码得到图像加噪之后的结果。t代表时刻。

除此之外，如果你看了上面那张图，就能看到有一个Q，K，V的东西。那其实自注意力机制。这玩意儿是Transformer里面的。原本属于自然语言处理那边的。我打算以后分出一个系列讲自然语言处理。

在这里我简单讲一下，如果你会Transformer，应该不会陌生。如果不会，你听了估计也不会明白，我在这里不深入讲。讲到自然语言处理再讲

下面我们来简单过一下。对于里面的Q，K，V。计算如下
$Q=W^{(i)}_Q\cdot\phi_i(z_t),K=W_k^{(i)}\cdot \mathcal{T}_\theta(y),V=W_V^{(i)}\cdot\mathcal{T_{\theta}}(y)$
其中， $\phi_i(z_t)$ 是预测 $\epsilon_\theta$ 的U-Net的中间表征。