2.扩散模型的正向过程

本文主要是介绍2.扩散模型的正向过程，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

很早之前就新建了一个专栏从0开始弃坑扩散模型,但发了一篇文章就没有继续这一系列，在这个AIGC的时代，于是我准备重启这个专栏。
整个专栏的学习顺序可以见这篇汇总文章
很多时候我们看到一篇文章很长，难免会心生胆怯，所以我将这些知识进行分解到每一篇中。

这是本专栏的第2章

在正向过程，输入数据通过逐步添加高斯噪声被破坏，经过T次加噪操作后会变成一个符合标准正态分布的纯噪声图像。这是一个马尔可夫过程，当前时刻的状态只由上一时刻状态决定，公式如下所示：
$\mathbf{x}_t \sim \mathcal{N}(\sqrt{1 - \beta_t}\mathbf{x}_{t - 1},\beta_t\mathbf{I})$
这个公式意思是现在的 $x_t$ 服从一个数学期望（均值， ${\mu}_t(x_{t-1})$ ）为 $\sqrt{1 - \beta_t}\mathbf{x}_{t - 1}$ ,方差( $\sigma_t^2I$ )为 $\beta_t\mathbf{I}$ 的标准正态分布（高斯分布），也就是说 $x_t$ 是从和 $x_{t-1}$ 有关的标准正态分布里面采样出来。至于为什么值是这样，可以看后面的解释。
这个实际上还可以变成一个等式： $\begin{aligned} \mathbf{x}_t &\sim \mathcal{N}(\sqrt{1 - \beta_t}\mathbf{x}_{t - 1},\beta_t\mathbf{I}) \\ \Rightarrow \mathbf{x}_t =& \sqrt{1 - \beta_t}\mathbf{x}_{t - 1} + \sqrt{\beta_t}\epsilon_{t-1}; \epsilon_{t-1} \sim \mathcal{N}(0, \mathbf{I}) \end{aligned}$
其中 $\mathcal{N}(0, \mathbf{I})$ 就是标准正态分布。I就是数字1。注意，这两个公式均值前后一致，但等式的加号后面就变成标准差了。
这个等式还可以进一步迭代，直接求出 $x_{t}$ 和 $x_{0}$ 的关系，这里还要懂得一个定理： $\mathcal{N}(0, \sigma_1^2 I)+\mathcal{N}(0, \sigma_2^2 I)=\mathcal{N}(0, (\sigma_1^2+\sigma_2^2) I)$
我们现在在等式的基础上再推 $x_{t-2}$ :
$\begin{aligned}\mathbf{x}_t =& \sqrt{1 - \beta_t}\mathbf{x}_{t - 1} + \sqrt{\beta_t}\epsilon_{t-1}; \epsilon_{t-1} \sim \mathcal{N}(0, \mathbf{I}) \\ =& \sqrt{1 - \beta_t}(\sqrt{1 - \beta_{t-1}}\mathbf{x}_{t - 2} + \sqrt{\beta_{t-1}}\epsilon_{t-2}) + \sqrt{\beta_t}\epsilon_{t-1}; \epsilon_{t-2} \sim \mathcal{N}(0, \mathbf{I})\\ =& \sqrt{(1 - \beta_t)(1 - \beta_{t-1})}\mathbf{x}_{t - 2} + \sqrt{(1 - \beta_t)\beta_{t-1}}\epsilon_{t-2} + \sqrt{\beta_t}\epsilon_{t-1} \end{aligned}$
根据上面正态分布的定理，我们发现
$\begin{aligned}\mathbf{x}_t =\sqrt{(1 - \beta_t)(1 - \beta_{t-1})}\mathbf{x}_{t - 2} + \sqrt{(1 - \beta_t)\beta_{t-1}}\epsilon_{t-2} + \sqrt{\beta_t}\epsilon_{t-1}\\=\sqrt{(1 - \beta_t)(1 - \beta_{t-1})}\mathbf{x}_{t - 2} + \sqrt{(1 - \beta_t)\beta_{t-1} + \beta_t}\epsilon \\=\sqrt{(1 - \beta_t)(1 - \beta_{t-1})}\mathbf{x}_{t - 2} + \sqrt{1-(1-\beta_t)(1-\beta_{t-1})}\epsilon \\=\sqrt{(1 - \beta_t)(1 - \beta_{t-1})(1 - \beta_{t-2})}\mathbf{x}_{t - 3} + \sqrt{1-(1-\beta_t)(1-\beta_{t-1})(1 - \beta_{t-2})}\epsilon \\=\sqrt{(1 - \beta_t)(1 - \beta_{t-1})(1 - \beta_{t-2})(1 - \beta_{t-3})}\mathbf{x}_{t - 4} + \sqrt{1-(1-\beta_t)(1-\beta_{t-1})(1 - \beta_{t-2})(1 - \beta_{t-3})}\epsilon \end{aligned}$
从上面可以到，我们可以一步一步到 $x_0$ ，后面都是可以合并的，化简一下上面的公式，就可以得到：
$\mathbf{x}_t = \sqrt{\bar{\alpha}_t}\mathbf{x}_{0} + \sqrt{1-\bar{\alpha}_t}\epsilon$ ，其中令 $\alpha_t=1-\beta_t, \bar{\alpha}_t=\prod_{i=1}^t\alpha_i$ ，这里呼应前面提到的第一个疑惑，这个公式的值的形式是化简而来的。
通过这个公式，我们就可以知道加噪过程是什么了， $\bar{\alpha}_t$ 不断变小，直到0，那么最后的 $x_t$ 就是一个单纯的标准正态分布了。在DDPM论文中， $\beta_t$ 从 $10^{-4}$ 到0.02线性增长， $a_t$ 线性变小，但是注意了 $\bar{\alpha}_t$ 是乘法计算，那么它的趋势是越来越快，所以你要注意的是，加噪过程是由慢变快的，而不是匀速。