DDIM,多样性与运行效率之间的trade off

2024-04-07 20:44

本文主要是介绍DDIM,多样性与运行效率之间的trade off,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

DDPM的重大缺陷在于其在反向扩散的过程中需要逐步从 x t x_t xt倒推到 x 0 x_0 x0,因此其推理速度非常缓慢。相反,DDPM的训练过程是很快的,可以直接根据 x 0 x_0 x0 x t x_t xt添加的高斯噪声 ϵ \epsilon ϵ完成一次训练。

为了解决这个问题,就有了DDIM,且包括Stable Diffusion在内的现今广泛使用的Diffusion模型都在使用DDIM。

在DDPM中,我们利用 P ( x t − 1 ∣ x t ) P(x_{t-1}|x_{t}) P(xt1xt)来逐步倒推至最开始的 x 0 x_0 x0,这一过程是遵守马尔可夫过程的,即每个时刻的状态只跟上一个时刻的状态有关,因此只能一步步的倒退回去。而实际上,我们最初就是简化了加噪过程,从 x 0 x_0 x0 x t x_t xt直接一步到位,并没有使用 P ( x t ∣ x t − 1 ) P(x_t|x_{t-1}) P(xtxt1)这样按部就班的马尔可夫过程。那么,能不能在倒推的时候也采用类似的思路进行“跳步”,从而达到加快推理的目的呢?

假设我们现在想直接从 k k k时刻跳到 s s s时刻,且有 s < k − 1 s<k-1 s<k1,那么仿照DDPM我们可以写出下列式子
P ( x s ∣ x k , x 0 ) = P ( x k ∣ x s , x 0 ) P ( x s ∣ x 0 ) P ( x k ∣ x 0 ) P(x_s|x_k,x_0)=\frac{P(x_k|x_s,x_0)P(x_s|x_0)}{P(x_k|x_0)} P(xsxk,x0)=P(xkx0)P(xkxs,x0)P(xsx0)
其中 P ( x s ∣ x 0 ) P(x_s|x_0) P(xsx0) P ( x k ∣ x 0 ) P(x_k|x_0) P(xkx0)满足的分布都好说,可以从正向扩散公式中得出。不知道怎么表示的这一项 P ( x k ∣ x s , x 0 ) P(x_k|x_s,x_0) P(xkxs,x0)因为反正整个模型都没有用过,所以可以先不考虑。(这个解释确实很神奇,但是他有用啊)其实就是说DDIM打破了马尔可夫链从 0 0 0开始逐个往前扩散的模型,而是直接采用从 x 0 x_0 x0 x t x_t xt的直接公式作为整个模型的backbone,因此从 s s s k k k的正向过程可以“按需定义”,而不必采用DDPM里的公式,所以在这里就直接被忽略了。

言归正传,我们尝试求解一下上面的式子。参考DDPM,我们也可以假设 P ( x s ∣ x k , x 0 ) P(x_s|x_k,x_0) P(xsxk,x0)是满足正态分布的,其均值为 x k x_k xk x 0 x_0 x0的加权和,记为
P ( x s ∣ x k , x 0 ) ∼ N ( n x 0 + m x k , σ 2 ) P(x_s|x_k,x_0)\sim\mathcal{N}(nx_0+mx_k, \sigma^2) P(xsxk,x0)N(nx0+mxk,σ2)写出 x s x_s xs的表达式
x s = ( n x 0 + m x k ) + σ ϵ , ϵ ∈ N ( 0 , 1 ) x_s=(nx_0+mx_k)+\sigma\epsilon,\epsilon\in\mathcal{N}(0,1) xs=(nx0+mxk)+σϵ,ϵN(0,1) x k = α ‾ k x 0 + 1 − a ‾ k ϵ ′ x_k=\sqrt{\overline{\alpha}_k}x_0+\sqrt{1-\overline{a}_k}\epsilon' xk=αk x0+1ak ϵ代入,可得
x s = ( n x 0 + m x k ) + σ ϵ = ( n + m a ‾ k ) x 0 + ( m 1 − a ‾ k ϵ ′ + σ ϵ ) = ( n + m a ‾ k ) x 0 + m 2 ( 1 − a ‾ k ) + σ 2 ϵ ′ ′ \begin{aligned} x_s&=(nx_0+mx_k)+\sigma\epsilon\\ &=(n+m\sqrt{\overline{a}_k})x_0+(m\sqrt{1-\overline{a}_k}\epsilon'+\sigma\epsilon)\\ &=(n+m\sqrt{\overline{a}_k})x_0+\sqrt{m^2(1-\overline{a}_k)+\sigma^2}\epsilon'' \end{aligned} xs=(nx0+mxk)+σϵ=(n+mak )x0+(m1ak ϵ+σϵ)=(n+mak )x0+m2(1ak)+σ2 ϵ′′注意到这个的形式与从 x 0 x_0 x0直接到 x s x_s xs的公式很像,即 x s = α ‾ s x 0 + 1 − a ‾ s ϵ x_s=\sqrt{\overline{\alpha}_s}x_0+\sqrt{1-\overline{a}_s}\epsilon xs=αs x0+1as ϵ,所以我们可以将这两个系数对应起来求解,得
m = 1 − α ‾ s − σ 2 1 − α ‾ k , n = α ‾ s − 1 − α ‾ s − σ 2 1 − α ‾ k α ‾ k m=\frac{\sqrt{1-\overline{\alpha}_s-\sigma^2}}{\sqrt{1-\overline{\alpha}_k}},n=\sqrt{\overline{\alpha}_s}-\frac{\sqrt{1-\overline{\alpha}_s-\sigma^2}}{\sqrt{1-\overline{\alpha}_k}}\sqrt{\overline{\alpha}_k} m=1αk 1αsσ2 ,n=αs 1αk 1αsσ2 αk 将上面的结果带入 x s x_s xs的均值 n x 0 + m x k nx_0+mx_k nx0+mxk,可得
μ = α ‾ s x 0 + 1 − α ‾ s − σ 2 1 − α ‾ k ( x k − α ‾ k x 0 ) \begin{aligned} \mu=\sqrt{\overline{\alpha}_s}x_0+\frac{\sqrt{1-\overline{\alpha}_s-\sigma^2}}{\sqrt{1-\overline{\alpha}_k}}(x_k-\sqrt{\overline{\alpha}_k}x_0) \end{aligned} μ=αs x0+1αk 1αsσ2 (xkαk x0)这样我们就求得了 P ( x s ∣ x k , x 0 ) P(x_s|x_k,x_0) P(xsxk,x0)满足的正态分布 N ( μ , σ 2 ) \mathcal{N}(\mu,\sigma^2) N(μ,σ2),其中只剩 σ \sigma σ为变量, x 0 x_0 x0可以像DDPM一样反解为 x k x_k xk的表达式代入,通过预测加噪的噪声来得到一个确定的 μ \mu μ

至于方差 σ \sigma σ,一般有两种取值,取 0 0 0时方差为 0 0 0,这个反向扩散就成了一个确定过程,对应标题中所说的“多样性换运行效率”,此时 σ = 0 \sigma=0 σ=0的状态就是我们通常所说的DDIM。而 σ = 1 − a t 1 − a ‾ t − 1 1 − a ‾ t \sigma=\frac{\sqrt{1-a_t}\sqrt{1-\overline{a}_{t-1}}}{\sqrt{1-\overline{a}_t}} σ=1at 1at 1at1 ,即在DDPM中推出来的方差时,整个过程会退化为DDPM的倒推过程。

需要注意的是,这里的 σ \sigma σ可以自由取值是因为我们假设 P ( x s ∣ x k , x 0 ) P(x_s|x_k,x_0) P(xsxk,x0)是一个均值 μ \mu μ未知,方差为 σ 2 \sigma^2 σ2的高斯分布,通过求解 μ \mu μ得到了一个只有 σ \sigma σ为自由变量的 x s x_s xs的表达式。可以把 σ \sigma σ视作一个超参数,只是通过实验发现在 σ = 0 \sigma=0 σ=0时效果最好。而DDPM中的方差是通过三个已知的正态分布计算来的,本身就是靠计算得来的确定的方差,所以不能随便更改,如果在DDPM的过程中使 σ = 0 \sigma=0 σ=0,效果会非常差。

而从实验结果来看, σ = 0 \sigma=0 σ=0的时候还是效果最好的,FID最低。在 S S S 50 50 50 100 100 100,即加速 10 − 20 10-20 1020倍时保持相近的生成质量。
在这里插入图片描述
更妙的是,因为DDPM中的U-Net预测的是加在 x t x_t xt上的噪声 ϵ \epsilon ϵ,这个是基于正向扩散的公式来的。而DDIM并没有改变这一过程,因此一个训练好的DDPM中的U-Net也可以直接拿到DDIM里面,甚至不需要额外训练。DDIM只是更改了DDPM反向扩散的过程,通过跳步加速推理。

这篇关于DDIM,多样性与运行效率之间的trade off的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/883625

相关文章

C#使用yield关键字实现提升迭代性能与效率

《C#使用yield关键字实现提升迭代性能与效率》yield关键字在C#中简化了数据迭代的方式,实现了按需生成数据,自动维护迭代状态,本文主要来聊聊如何使用yield关键字实现提升迭代性能与效率,感兴... 目录前言传统迭代和yield迭代方式对比yield延迟加载按需获取数据yield break显式示迭

Linux使用nohup命令在后台运行脚本

《Linux使用nohup命令在后台运行脚本》在Linux或类Unix系统中,后台运行脚本是一项非常实用的技能,尤其适用于需要长时间运行的任务或服务,本文我们来看看如何使用nohup命令在后台... 目录nohup 命令简介基本用法输出重定向& 符号的作用后台进程的特点注意事项实际应用场景长时间运行的任务服

如何在一台服务器上使用docker运行kafka集群

《如何在一台服务器上使用docker运行kafka集群》文章详细介绍了如何在一台服务器上使用Docker运行Kafka集群,包括拉取镜像、创建网络、启动Kafka容器、检查运行状态、编写启动和关闭脚本... 目录1.拉取镜像2.创建集群之间通信的网络3.将zookeeper加入到网络中4.启动kafka集群

PostgreSQL如何用psql运行SQL文件

《PostgreSQL如何用psql运行SQL文件》文章介绍了两种运行预写好的SQL文件的方式:首先连接数据库后执行,或者直接通过psql命令执行,需要注意的是,文件路径在Linux系统中应使用斜杠/... 目录PostgreSQ编程L用psql运行SQL文件方式一方式二总结PostgreSQL用psql运

如何用Docker运行Django项目

本章教程,介绍如何用Docker创建一个Django,并运行能够访问。 一、拉取镜像 这里我们使用python3.11版本的docker镜像 docker pull python:3.11 二、运行容器 这里我们将容器内部的8080端口,映射到宿主机的80端口上。 docker run -itd --name python311 -p

day-51 合并零之间的节点

思路 直接遍历链表即可,遇到val=0跳过,val非零则加在一起,最后返回即可 解题过程 返回链表可以有头结点,方便插入,返回head.next Code /*** Definition for singly-linked list.* public class ListNode {* int val;* ListNode next;* ListNode() {}*

跨系统环境下LabVIEW程序稳定运行

在LabVIEW开发中,不同电脑的配置和操作系统(如Win11与Win7)可能对程序的稳定运行产生影响。为了确保程序在不同平台上都能正常且稳定运行,需要从兼容性、驱动、以及性能优化等多个方面入手。本文将详细介绍如何在不同系统环境下,使LabVIEW开发的程序保持稳定运行的有效策略。 LabVIEW版本兼容性 LabVIEW各版本对不同操作系统的支持存在差异。因此,在开发程序时,尽量使用

【每日一题】LeetCode 2181.合并零之间的节点(链表、模拟)

【每日一题】LeetCode 2181.合并零之间的节点(链表、模拟) 题目描述 给定一个链表,链表中的每个节点代表一个整数。链表中的整数由 0 分隔开,表示不同的区间。链表的开始和结束节点的值都为 0。任务是将每两个相邻的 0 之间的所有节点合并成一个节点,新节点的值为原区间内所有节点值的和。合并后,需要移除所有的 0,并返回修改后的链表头节点。 思路分析 初始化:创建一个虚拟头节点

如何在运行时修改serialVersionUID

优质博文:IT-BLOG-CN 问题 我正在使用第三方库连接到外部系统,一切运行正常,但突然出现序列化错误 java.io.InvalidClassException: com.essbase.api.base.EssException; local class incompatible: stream classdesc serialVersionUID = 90314637791991

linux中使用rust语言在不同进程之间通信

第一种:使用mmap映射相同文件 fn main() {let pid = std::process::id();println!(