深度学习(8)---Diffusion Modle原理剖析

2024-02-26 16:44

本文主要是介绍深度学习(8)---Diffusion Modle原理剖析,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

文章目录

  • 一、简要回顾
  • 二、原理解释
    • 2.1 核心图:
    • 2.2 第一阶段概括
    • 2.3 第一阶段解释
    • 2.4 第二阶段概括
    • 2.5 第二阶段解释


一、简要回顾

 1. Diffusion Modle的基本过程可由下面这张图说明:

在这里插入图片描述

 2. Diffusion Modle与VAE的区别:

在这里插入图片描述

二、原理解释

2.1 核心图:

在这里插入图片描述

2.2 第一阶段概括

 1. 训练阶段步骤如下图所示:(1) 重复下面五个步骤。(2) 从样本库里拿出一张干净的图片。(3) 随机在1-T中生成一个数字。(4) 生成一个纯噪声。(5) 产生一个有噪声的图。

在这里插入图片描述

 2. 第五步形象说明如下所示,红标指的地方理解成噪声图。

在这里插入图片描述

 3. 那其实实际过程跟上一篇文章中讲的有一些不一样,可参照下图理解。

在这里插入图片描述

2.3 第一阶段解释

 1. 在整体思路部分我们已经知道了正向过程其实就是一个不断加噪的过程,于是我们考虑能不能用一些公式表示出加噪前后图像的关系呢。先思考一下后一时刻的图像受哪些因素影响呢?更具体的说 x 2 x_2 x2 是由 x 1 x_1 x1 和所加的噪声共同决定的,也就是说后一时刻的图像主要由两个量决定,其一是上一时刻图像,其二是所加噪声量。我们就可以用一个公式来表示 x t x_t xt x t − 1 x_{t-1} xt1 时刻两个图像的关系,如下所示:

在这里插入图片描述

Z 1 Z_1 Z1 表示添加的高斯噪声。 X t − 1 X_{t-1} Xt1 Z 1 Z_1 Z1 前面的系数是权重,它们的平方和为1。其实 a t a_t at 还和另外一个量 β t β_t βt 有关,关系式如下:

在这里插入图片描述

 其中 β t β_t βt 是预先给定的值,它是一个随时刻不断增大的值。既然 β t β_t βt 越来越大,则 a t a_t at 越来越小, Z 1 Z_1 Z1 的权重​随着时刻增加越来越大,表明我们所加的高斯噪声越来越多,这和我们整体思路所述是一致的,即越往后所加的噪声越多。

 2. 现在,我们已经得到了 x t x_t xt x t − 1 x_{t-1} xt1 时刻两个图像的关系,但是 x t − 1 x_{t-1} xt1 时刻的图像是未知的。【注:只有 x 0 x_0 x0 阶段图像是已知的,即原图】我们需要再由 x t − 2 x_{t-2} xt2 时刻图像推导出 x t − 1 x_{t-1} xt1 时刻图像。依此类推,直到由 x 0 x_0 x0 时刻推导出 x 1 x_1 x1 时刻图像即可。

在这里插入图片描述

在这里插入图片描述

 最后一步的等式用了高斯分布的相关性质。

在这里插入图片描述

 3. 再列出 x t − 2 x_{t-2} xt2 时刻图像与 x t − 3 x_{t-3} xt3 时刻图像的关系,如下所示:
在这里插入图片描述

 同理,我们将公式5代入到公式4中,得到 x t x_{t} xt 时刻图像和 x t − 3 x_{t-3} xt3 时刻图像的关系,公式如下:

在这里插入图片描述

 4. 我们如果这么一直计算下去,就会得到 x t x_{t} xt 时刻图像和 x 0 x_{0} x0 时刻图像的关系,公式如下:

在这里插入图片描述

在这里插入图片描述

2.4 第二阶段概括

 生成图阶段步骤如下图所示:(1) 生成一个纯噪声图。(2) 重复T次。(3) 再生成一个纯噪声图。(4) 生成前一个图,这里我认为可以理解成弱噪声图。

在这里插入图片描述

2.5 第二阶段解释

 1. 逆向过程是将高斯噪声还原为预期图片的过程。一个 x t x_{t} xt时刻的高斯噪声。我们希望将 x t x_t xt 时刻的高斯噪声变成 x 0 x_0 x0 时刻的图像,这是很难一步到位的,所以先考虑 x t x_t xt 时刻与 x t − 1 x_{t-1} xt1 时刻的关系,然后一步步向前推导得出结论。

 2. 利用贝叶斯公式来求 x t − 1 x_{t-1} xt1 时刻图像,公式如下:

在这里插入图片描述

在这里插入图片描述

 3. 公式8中 q ( X t ∣ X t − 1 ) q(X_t|X_{t-1}) q(XtXt1) 可以由正向过程求得,但 q ( X t ) q(X_t) q(Xt) q ( X t − 1 ) q(X_{t-1}) q(Xt1) 是未知的。由公式7可知,可由 X 0 X_0 X0 得到每一时刻的图像,那当然可以得到 X t X_t Xt X t − 1 X_{t-1} Xt1 时刻的图像,故将公式8加一个 X 0 X_0 X0 作为已知条件,将公式8变成公式9,如下所示:

在这里插入图片描述

 现在可以发现公式9右边3项都是可以算的啦,我们列出它们的公式和对应的分布,如下图所示:

在这里插入图片描述

 4. 知道了公式9等式右边3项服从的分布,我们就可以计算出等式左边的 q ( X t − 1 ∣ X t , X 0 ) q ( X_{t − 1}∣X_t,X_0 ) q(Xt1Xt,X0)。高斯分布表达式和计算过程如下所示:

在这里插入图片描述

在这里插入图片描述

 上图为等式右边三个高斯分布表达式,这个结果怎么得的大家应该都知道叭,就是把各自的均值和方差代入高斯分布表达式即可。现在我们只需对上述三个式子进行对应乘除运算即可,如下图所示:

在这里插入图片描述

在这里插入图片描述

 5. 现在我们有了均值 u u u 和方差 σ 2 σ^2 σ2 就可以求出 q ( X t − 1 ∣ X t , X 0 ) q(X_{t − 1}∣X_t,X_0 ) q(Xt1Xt,X0),也就是求得了 x t − 1 x_{t−1} xt1 时刻的图像。不知道大家有没有发现一个问题,我们刚刚求得的最终结果 u u u σ 2 σ^2 σ2 中含了 X 0 X_0 X0,这是我们最后想要的结果,这时我们考虑用公式7来反向估计 X 0 X_0 X0,如下所示:

在这里插入图片描述

 此时将公式10代入到上图的 u u u 中:

在这里插入图片描述

 现在整理一下 t − 1 t-1 t1 时刻的均值 u u u 和方差 σ 2 σ^2 σ2,如下所示:

在这里插入图片描述

 有了公式12我们就可以估计出 X t − 1 X_{t-1} Xt1 时刻的图像了,接着就可以一步步求出 X t − 2 X_{t-2} Xt2 X t − 3 X_{t-3} Xt3 X 1 X_1 X1 X 0 X_0 X0 的图像啦。

这篇关于深度学习(8)---Diffusion Modle原理剖析的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/749514

相关文章

HarmonyOS学习(七)——UI(五)常用布局总结

自适应布局 1.1、线性布局(LinearLayout) 通过线性容器Row和Column实现线性布局。Column容器内的子组件按照垂直方向排列,Row组件中的子组件按照水平方向排列。 属性说明space通过space参数设置主轴上子组件的间距,达到各子组件在排列上的等间距效果alignItems设置子组件在交叉轴上的对齐方式,且在各类尺寸屏幕上表现一致,其中交叉轴为垂直时,取值为Vert

Ilya-AI分享的他在OpenAI学习到的15个提示工程技巧

Ilya(不是本人,claude AI)在社交媒体上分享了他在OpenAI学习到的15个Prompt撰写技巧。 以下是详细的内容: 提示精确化:在编写提示时,力求表达清晰准确。清楚地阐述任务需求和概念定义至关重要。例:不用"分析文本",而用"判断这段话的情感倾向:积极、消极还是中性"。 快速迭代:善于快速连续调整提示。熟练的提示工程师能够灵活地进行多轮优化。例:从"总结文章"到"用

【前端学习】AntV G6-08 深入图形与图形分组、自定义节点、节点动画(下)

【课程链接】 AntV G6:深入图形与图形分组、自定义节点、节点动画(下)_哔哩哔哩_bilibili 本章十吾老师讲解了一个复杂的自定义节点中,应该怎样去计算和绘制图形,如何给一个图形制作不间断的动画,以及在鼠标事件之后产生动画。(有点难,需要好好理解) <!DOCTYPE html><html><head><meta charset="UTF-8"><title>06

学习hash总结

2014/1/29/   最近刚开始学hash,名字很陌生,但是hash的思想却很熟悉,以前早就做过此类的题,但是不知道这就是hash思想而已,说白了hash就是一个映射,往往灵活利用数组的下标来实现算法,hash的作用:1、判重;2、统计次数;

深入探索协同过滤:从原理到推荐模块案例

文章目录 前言一、协同过滤1. 基于用户的协同过滤(UserCF)2. 基于物品的协同过滤(ItemCF)3. 相似度计算方法 二、相似度计算方法1. 欧氏距离2. 皮尔逊相关系数3. 杰卡德相似系数4. 余弦相似度 三、推荐模块案例1.基于文章的协同过滤推荐功能2.基于用户的协同过滤推荐功能 前言     在信息过载的时代,推荐系统成为连接用户与内容的桥梁。本文聚焦于

hdu4407(容斥原理)

题意:给一串数字1,2,......n,两个操作:1、修改第k个数字,2、查询区间[l,r]中与n互质的数之和。 解题思路:咱一看,像线段树,但是如果用线段树做,那么每个区间一定要记录所有的素因子,这样会超内存。然后我就做不来了。后来看了题解,原来是用容斥原理来做的。还记得这道题目吗?求区间[1,r]中与p互质的数的个数,如果不会的话就先去做那题吧。现在这题是求区间[l,r]中与n互质的数的和

零基础学习Redis(10) -- zset类型命令使用

zset是有序集合,内部除了存储元素外,还会存储一个score,存储在zset中的元素会按照score的大小升序排列,不同元素的score可以重复,score相同的元素会按照元素的字典序排列。 1. zset常用命令 1.1 zadd  zadd key [NX | XX] [GT | LT]   [CH] [INCR] score member [score member ...]

【机器学习】高斯过程的基本概念和应用领域以及在python中的实例

引言 高斯过程(Gaussian Process,简称GP)是一种概率模型,用于描述一组随机变量的联合概率分布,其中任何一个有限维度的子集都具有高斯分布 文章目录 引言一、高斯过程1.1 基本定义1.1.1 随机过程1.1.2 高斯分布 1.2 高斯过程的特性1.2.1 联合高斯性1.2.2 均值函数1.2.3 协方差函数(或核函数) 1.3 核函数1.4 高斯过程回归(Gauss

【学习笔记】 陈强-机器学习-Python-Ch15 人工神经网络(1)sklearn

系列文章目录 监督学习:参数方法 【学习笔记】 陈强-机器学习-Python-Ch4 线性回归 【学习笔记】 陈强-机器学习-Python-Ch5 逻辑回归 【课后题练习】 陈强-机器学习-Python-Ch5 逻辑回归(SAheart.csv) 【学习笔记】 陈强-机器学习-Python-Ch6 多项逻辑回归 【学习笔记 及 课后题练习】 陈强-机器学习-Python-Ch7 判别分析 【学

系统架构师考试学习笔记第三篇——架构设计高级知识(20)通信系统架构设计理论与实践

本章知识考点:         第20课时主要学习通信系统架构设计的理论和工作中的实践。根据新版考试大纲,本课时知识点会涉及案例分析题(25分),而在历年考试中,案例题对该部分内容的考查并不多,虽在综合知识选择题目中经常考查,但分值也不高。本课时内容侧重于对知识点的记忆和理解,按照以往的出题规律,通信系统架构设计基础知识点多来源于教材内的基础网络设备、网络架构和教材外最新时事热点技术。本课时知识