大模型之二十六-Diffusion model实例浅析

2024-08-25 09:52

本文主要是介绍大模型之二十六-Diffusion model实例浅析,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

在2022年,midjourney、DALL-E以及Stable Diffusion三个文生图模型引爆了机器生产文生图领域,他们的模型能够在可控条件(标签、文本描述)下生成高分辨率、细节丰富的多样性图像,这在视觉上往往难以与真实图像区分。请添加图片描述
以下是他们几个简单的效果对比图。
请添加图片描述
请添加图片描述
请添加图片描述
学术和工业界对他们采用的 Diffusion 模型兴趣迅速增长,导致了大量的研究、改进和创新。这推动了技术的发展和成熟,进一步扩大了它们的应用范围和影响力。

本篇文章通过一个汽车图片生成的无条件Diffusion模型阐述这一原理。

本篇所述的Diffusion模型基于2020年12月的论文《Denoising Diffusion Probabilistic Models》,其是比较基础无条件的Diffusion 模型,简称为DDPM模型。

其生成图片是从一个高斯白噪声图片,一步一步去噪,通常可能要100~1000步以获得高质量、细节丰富的图片,其过程如下。
请添加图片描述

Diffusion生成图的过程

上面gif动图显示的是图像生成过程,下面是一组静态图,首先 X T ′ X'_T XT是一个纯高斯白噪声图片,然后逐步去噪,直到 X 0 ′ X'_0 X0(逼近原始数据集效果的图片),这里的 X 0 ′ X'_0 X0并不是原始训练集里图片。
请添加图片描述
生成的过程是一步步去噪,每一步只去一点点,那么问题来了,如何估计每一步噪声量呢?使用Diffusion模型来估计,所以Diffusion模型输入应该是前一步的带噪图片 X t − 1 X_{t-1} Xt1以及所在步数 t ∈ 1 , . . . T t \in {1,...T} t1,...T,然后模型算出噪声 ϵ θ \epsilon_{\theta} ϵθ,这样就可以得到噪声稍微少一点的图片 X t = X t − 1 − ϵ θ X_t=X_{t-1}-\epsilon_{\theta} Xt=Xt1ϵθ了,迭代去做,直到得到 X 0 ′ X'_0 X0基本和训练集差不多。

这里有一个问题需要解决,就是上面提到的模型算出噪声 ϵ θ \epsilon_{\theta} ϵθ,模型好理解,MLP、CNN、RNN、Transformer、Diffusion等,不论使用哪个模型,如何得到模型的参数集 θ \theta θ(又称权重)呢? θ \theta θ表示的可能有几千万~几十亿的参数量,即几十亿个float值。要同时调节这几十亿个float值以使每一步的 ϵ θ \epsilon_{\theta} ϵθ逼近真实的情况,显然乱试是不可能的。

这样好了,我们先针对不同的 t t t对图片加噪声,然后将带噪声的图片和时间 t t t送入模型,让模型预测我们所加的噪声值,根据模型预测的噪声和实际所加的噪声的差距来调节模型的参数,只要数据量和样本足够多,理论上参数集 θ \theta θ里的参数就可以调整到符合生成逼真图片的要求。权重参数收敛的过程使用的是梯度下降法,梯度下降法在信号处理领域早就使用了。

接下来的问题是,如何生成带噪的图片呢?这个过程在DDPM里称为Diffusion process,这里的 X 0 X_0 X0没有上标,这是因为这个图片是来自数据集里的,是模型训练之前就存在的图片。然后一步步加噪得到 X T X_T XT,这里的 X 1 X_1 X1和Sampling的 X 1 ′ X'_1 X1在时间上是相同的,但是因为噪声是随机的,所以两张图片并不完全相同,但是噪声量的差不多的。

通过这个过程,对每一个图片都可以生成一系列的带噪图片,每一个时间 t ∈ 1 , 2 , ⋯ , T t \in {1,2,\cdots,T} t1,2,,T所加的噪声量由噪声调度器控制(noise schedule),原paper是t越大加的噪声越多,到T的时候 x T \mathbf x_T xT和随机生成的噪声是没有差别的。

但是这里有一个问题,就是在训练模型的时候,并不是按照 X 1 , X 2 , ⋯ , X T X_1,X_2,\cdots,X_T X1,X2,,XT的顺序给模型的, t t t是随机的,所以假如 t = 8 t=8 t=8,要生成 X 8 X_8 X8,我们需要生成 X 1 , X 2 , ⋯ , X 7 X_1, X_2,\cdots,X_7 X1,X2,,X7,显然这样生成训练所需要的带噪图片效率太低了,这会浪费大量的算力。
请添加图片描述
t − 1 t-1 t1时刻加噪得到 t t t时刻带噪图片的计算如下:
q ( x t ∣ x t − 1 ) = N ( x t ; 1 − β t x t − 1 ; β t I ) , ∀ t ∈ 1 , ⋯ , T q(\mathbf x_t|\mathbf x_{t-1}) = N(\mathbf x_t;\sqrt{1-\beta_t}\mathbf x_{t-1}; \beta_t I), \forall t \in {1, \cdots,T} q(xtxt1)=N(xt;1βt xt1;βtI),t1,,T
( X t ∣ X t − 1 ) (X_t|X_{t-1}) XtXt1表示从 t − 1 t-1 t1时刻图片 X t − 1 X_{t-1} Xt1得到t时刻图片 X t X_t Xt,q表示后验概率,即观察到 X t X_t Xt时,输入是 X t − 1 X_{t-1} Xt1的概率, β t \beta_t βt是超参数,事先定义好的,公式1对应的图片表示如下:
请添加图片描述
从时刻0到时刻T的这一加噪过程,称为noise schedule,噪声就是独立同分布的高斯白噪声,只需要均值和方差这两个值就可以确定一个高斯分布(也称正态分布,确实比较简单,还有拉普拉斯、泊松分布、狄拉克分布等等),在Diffusion模型中更简单只使用了方差 β \beta β这一个参数(因为均值是0)。

上面的步骤可以生成任意时刻的带噪图片,但是效率有些低,有没有办法一次性生成任意时刻的图片,而不用迭代呢?这样效率会高很多,根据公式1,即从 x 0 x_0 x0可以生成 x 1 x_1 x1,从 x 1 x_1 x1再生成 x 2 x_2 x2,通过一步步迭代计算 q ( x t ∣ x 0 ) q(x_t|x_0) q(xtx0),看看有没有规律。
请添加图片描述
从上面的图示可以看到,可以从 X 0 X_0 X0一步生成 X 2 X_2 X2,那按照递推公式应该是可以一步生成 X t X_t Xt,这里不再详细推导,感兴趣可以自行推导,这里直接给出公式:

X t = α ‾ t X 0 + 1 − α ‾ t ϵ X_t=\sqrt{\overline \alpha_t}X_0 + \sqrt{1-\overline \alpha_t}\epsilon Xt=αt X0+1αt ϵ
α t \alpha_t αt α ‾ t \overline \alpha_t αt以及 β t \beta_t βt三者之间的关系。

α t = 1 − β t \alpha_t=1-\beta_t αt=1βt

α ‾ t = α 1 α 2 ⋯ α t \overline \alpha_t=\alpha_1 \alpha_2\cdots\alpha_t αt=α1α2αt

前面说了, β t \beta_t βt是noise schedule的参数,通常T选择比较大,如1000,然后就可以确定所有的 β \beta β,然后 α t \alpha_t αt α ‾ t \overline \alpha_t αt也就确定了。

到这里,我们已经了解了Diffusion生成图片的过程,以及训练时,带噪图片是怎么生成的了。接下来结合paper上的公式讲一下算法。

训练和推理

paper给出的两个公式如下,traning使用的Diffusion一次生成带噪图片,Sampling就是应用的时候生成图片。
请添加图片描述

Algorithm 1 训练过程

Training算法过程,

首先这个是一个大的循序,直到模型收敛之后才会停止,收敛的标准就是训练时步骤5~6loss为判断依据。

第二行: x 0 \mathbf x_0 x0是一个干净的图,就是训练集中的图

第三行:从{1,T}中选择一个值,通常T是一个比较大的值,比如1000,为了训练方便,这里选择了300

第四步:首先 N ( 0 , I ) N(0,I) N(0,I)是一个标准正态分布,其均值是0,标准差是1,这一步是计算一个和汽车图大小一样的噪声图片,是对每一个像素(RGB)加随机一个标准正态分布的噪声,这种生成的噪声图被称为独立同分布的,没有考虑像素点之间的关系,但是效果好且简单,所以一直都是用的独立同分布的噪声。

第五步:$\sqrt{\overline \alpha_t} \mathbf x_0 + \sqrt{1-{\overline \alpha_t}}\mathbf {\epsilon} ,该式表示将训练集中的图 ,该式表示将训练集中的图 ,该式表示将训练集中的图\mathbf x_0 ,和图片尺寸大小相等的噪声 ,和图片尺寸大小相等的噪声 ,和图片尺寸大小相等的噪声\mathbf \epsilon 做一个 w e i g h t e d s u m ,这里的 w e i g h t 是事先已经定好的 做一个weighted sum,这里的weight是事先已经定好的 做一个weightedsum,这里的weight是事先已经定好的{\overline {\alpha}_1,\overline {\alpha}_2, \cdots, \overline {\alpha}_T} ,当第三步中的 t 取哪个值,这里的 ,当第三步中的t取哪个值,这里的 ,当第三步中的t取哪个值,这里的\overline {\alpha} 就取哪一个,通常 就取哪一个,通常 就取哪一个,通常\overline {\alpha}_t$取值随着t的增加而减少,即t越大加的噪声就越多,权重相加之后,得到的是带噪图片,

ϵ θ ( α ‾ t x 0 + 1 − α ‾ t ϵ , t ) \mathbf \epsilon_{\theta}(\sqrt{\overline \alpha_t} \mathbf x_0 + \sqrt{1-{\overline \alpha_t}}\mathbf {\epsilon} ,t) ϵθ(αt x0+1αt ϵ,t),这是噪声预测器(就是Diffusion模型),即给定带噪图片和该时刻时间值,预测图片加的噪声是多少,很明显理想情况下模型预测的就是t时刻加的噪声 ϵ \mathbf {\epsilon} ϵ,但是由于模型参数一开始是随机的,所以预测值和真实值之间必然存在差异,所以就用这个差异来做为loss的基准,直到误差足够小,即图中的converged条件满足。

Sampling算法过程:

因为是从纯噪图片里面生成图片,所以每一步都是一个去噪的过程,那噪声是多少呢?这个是Diffusion model做的事,Diffusion model去预测噪声,然后一步步迭代去减掉噪声。
请添加图片描述
1.首先生成一个独立同分布的噪声 x T \mathbf x_T xT

2.2~5这几行是一个T次的循环,循环的目的是逐步去噪声,第三行是再次生成一个独立同分布的噪声 z \mathbf z z,作用后面再讲。

x t \mathbf x_t xt是上一步生产的图,对于第一步就是 x T \mathbf x_T xT ϵ θ ( x t , t ) \mathbf \epsilon_{\theta}(\mathbf x_t, t) ϵθ(xt,t),这步就是调用前面训练得到的Diffusion模型根据上一步产生的图和t预测图片的噪声

背后的数学原理

对于一个训练好的模型(一般用 θ \theta θ)表示其参数集,其得到一张训练集中的图片的概率可以表示成如下公式:
P θ ( x 0 ) = ∫ x 1 : x T P ( x T ) P θ ( x T − 1 ∣ x T ) ⋯ P θ ( x t − 1 ∣ x t ) ⋯ P θ ( x 0 ∣ x 1 ) d x 1 : x T P_{\theta}(x_0)= \int \limits_{x_1:x_T}P(x_T)P_{\theta}(x_{T-1}|x_T)\cdots P_{\theta}(x_{t-1}|x_t)\cdots P_{\theta}(x_{0}|x_1)dx_1:x_T Pθ(x0)=x1:xTP(xT)Pθ(xT1xT)Pθ(xt1xt)Pθ(x0x1)dx1:xT
模型最优的参数应该是使得所有图片的概率最高,这样得到的模型输出的分布最接近原始数据集的分布,这可以表示为:
θ ∗ = arg ⁡ max ⁡ θ ∏ i = 1 m P θ ( x i ) \theta^*=\arg \max \limits_{\theta}\prod_{i=1}^mP_{\theta}(x^i) θ=argθmaxi=1mPθ(xi)= arg ⁡ max ⁡ θ log ⁡ ∏ i = 1 m P θ ( x i ) \arg \max \limits_{\theta}\log\prod_{i=1}^mP_{\theta}(x^i) argθmaxlogi=1mPθ(xi)= a r g max ⁡ θ ∑ i = 1 m log ⁡ P θ ( x i ) arg \max \limits_{\theta}\sum_{i=1}^m \log P_{\theta}(x^i) argθmaxi=1mlogPθ(xi)

q ( x 1 ∣ x 0 ) q(x_1|x_0) q(x1x0)表示在有原图时,得到第一步带噪图片 x 1 x_1 x1的概率,则一直加噪得到带噪 x T x_T xT图的概率可以表示为 q ( x 1 : x T ∣ x 0 ) q(x_1:x_T|x_0) q(x1:xTx0),这也是加噪过程,其表达的式是: q ( x 1 : x T ∣ x 0 ) = q ( x 1 ∣ x 0 ) q ( x 2 ∣ x 1 ) ⋯ q ( x T ∣ x T − 1 ) q(x_1:x_T|x_0)=q(x_1|x_0)q(x_2|x_1)\cdots q(x_T|x_{T-1}) q(x1:xTx0)=q(x1x0)q(x2x1)q(xTxT1)

噪声 σ t z \sigma_t \mathbf z σtz作用

σ t z \sigma_t \mathbf z σtz前面说了sampling的过程实际是去噪声的过程,Diffusion model就是预测噪声用的,为什么这里反而要额外加一个微小的噪声呢?这是因为每一步模型生成的都是概率最高的噪声,经过一步步的迭代强化之后,得到最终会是概率最高的唯一图片,从大语言模型的最后的temp值就是控制生成过程的随机性。对于一句话,如果每一个字的概率都是最高的,反而是不好的,比如这一段的内容,并不是每一个字的概率都是最高的。

模型中的t

positional Embedding
请添加图片描述
请添加图片描述

UNet

Diffusion模型结够采用UNet结构,主要是CNN算子请添加图片描述
[1] DDPM https://arxiv.org/abs/2006.11239

模型细节这里不展开了,在代码实例中再展开。

欢迎大家点赞、关注以便及时收到更新提醒。
对应讲解视频:https://www.bilibili.com/video/BV18pWieTEDP/
代码地址:https://github.com/shichaog/AI_model_explained

接下来看简单的例子,后续在这个简单例子上继续深入,包括

  • 自己的数据集怎么处理
  • 多GPU训练
  • 标签、文本控制图片生成
  • 图片修复
  • 以及开源比较火的Stable Diffusion 1.5/3
  • 模型的部署推理等

下一篇还是先看代码和实例,代码可以完全在CPU上训练,这意味着即使没有GPU,也可以跑代码理清里面的原理,但训练的时间上会比较长。

这篇关于大模型之二十六-Diffusion model实例浅析的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1105233

相关文章

浅析Spring Security认证过程

类图 为了方便理解Spring Security认证流程,特意画了如下的类图,包含相关的核心认证类 概述 核心验证器 AuthenticationManager 该对象提供了认证方法的入口,接收一个Authentiaton对象作为参数; public interface AuthenticationManager {Authentication authenticate(Authenti

大模型研发全揭秘:客服工单数据标注的完整攻略

在人工智能(AI)领域,数据标注是模型训练过程中至关重要的一步。无论你是新手还是有经验的从业者,掌握数据标注的技术细节和常见问题的解决方案都能为你的AI项目增添不少价值。在电信运营商的客服系统中,工单数据是客户问题和解决方案的重要记录。通过对这些工单数据进行有效标注,不仅能够帮助提升客服自动化系统的智能化水平,还能优化客户服务流程,提高客户满意度。本文将详细介绍如何在电信运营商客服工单的背景下进行

Andrej Karpathy最新采访:认知核心模型10亿参数就够了,AI会打破教育不公的僵局

夕小瑶科技说 原创  作者 | 海野 AI圈子的红人,AI大神Andrej Karpathy,曾是OpenAI联合创始人之一,特斯拉AI总监。上一次的动态是官宣创办一家名为 Eureka Labs 的人工智能+教育公司 ,宣布将长期致力于AI原生教育。 近日,Andrej Karpathy接受了No Priors(投资博客)的采访,与硅谷知名投资人 Sara Guo 和 Elad G

Retrieval-based-Voice-Conversion-WebUI模型构建指南

一、模型介绍 Retrieval-based-Voice-Conversion-WebUI(简称 RVC)模型是一个基于 VITS(Variational Inference with adversarial learning for end-to-end Text-to-Speech)的简单易用的语音转换框架。 具有以下特点 简单易用:RVC 模型通过简单易用的网页界面,使得用户无需深入了

【机器学习】高斯过程的基本概念和应用领域以及在python中的实例

引言 高斯过程(Gaussian Process,简称GP)是一种概率模型,用于描述一组随机变量的联合概率分布,其中任何一个有限维度的子集都具有高斯分布 文章目录 引言一、高斯过程1.1 基本定义1.1.1 随机过程1.1.2 高斯分布 1.2 高斯过程的特性1.2.1 联合高斯性1.2.2 均值函数1.2.3 协方差函数(或核函数) 1.3 核函数1.4 高斯过程回归(Gauss

透彻!驯服大型语言模型(LLMs)的五种方法,及具体方法选择思路

引言 随着时间的发展,大型语言模型不再停留在演示阶段而是逐步面向生产系统的应用,随着人们期望的不断增加,目标也发生了巨大的变化。在短短的几个月的时间里,人们对大模型的认识已经从对其zero-shot能力感到惊讶,转变为考虑改进模型质量、提高模型可用性。 「大语言模型(LLMs)其实就是利用高容量的模型架构(例如Transformer)对海量的、多种多样的数据分布进行建模得到,它包含了大量的先验

图神经网络模型介绍(1)

我们将图神经网络分为基于谱域的模型和基于空域的模型,并按照发展顺序详解每个类别中的重要模型。 1.1基于谱域的图神经网络         谱域上的图卷积在图学习迈向深度学习的发展历程中起到了关键的作用。本节主要介绍三个具有代表性的谱域图神经网络:谱图卷积网络、切比雪夫网络和图卷积网络。 (1)谱图卷积网络 卷积定理:函数卷积的傅里叶变换是函数傅里叶变换的乘积,即F{f*g}

秋招最新大模型算法面试,熬夜都要肝完它

💥大家在面试大模型LLM这个板块的时候,不知道面试完会不会复盘、总结,做笔记的习惯,这份大模型算法岗面试八股笔记也帮助不少人拿到过offer ✨对于面试大模型算法工程师会有一定的帮助,都附有完整答案,熬夜也要看完,祝大家一臂之力 这份《大模型算法工程师面试题》已经上传CSDN,还有完整版的大模型 AI 学习资料,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

【生成模型系列(初级)】嵌入(Embedding)方程——自然语言处理的数学灵魂【通俗理解】

【通俗理解】嵌入(Embedding)方程——自然语言处理的数学灵魂 关键词提炼 #嵌入方程 #自然语言处理 #词向量 #机器学习 #神经网络 #向量空间模型 #Siri #Google翻译 #AlexNet 第一节:嵌入方程的类比与核心概念【尽可能通俗】 嵌入方程可以被看作是自然语言处理中的“翻译机”,它将文本中的单词或短语转换成计算机能够理解的数学形式,即向量。 正如翻译机将一种语言

AI Toolkit + H100 GPU,一小时内微调最新热门文生图模型 FLUX

上个月,FLUX 席卷了互联网,这并非没有原因。他们声称优于 DALLE 3、Ideogram 和 Stable Diffusion 3 等模型,而这一点已被证明是有依据的。随着越来越多的流行图像生成工具(如 Stable Diffusion Web UI Forge 和 ComyUI)开始支持这些模型,FLUX 在 Stable Diffusion 领域的扩展将会持续下去。 自 FLU