浅析扩散模型与图像生成【应用篇】(十五)——SDG

2024-04-03 13:04

本文主要是介绍浅析扩散模型与图像生成【应用篇】(十五)——SDG,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

15. More Control for Free! Image Synthesis with Semantic Diffusion Guidance

  该文提出一种基于语义引导扩散模型的的图像生成算法,SDG,可使用文本或图像作为引导来指引图像的生成,也可以二者同时使用,实现多模态的引导。增加引导信息无需对扩散模型进行微调训练,可以直接作用在生成阶段。相对于现有的文本引导图像生成方法StyleCLIP或图像引导生成方法ILVR,SDG不仅能够适应更多模态的输入,且生成样本也具备更大的多样性。
在这里插入图片描述
  在ADM这篇论文中,作者提出一种基于分类器引导的扩散模型,通过额外训练一个分类器 p ϕ ( y ∣ x t , t ) p_{\phi}(y|x_t,t) pϕ(yxt,t),并计算分类器对输入 x t x_t xt的对数梯度 ∇ x t log ⁡ p ϕ ( y ∣ x t ) \nabla_{x_{t}} \log p_{\phi}\left(y \mid x_{t}\right) xtlogpϕ(yxt),将其乘以一个系数加到原本去噪模型估计得到的均值 μ \mu μ上,就可以实现对扩散模型的引导。相当于根据分类器的偏好改变了噪声估计的分布,使其均值向分类器的梯度方向移动。具体实现方式如下 μ , Σ ← μ θ ( x t ) , Σ θ ( x t ) x t − 1 ← sample from  N ( μ + s Σ ∇ x t log ⁡ p ϕ ( y ∣ x t ) , Σ ) \begin{array}{l} \mu, \Sigma \leftarrow \mu_{\theta}\left(x_{t}\right), \Sigma_{\theta}\left(x_{t}\right) \\ x_{t-1} \leftarrow \text { sample from } \mathcal{N}\left(\mu+s \Sigma \nabla_{x_{t}} \log p_{\phi}\left(y \mid x_{t}\right), \Sigma\right)\end{array} μ,Σμθ(xt),Σθ(xt)xt1 sample from N(μ+sΣxtlogpϕ(yxt),Σ)  本文的方法借鉴了ADM的思想,只是将分类器引导拓展到更一般的语义引导,使用一个引导函数 F ϕ ( x t , y , t ) F_{\phi}(x_t,y,t) Fϕ(xt,y,t)取代了计算分类器对数 log ⁡ p ϕ ( y ∣ x t ) \log p_{\phi}\left(y \mid x_{t}\right) logpϕ(yxt)的过程,针对不同的引导方式,引导函数有不同的定义。SDG的计算过程如下
在这里插入图片描述

1. 文本引导

  作者采用了CLIP中的文本编码器 E L E_L EL和图像编码器 E I E_I EI来分别计算引导文本 l l l和生成图像 x t x_t xt对应的嵌入特征。有一点需要注意的是,由于CLIP中的图像编码器 E I E_I EI只能根据输入图像 x t x_t xt进行编码,而没有考虑时刻 t t t这一条件,因此作者对 E I E_I EI进行了小小的改动,利用AdaGN层将时刻 t t t引入编码过程,得到了时间依赖的图像编码器 E I ′ ( x t , t ) E_I'(x_t,t) EI(xt,t)。最终文本引导函数定义如下 F ( x t , l , t ) = E I ′ ( x t , t ) ⋅ E L ( l ) F\left(x_{t}, l, t\right)=E_{I}^{\prime}\left(x_{t}, t\right) \cdot E_{L}(l) F(xt,l,t)=EI(xt,t)EL(l)

2. 图像引导

  针对图像引导的情况,作者给出了多种引导方式,包括:图像内容引导,图像结构引导和图像风格引导。内容引导是指生成与引导图像包含相似内容的图像,如根据一张猫的照片,生成另一张猫的照片。内容引导本身不对生成结果的姿态或者空间布局情况进行限制,因此生成结果会包含更多不同的姿态和空间布局情况。而结构引导则更多的侧重于空间维度上的对齐。风格引导,则是注重图像全局风格上的一致性,如生成具有梵高绘画风格的照片。具体的计算过程分别如下:
  图像内容引导 F ( x t , x t ′ , t ) = E I ′ ( x t , t ) ⋅ E I ′ ( x t ′ , t ) F\left(x_{t}, x_{t}^{\prime}, t\right)=E_{I}^{\prime}\left(x_{t}, t\right) \cdot E_{I}^{\prime}\left(x_{t}^{\prime}, t\right) F(xt,xt,t)=EI(xt,t)EI(xt,t)
  图像结构引导 F ( x t , x t ′ , t ) = − ∑ j 1 C j H j W j ∥ E I ′ ( x t , t ) j − E I ′ ( x t ′ , t ) j ∥ 2 2 F\left(x_{t}, x_{t}^{\prime}, t\right)=-\sum_{j} \frac{1}{C_{j} H_{j} W_{j}}\left\|E_{I}^{\prime}\left(x_{t}, t\right)_{j}-E_{I}^{\prime}\left(x_{t}^{\prime}, t\right)_{j}\right\|_{2}^{2} F(xt,xt,t)=jCjHjWj1 EI(xt,t)jEI(xt,t)j 22
  图像风格引导 F ( x t , x t ′ , t ) = − ∑ j ∥ G I ′ ( x t , t ) j − G I ′ ( x t ′ , t ) j ∥ F 2 F\left(x_{t}, x_{t}^{\prime}, t\right)=-\sum_{j}\left\|G_{I}^{\prime}\left(x_{t}, t\right)_{j}-G_{I}^{\prime}\left(x_{t}^{\prime}, t\right)_{j}\right\|_{F}^{2} F(xt,xt,t)=j GI(xt,t)jGI(xt,t)j F2其中 x t ′ x'_t xt是由输入的引导图像 x 0 ′ x_0' x0经过 t t t步扩散过程得到的, G I ′ ( ) j G_I'()_j GI()j表示计算 E I ′ E_I' EI编码器输出的第 j j j层特征图的格拉姆矩阵。

格拉姆矩阵是表达图像风格常用的计算方式,本质是计算矩阵和自身转置矩阵之间的乘积,具体的介绍参见https://zhuanlan.zhihu.com/p/545090017

3. 多模态引导

  正如前文所说,文本引导和图像引导可以同时使用来引导生成过程,实现方式是简单的将不同的引导函数进行加权求和,如下式 F ϕ 0 ( x t , y , t ) = s 1 F ϕ 1 ( x t , y , t ) + s 2 F ϕ 2 ( x t , y , t ) F_{\phi_{0}}\left(x_{t}, y, t\right)=s_{1} F_{\phi_{1}}\left(x_{t}, y, t\right)+s_{2} F_{\phi_{2}}\left(x_{t}, y, t\right) Fϕ0(xt,y,t)=s1Fϕ1(xt,y,t)+s2Fϕ2(xt,y,t)权重系数 s s s可以对生成结果进行控制,对于文本引导权重系数通常取 s = 120 s=120 s=120,而图像引导权重系数通常取 s = 100 s=100 s=100。权重系数越大,生成结果则与引导信息更加一致,但生成结果的多样性也会随之下降。不同引导模式的生成结果如下
在这里插入图片描述

这篇关于浅析扩散模型与图像生成【应用篇】(十五)——SDG的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/872992

相关文章

Python结合PyWebView库打造跨平台桌面应用

《Python结合PyWebView库打造跨平台桌面应用》随着Web技术的发展,将HTML/CSS/JavaScript与Python结合构建桌面应用成为可能,本文将系统讲解如何使用PyWebView... 目录一、技术原理与优势分析1.1 架构原理1.2 核心优势二、开发环境搭建2.1 安装依赖2.2 验

Java字符串操作技巧之语法、示例与应用场景分析

《Java字符串操作技巧之语法、示例与应用场景分析》在Java算法题和日常开发中,字符串处理是必备的核心技能,本文全面梳理Java中字符串的常用操作语法,结合代码示例、应用场景和避坑指南,可快速掌握字... 目录引言1. 基础操作1.1 创建字符串1.2 获取长度1.3 访问字符2. 字符串处理2.1 子字

IDEA自动生成注释模板的配置教程

《IDEA自动生成注释模板的配置教程》本文介绍了如何在IntelliJIDEA中配置类和方法的注释模板,包括自动生成项目名称、包名、日期和时间等内容,以及如何定制参数和返回值的注释格式,需要的朋友可以... 目录项目场景配置方法类注释模板定义类开头的注释步骤类注释效果方法注释模板定义方法开头的注释步骤方法注

浅析Java中如何优雅地处理null值

《浅析Java中如何优雅地处理null值》这篇文章主要为大家详细介绍了如何结合Lambda表达式和Optional,让Java更优雅地处理null值,感兴趣的小伙伴可以跟随小编一起学习一下... 目录场景 1:不为 null 则执行场景 2:不为 null 则返回,为 null 则返回特定值或抛出异常场景

Python如何自动生成环境依赖包requirements

《Python如何自动生成环境依赖包requirements》:本文主要介绍Python如何自动生成环境依赖包requirements问题,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑... 目录生成当前 python 环境 安装的所有依赖包1、命令2、常见问题只生成当前 项目 的所有依赖包1、

SpringShell命令行之交互式Shell应用开发方式

《SpringShell命令行之交互式Shell应用开发方式》本文将深入探讨SpringShell的核心特性、实现方式及应用场景,帮助开发者掌握这一强大工具,具有很好的参考价值,希望对大家有所帮助,如... 目录引言一、Spring Shell概述二、创建命令类三、命令参数处理四、命令分组与帮助系统五、自定

SpringBoot应用中出现的Full GC问题的场景与解决

《SpringBoot应用中出现的FullGC问题的场景与解决》这篇文章主要为大家详细介绍了SpringBoot应用中出现的FullGC问题的场景与解决方法,文中的示例代码讲解详细,感兴趣的小伙伴可... 目录Full GC的原理与触发条件原理触发条件对Spring Boot应用的影响示例代码优化建议结论F

MySQL 分区与分库分表策略应用小结

《MySQL分区与分库分表策略应用小结》在大数据量、复杂查询和高并发的应用场景下,单一数据库往往难以满足性能和扩展性的要求,本文将详细介绍这两种策略的基本概念、实现方法及优缺点,并通过实际案例展示如... 目录mysql 分区与分库分表策略1. 数据库水平拆分的背景2. MySQL 分区策略2.1 分区概念

OpenCV图像形态学的实现

《OpenCV图像形态学的实现》本文主要介绍了OpenCV图像形态学的实现,包括腐蚀、膨胀、开运算、闭运算、梯度运算、顶帽运算和黑帽运算,文中通过示例代码介绍的非常详细,需要的朋友们下面随着小编来一起... 目录一、图像形态学简介二、腐蚀(Erosion)1. 原理2. OpenCV 实现三、膨胀China编程(

Spring Shell 命令行实现交互式Shell应用开发

《SpringShell命令行实现交互式Shell应用开发》本文主要介绍了SpringShell命令行实现交互式Shell应用开发,能够帮助开发者快速构建功能丰富的命令行应用程序,具有一定的参考价... 目录引言一、Spring Shell概述二、创建命令类三、命令参数处理四、命令分组与帮助系统五、自定义S