读《Diffusion Models: A Comprehensive Survey of Methods and Applications》综述

本文主要是介绍读《Diffusion Models: A Comprehensive Survey of Methods and Applications》综述,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

读《Diffusion Models: A Comprehensive Survey of Methods and Applications》综述

关于此文,我的一个见解想法,重点关注他怎么描述 「Diffusion Model」的引用的,以及未来方向就好了。当然从这篇文章可以知道 「Diffusion Model」的一个基石是什么,以及他跟其他生成模型的一个简单的关系,让我有对 「Diffusion Model」有一个更好的理解吧。

文章概述:

扩散模型已成为一种强大的新型深度生成模型,在图像合成、视频生成和分子设计等许多应用中都具有破纪录的性能。在这篇综述中,我们概述了迅速扩展的扩散模型研究,将研究分为三个关键领域:高效采样、改进的似然估计和处理具有特殊结构的数据。我们还讨论了将扩散模型与其他生成模型相结合以获得增强结果的潜力。我们进一步回顾了扩散模型在计算机视觉、自然语言处理、时间数据建模以及其他科学学科的跨学科应用等领域的广泛应用。这篇综述旨在对扩散模型的状态进行背景化、深入的观察,确定重点关注领域并指出进一步探索的潜在领域。

Diffusion Model」的基石论文

  • Denoising Diffusion Probabilistic Models DDPM
  • Score-Based Generative Models SGM 这个没有找到专门讲这个的论文,在综述中引用的论文是 [1907.05600] Generative Modeling by Estimating Gradients of the Data Distribution (arxiv.org) [2006.09011] Improved Techniques for Training Score-Based Generative Models (arxiv.org)
  • Stochastic Differential Equations Score SDE 很抽象这个也没有专门说的 [2011.13456] Score-Based Generative Modeling through Stochastic Differential Equations (arxiv.org)

关于上面三篇论文呢,这篇综述的作者也只是简单的介绍,要是想细读的可以点链接进入下载浏览。

感觉就是 DDPM 可以仔细的看一下,其他两个模型应该是更早提出来的,思想被应用在了 Diffusion 上面吧。

文章给的这个图不错:列出了连续和离散设置下的三类扩散模型以及相应的文章和年份。

在这里插入图片描述

关于 Diffusion Model 和其他模型的关系

扩散模型被纳入不同的生成模型。

在这里插入图片描述

将扩散模型与其他生成模型结合起来的研究示例,例如:VAE[235],其中扩散模型应用于潜在空间,GAN[284],其中噪声被注入到鉴别器输入,正则化流[334],其中噪声注入到流的前向和后向过程中,自回归模型[105],其中训练目标类似于扩散模型,以及EBM[75],其中通过扩散恢复似然来学习一系列EBM。

在这里插入图片描述

扩散模型的应用

扩散模型最近因其灵活性和强度而被应用于解决各种具有挑战性的现实任务。我们根据任务将这些应用分为六个不同的类别:计算机视觉、自然语言处理、时间数据建模、多模态学习、稳健学习和跨学科应用。对于每个类别,我们都对任务进行了简要介绍,然后详细解释了如何应用扩散模型来提高性能。表 3 总结了使用扩散模型的各种应用。

在这里插入图片描述

在介绍扩散模型的应用之前,我们先介绍扩散模型的两个基本应用范式,即无条件扩散模型和条件扩散模型。作为生成模型,扩散模型的发展历史与 VAE、GAN、流模型等生成模型非常相似,都是先发展出无条件生成,然后紧接着发展出条件生成。无条件生成通常被用来探索生成模型性能的上限,而条件生成则更多是应用层面的内容,因为它可以让我们根据自己的意图来控制生成结果。扩散模型除了保证生成质量和样本多样性外,尤其在可控性方面更胜一筹。 非条件扩散模型的主要算法在第2-5节已经讲得很清楚了,下一篇我们主要讨论条件扩散模型如何应用于不同应用和不同形式的条件,并选择一些典型场景进行演示。

扩散模型中的条件机制。利用不同形式的条件来指导扩散模型的生成方向被广泛使用,例如标签、分类器、文本、图像、语义图、图形等。然而,有些条件是结构性的和复杂的,因此对它们进行条件化的方法值得讨论。主要有四种条件机制,包括连接、基于梯度、交叉注意和自适应层规范化(adaLN)。连接意味着扩散模型将信息指导与扩散过程中的中间去噪目标连接起来,例如标签嵌入和语义特征图。基于梯度的机制将与任务相关的梯度纳入扩散采样过程以实现可控生成。例如,在图像生成中,可以在噪声图像上训练辅助分类器,然后使用梯度引导扩散采样过程朝向任意类标签。交叉注意在指导和扩散目标之间执行注意消息传递,这通常在去噪网络中以分层方式进行。 adaLN 机制遵循了 GAN [126] 中自适应归一化层 [211] 的广泛使用,可扩展扩散模型 [208] 探索用自适应层归一化取代基于 Transformer 的扩散主干中的标准层规范层。它不是直接学习维度上的尺度和移位参数,而是从时间嵌入和条件的总和中回归它们。

标签和分类器上的条件扩散。在标签的指导下对扩散过程进行条件化是将所需属性添加到生成样本中的直接方法。然而,当标签有限时,很难使扩散模型充分捕获整个数据分布。SGGM [319] 提出了一种以自生成的分层标签集为条件的自引导扩散过程,而 You 等人 (2023) [325] 通过对偶伪训练证明了大规模扩散模型和半监督学习器在少数标签下互惠互利。Dhariwal 和 Nichol [53] 提出了分类器指导,通过使用额外训练的分类器来提高扩散模型的样本质量。Ho 和 Salimans [102] 联合训练了一个条件和非条件扩散模型,发现可以将得到的条件和非条件分数结合起来,以获得与使用分类器指导获得的样本质量和多样性之间的权衡

文本、图像和语义图上的条件扩散。最近的研究开始在更多语义(如文本、图像和语义图)的指导下对扩散过程进行条件化,以更好地表达样本中的丰富语义。DiffuSeq [78] 以文本为条件,并提出了一个 seq-to-seq 扩散框架,可帮助完成四项 NLP 任务。SDEdit [186] 以样式化图像为条件进行图像到图像的转换,而 LDM [235] 将这些语义条件与灵活的潜在扩散统一起来。请注意,如果条件和扩散目标属于不同的模态,预对齐 [223, 315] 是加强引导扩散的实用方法。unCLIP [223] 和 ConPreDiff [317] 利用 CLIP 潜在特征进行文本到图像的生成,从而使图像和文本之间的语义保持一致。RPG [318] 创新地以互补的矩形和轮廓区域为条件,以实现组合文本到图像的生成和复杂的文本引导的图像编辑。图 4 显示了 RPG 与其他模型之间的架构比较。

在这里插入图片描述

图上的条件扩散。图结构数据通常表现出节点之间的复杂关系,因此对于扩散模型来说,图上的条件化极其困难。SGDiff [315] 提出了第一个专门为场景图到图像生成而设计的扩散模型,该模型采用了一种新颖的掩蔽对比预训练。这种掩蔽预训练范式具有通用性,可以扩展到任何跨模态扩散架构,用于粗粒度和细粒度指导。其他图条件扩散模型主要用于图生成。GeoDiff [307] 以二维分子图为条件,通过保证等变马尔可夫核的旋转和平移不变性来生成三维分子构象。Luo 等人(2022 年)[176] 和 DiffSBDD [247] 提出以三维蛋白质图为条件,生成具有等变扩散的三维抗体或分子。

关于应用具体讲什么感觉根据自己的兴趣去了解就好了,

主要还是多看看这个图了解应用方向:
在这里插入图片描述

未来方向

扩散模型研究尚处于早期阶段,在理论和实证方面都有很大改进潜力。如前面章节所述,关键研究方向包括有效采样和提高可能性,以及探索扩散模型如何处理特殊数据结构、与其他类型的生成模型接口以及如何针对一系列应用进行定制。此外,我们预见到未来对扩散模型的研究可能会扩展到以下途径。 重新审视假设。扩散模型中的许多典型假设需要重新审视和分析。例如,扩散模型的前向过程完全消除数据中的任何信息并使其等同于先验分布的假设可能并不总是成立。实际上,在有限的时间内完全删除信息是不可能实现的。了解何时停止前向噪声过程以在采样效率和样本质量之间取得平衡是非常有趣的[72]。薛定谔桥和最优传输方面的最新进展 [35, 48, 50, 250, 257] 提供了有希望的替代解决方案,为能够在有限时间内收敛到指定先验分布的扩散模型提出了新的公式。 理论理解。扩散模型已经成为一个强大的框架,尤其是它是唯一一个可以在大多数应用中与生成对抗网络 (GAN) 相媲美而无需诉诸对抗训练的框架。利用这一潜力的关键是了解为什么以及何时扩散模型比特定任务的替代方案更有效。重要的是要确定哪些基本特征将扩散模型与其他类型的生成模型区分开来,例如变分自动编码器、基于能量的模型或自回归模型。 理解这些区别将有助于阐明为什么扩散模型能够生成质量极佳的样本,同时实现最高似然。同样重要的是需要制定理论指导,以系统地选择和确定扩散模型的各种超参数。 潜在表示。与变分自编码器或生成对抗网络不同,扩散模型在潜在空间中提供良好数据表示的效果较差。因此,它们不能轻易用于基于语义表示处理数据等任务。此外,由于扩散模型中的潜在空间通常具有与数据空间相同的维数,因此采样效率会受到负面影响,并且模型可能无法很好地学习表示方案 [116]。 AIGC 和扩散基础模型。从稳定扩散到 ChatGPT,人工智能生成内容 (AIGC) 在学术界和工业界都引起了广泛关注。生成预训练是 GPT-1/2/3/4 [200, 203, 221, 222] 和 (Visual) ChatGPT [290] 的核心技术,它配备了大型语言模型 (LLM) [274] 和 Visual Foundation 模型,表现出令人鼓舞的生成性能和令人惊讶的突发能力 [288] [19,326,329]。将生成式预训练(仅解码器)从 GPT 系列转移到扩散模型类,评估基于扩散的生成性能,并分析扩散基础模型的涌现能力,这很有趣。此外,将 LLM 与扩散模型相结合已被证明是一个新的有前途的方向 [318]。

这篇关于读《Diffusion Models: A Comprehensive Survey of Methods and Applications》综述的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1016157

相关文章

模型压缩综述

https://www.cnblogs.com/shixiangwan/p/9015010.html

Retrieval-Augmented Generation for Large Language Models A Survey

Retrieval-Augmented Generation for Large Language Models: A Survey 文献综述 文章目录 Retrieval-Augmented Generation for Large Language Models: A Survey 文献综述 Abstract背景介绍 RAG概述原始RAG先进RAG预检索过程后检索过程 模块化RAGMo

Android插件化学习之路(一)之动态加载综述

前段时间,公司项目完成了插件化的开发,自己也因此学习了很多Android插件化的知识,于是想把这些内容记录下来,本次带来Android插件化的第一篇:动态加载综述 Android插件化学习之路(一)之动态加载综述 Android插件化学习之路(二)之ClassLoader完全解析 Android插件化学习之路(三)之调用外部.dex文件中的代码 Android插件化学习之路(四)之使用插件中的R

【LocalAI】(13):LocalAI最新版本支持Stable diffusion 3,20亿参数图像更加细腻了,可以继续研究下

最新版本v2.17.1 https://github.com/mudler/LocalAI/releases Stable diffusion 3 You can use Stable diffusion 3 by installing the model in the gallery (stable-diffusion-3-medium) or by placing this YAML fi

AI 大模型企业应用实战(10)-LLMs和Chat Models

1 模型 来看两种不同类型的模型--LLM 和聊天模型。然后,它将介绍如何使用提示模板来格式化这些模型的输入,以及如何使用输出解析器来处理输出。 LangChain 中的语言模型有两种类型: 1.1 Chat Models 聊天模型通常由 LLM 支持,但专门针对会话进行了调整。提供者 API 使用与纯文本补全模型不同的接口。它们的输入不是单个字符串,而是聊天信息列表,输出则是一条人工智能

图像编辑技术的新篇章:基于扩散模型的综述

在人工智能的浪潮中,图像编辑技术正经历着前所未有的变革。随着数字媒体、广告、娱乐和科学研究等领域对高质量图像编辑需求的不断增长,传统的图像编辑方法已逐渐无法满足日益复杂的视觉内容创作需求。尤其是在AI生成内容(AIGC)的背景下,如何利用人工智能技术对图像进行高效、精准的编辑,已成为当前研究的热点问题。尽管基于学习算法的图像编辑技术取得了显著进展,但仍存在诸多挑战,例如模型的泛化能力、编辑的自然性

开源C++版AI画图大模型框架stable-diffusion.cpp开发使用初体验

stable-diffusion.cpp是一个C++编写的轻量级开源类AIGC大模型框架,可以支持在消费级普通设备上本地部署运行大模型进行AI画图,以及作为依赖库集成的到应用程序中提供类似于网页版stable-diffusion的功能。 以下基于stable-diffusion.cpp的源码利用C++ api来开发实例demo演示加载本地模型文件输入提示词生成画图,这里采用显卡CUDA加速计算,

Stable Diffusion Model网站

Civitai Models | Discover Free Stable Diffusion Modelshttps://www.tjsky.net/tutorial/488https://zhuanlan.zhihu.com/p/610298913超详细的 Stable Diffusion ComfyUI 基础教程(一):安装与常用插件 - 优设网 - 学设计上优设 (uisdc.com)ht

Stable Diffusion部署教程,开启你的AI绘图之路

本文环境 系统:Ubuntu 20.04 64位 内存:32G 环境安装 2.1 安装GPU驱动 在英伟达官网根据显卡型号、操作系统、CUDA等查询驱动版本。官网查询链接https://www.nvidia.com/Download/index.aspx?lang=en-us 注意这里的CUDA版本,如未安装CUDA可以先选择一个版本,稍后再安装CUDA. 点击Search

从同—视角理解扩散模型(Understanding Diffusion Models A Unified Perspective)

从同—视角理解扩散模型 Understanding Diffusion Models A Unified Perspective【全公式推导】【免费视频讲解】 B站视频讲解 视频的论文笔记 从同一视角理解扩散模型【视频讲解笔记】 配合视频讲解的同步笔记。 整个系列完整的论文笔记内容如下,仅为了不用—一回复,共计14个视频讲解笔记,故设定了一个比较低的价格(粉丝仅6毛),大家可以自取。