读《Diffusion Models: A Comprehensive Survey of Methods and Applications》综述

本文主要是介绍读《Diffusion Models: A Comprehensive Survey of Methods and Applications》综述,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

读《Diffusion Models: A Comprehensive Survey of Methods and Applications》综述

关于此文,我的一个见解想法,重点关注他怎么描述 「Diffusion Model」的引用的,以及未来方向就好了。当然从这篇文章可以知道 「Diffusion Model」的一个基石是什么,以及他跟其他生成模型的一个简单的关系,让我有对 「Diffusion Model」有一个更好的理解吧。

文章概述:

扩散模型已成为一种强大的新型深度生成模型,在图像合成、视频生成和分子设计等许多应用中都具有破纪录的性能。在这篇综述中,我们概述了迅速扩展的扩散模型研究,将研究分为三个关键领域:高效采样、改进的似然估计和处理具有特殊结构的数据。我们还讨论了将扩散模型与其他生成模型相结合以获得增强结果的潜力。我们进一步回顾了扩散模型在计算机视觉、自然语言处理、时间数据建模以及其他科学学科的跨学科应用等领域的广泛应用。这篇综述旨在对扩散模型的状态进行背景化、深入的观察,确定重点关注领域并指出进一步探索的潜在领域。

Diffusion Model」的基石论文

  • Denoising Diffusion Probabilistic Models DDPM
  • Score-Based Generative Models SGM 这个没有找到专门讲这个的论文,在综述中引用的论文是 [1907.05600] Generative Modeling by Estimating Gradients of the Data Distribution (arxiv.org) [2006.09011] Improved Techniques for Training Score-Based Generative Models (arxiv.org)
  • Stochastic Differential Equations Score SDE 很抽象这个也没有专门说的 [2011.13456] Score-Based Generative Modeling through Stochastic Differential Equations (arxiv.org)

关于上面三篇论文呢,这篇综述的作者也只是简单的介绍,要是想细读的可以点链接进入下载浏览。

感觉就是 DDPM 可以仔细的看一下,其他两个模型应该是更早提出来的,思想被应用在了 Diffusion 上面吧。

文章给的这个图不错:列出了连续和离散设置下的三类扩散模型以及相应的文章和年份。

在这里插入图片描述

关于 Diffusion Model 和其他模型的关系

扩散模型被纳入不同的生成模型。

在这里插入图片描述

将扩散模型与其他生成模型结合起来的研究示例,例如:VAE[235],其中扩散模型应用于潜在空间,GAN[284],其中噪声被注入到鉴别器输入,正则化流[334],其中噪声注入到流的前向和后向过程中,自回归模型[105],其中训练目标类似于扩散模型,以及EBM[75],其中通过扩散恢复似然来学习一系列EBM。

在这里插入图片描述

扩散模型的应用

扩散模型最近因其灵活性和强度而被应用于解决各种具有挑战性的现实任务。我们根据任务将这些应用分为六个不同的类别:计算机视觉、自然语言处理、时间数据建模、多模态学习、稳健学习和跨学科应用。对于每个类别,我们都对任务进行了简要介绍,然后详细解释了如何应用扩散模型来提高性能。表 3 总结了使用扩散模型的各种应用。

在这里插入图片描述

在介绍扩散模型的应用之前,我们先介绍扩散模型的两个基本应用范式,即无条件扩散模型和条件扩散模型。作为生成模型,扩散模型的发展历史与 VAE、GAN、流模型等生成模型非常相似,都是先发展出无条件生成,然后紧接着发展出条件生成。无条件生成通常被用来探索生成模型性能的上限,而条件生成则更多是应用层面的内容,因为它可以让我们根据自己的意图来控制生成结果。扩散模型除了保证生成质量和样本多样性外,尤其在可控性方面更胜一筹。 非条件扩散模型的主要算法在第2-5节已经讲得很清楚了,下一篇我们主要讨论条件扩散模型如何应用于不同应用和不同形式的条件,并选择一些典型场景进行演示。

扩散模型中的条件机制。利用不同形式的条件来指导扩散模型的生成方向被广泛使用,例如标签、分类器、文本、图像、语义图、图形等。然而,有些条件是结构性的和复杂的,因此对它们进行条件化的方法值得讨论。主要有四种条件机制,包括连接、基于梯度、交叉注意和自适应层规范化(adaLN)。连接意味着扩散模型将信息指导与扩散过程中的中间去噪目标连接起来,例如标签嵌入和语义特征图。基于梯度的机制将与任务相关的梯度纳入扩散采样过程以实现可控生成。例如,在图像生成中,可以在噪声图像上训练辅助分类器,然后使用梯度引导扩散采样过程朝向任意类标签。交叉注意在指导和扩散目标之间执行注意消息传递,这通常在去噪网络中以分层方式进行。 adaLN 机制遵循了 GAN [126] 中自适应归一化层 [211] 的广泛使用,可扩展扩散模型 [208] 探索用自适应层归一化取代基于 Transformer 的扩散主干中的标准层规范层。它不是直接学习维度上的尺度和移位参数,而是从时间嵌入和条件的总和中回归它们。

标签和分类器上的条件扩散。在标签的指导下对扩散过程进行条件化是将所需属性添加到生成样本中的直接方法。然而,当标签有限时,很难使扩散模型充分捕获整个数据分布。SGGM [319] 提出了一种以自生成的分层标签集为条件的自引导扩散过程,而 You 等人 (2023) [325] 通过对偶伪训练证明了大规模扩散模型和半监督学习器在少数标签下互惠互利。Dhariwal 和 Nichol [53] 提出了分类器指导,通过使用额外训练的分类器来提高扩散模型的样本质量。Ho 和 Salimans [102] 联合训练了一个条件和非条件扩散模型,发现可以将得到的条件和非条件分数结合起来,以获得与使用分类器指导获得的样本质量和多样性之间的权衡

文本、图像和语义图上的条件扩散。最近的研究开始在更多语义(如文本、图像和语义图)的指导下对扩散过程进行条件化,以更好地表达样本中的丰富语义。DiffuSeq [78] 以文本为条件,并提出了一个 seq-to-seq 扩散框架,可帮助完成四项 NLP 任务。SDEdit [186] 以样式化图像为条件进行图像到图像的转换,而 LDM [235] 将这些语义条件与灵活的潜在扩散统一起来。请注意,如果条件和扩散目标属于不同的模态,预对齐 [223, 315] 是加强引导扩散的实用方法。unCLIP [223] 和 ConPreDiff [317] 利用 CLIP 潜在特征进行文本到图像的生成,从而使图像和文本之间的语义保持一致。RPG [318] 创新地以互补的矩形和轮廓区域为条件,以实现组合文本到图像的生成和复杂的文本引导的图像编辑。图 4 显示了 RPG 与其他模型之间的架构比较。

在这里插入图片描述

图上的条件扩散。图结构数据通常表现出节点之间的复杂关系,因此对于扩散模型来说,图上的条件化极其困难。SGDiff [315] 提出了第一个专门为场景图到图像生成而设计的扩散模型,该模型采用了一种新颖的掩蔽对比预训练。这种掩蔽预训练范式具有通用性,可以扩展到任何跨模态扩散架构,用于粗粒度和细粒度指导。其他图条件扩散模型主要用于图生成。GeoDiff [307] 以二维分子图为条件,通过保证等变马尔可夫核的旋转和平移不变性来生成三维分子构象。Luo 等人(2022 年)[176] 和 DiffSBDD [247] 提出以三维蛋白质图为条件,生成具有等变扩散的三维抗体或分子。

关于应用具体讲什么感觉根据自己的兴趣去了解就好了,

主要还是多看看这个图了解应用方向:
在这里插入图片描述

未来方向

扩散模型研究尚处于早期阶段,在理论和实证方面都有很大改进潜力。如前面章节所述,关键研究方向包括有效采样和提高可能性,以及探索扩散模型如何处理特殊数据结构、与其他类型的生成模型接口以及如何针对一系列应用进行定制。此外,我们预见到未来对扩散模型的研究可能会扩展到以下途径。 重新审视假设。扩散模型中的许多典型假设需要重新审视和分析。例如,扩散模型的前向过程完全消除数据中的任何信息并使其等同于先验分布的假设可能并不总是成立。实际上,在有限的时间内完全删除信息是不可能实现的。了解何时停止前向噪声过程以在采样效率和样本质量之间取得平衡是非常有趣的[72]。薛定谔桥和最优传输方面的最新进展 [35, 48, 50, 250, 257] 提供了有希望的替代解决方案,为能够在有限时间内收敛到指定先验分布的扩散模型提出了新的公式。 理论理解。扩散模型已经成为一个强大的框架,尤其是它是唯一一个可以在大多数应用中与生成对抗网络 (GAN) 相媲美而无需诉诸对抗训练的框架。利用这一潜力的关键是了解为什么以及何时扩散模型比特定任务的替代方案更有效。重要的是要确定哪些基本特征将扩散模型与其他类型的生成模型区分开来,例如变分自动编码器、基于能量的模型或自回归模型。 理解这些区别将有助于阐明为什么扩散模型能够生成质量极佳的样本,同时实现最高似然。同样重要的是需要制定理论指导,以系统地选择和确定扩散模型的各种超参数。 潜在表示。与变分自编码器或生成对抗网络不同,扩散模型在潜在空间中提供良好数据表示的效果较差。因此,它们不能轻易用于基于语义表示处理数据等任务。此外,由于扩散模型中的潜在空间通常具有与数据空间相同的维数,因此采样效率会受到负面影响,并且模型可能无法很好地学习表示方案 [116]。 AIGC 和扩散基础模型。从稳定扩散到 ChatGPT,人工智能生成内容 (AIGC) 在学术界和工业界都引起了广泛关注。生成预训练是 GPT-1/2/3/4 [200, 203, 221, 222] 和 (Visual) ChatGPT [290] 的核心技术,它配备了大型语言模型 (LLM) [274] 和 Visual Foundation 模型,表现出令人鼓舞的生成性能和令人惊讶的突发能力 [288] [19,326,329]。将生成式预训练(仅解码器)从 GPT 系列转移到扩散模型类,评估基于扩散的生成性能,并分析扩散基础模型的涌现能力,这很有趣。此外,将 LLM 与扩散模型相结合已被证明是一个新的有前途的方向 [318]。

这篇关于读《Diffusion Models: A Comprehensive Survey of Methods and Applications》综述的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1016157

相关文章

论文翻译:arxiv-2024 Benchmark Data Contamination of Large Language Models: A Survey

Benchmark Data Contamination of Large Language Models: A Survey https://arxiv.org/abs/2406.04244 大规模语言模型的基准数据污染:一项综述 文章目录 大规模语言模型的基准数据污染:一项综述摘要1 引言 摘要 大规模语言模型(LLMs),如GPT-4、Claude-3和Gemini的快

论文翻译:ICLR-2024 PROVING TEST SET CONTAMINATION IN BLACK BOX LANGUAGE MODELS

PROVING TEST SET CONTAMINATION IN BLACK BOX LANGUAGE MODELS https://openreview.net/forum?id=KS8mIvetg2 验证测试集污染在黑盒语言模型中 文章目录 验证测试集污染在黑盒语言模型中摘要1 引言 摘要 大型语言模型是在大量互联网数据上训练的,这引发了人们的担忧和猜测,即它们可能已

速通GPT-3:Language Models are Few-Shot Learners全文解读

文章目录 论文实验总览1. 任务设置与测试策略2. 任务类别3. 关键实验结果4. 数据污染与实验局限性5. 总结与贡献 Abstract1. 概括2. 具体分析3. 摘要全文翻译4. 为什么不需要梯度更新或微调⭐ Introduction1. 概括2. 具体分析3. 进一步分析 Approach1. 概括2. 具体分析3. 进一步分析 Results1. 概括2. 具体分析2.1 语言模型

kaggle竞赛宝典 | Mamba模型综述!

本文来源公众号“kaggle竞赛宝典”,仅用于学术分享,侵权删,干货满满。 原文链接:Mamba模型综述! 型语言模型(LLMs),成为深度学习的基石。尽管取得了令人瞩目的成就,Transformers仍面临固有的局限性,尤其是在推理时,由于注意力计算的平方复杂度,导致推理过程耗时较长。 最近,一种名为Mamba的新型架构应运而生,其灵感源自经典的状态空间模型,成为构建基础模型的有力替代方案

使用亚马逊Bedrock的Stable Diffusion XL模型实现文本到图像生成:探索AI的无限创意

引言 什么是Amazon Bedrock? Amazon Bedrock是亚马逊云服务(AWS)推出的一项旗舰服务,旨在推动生成式人工智能(AI)在各行业的广泛应用。它的核心功能是提供由顶尖AI公司(如AI21 Labs、Anthropic、Cohere、Meta、Mistral AI、Stability AI以及亚马逊自身)开发的多种基础模型(Foundation Models,简称FMs)。

Differential Diffusion,赋予每个像素它应有的力量,以及在comfyui中的测试效果

🥽原论文要点 首先是原论文地址:https://differential-diffusion.github.io/paper.pdf 其次是git介绍地址:GitHub - exx8/differential-diffusion 感兴趣的朋友们可以自行阅读。 首先,论文开篇就给了一个例子: 我们的方法根据给定的图片和文本提示,以不同的程度改变图像的不同区域。这种可控性允许我们再现

AI文献综述神器,有这一款就够了!

我是娜姐 @迪娜学姐 ,一个SCI医学期刊编辑,探索用AI工具提效论文写作和发表。 当前的AI辅助文献综述的工具有很多,如果说功能最强大的,娜姐无疑要推SciSpace了。 SciSpace利用强大的AI算法,理解并建立研究论文之间的联系,可以大大提升文献综述的质量和效率。并且其功能还在不断更新和完善。        1 强大的语义搜索功能 传统的关键词搜索可能会遗漏相关文献,Sc

【VueJS】深入理解 computed 和 methods 方法

前言   模板内的表达式是非常便利的,但是它们实际上只用于简单的运算。在模板中放入太多的逻辑会让模板过重且难以维护。例如: <div id="example">{{ message.split('').reverse().join('') }}</div> computed 方法   所以引入了计算属性computed,将复杂的逻辑放入计算中进行处理,同时computed有缓存功能,

A Comprehensive Survey on Graph Neural Networks笔记

一、摘要-Abstract 1、传统的深度学习模型主要处理欧几里得数据(如图像、文本),而图神经网络的出现和发展是为了有效处理和学习非欧几里得域(即图结构数据)的信息。 2、将GNN划分为四类:recurrent GNNs(RecGNN), convolutional GNNs,(GCN), graph autoencoders(GAE), and spatial–temporal GNNs(S

diffusion model 合集

diffusion model 整理 DDPM: 前向一步到位,从数据集里的图片加噪声,根据随机到的 t t t 决定混合的比例,反向要慢慢迭代,DDPM是用了1000步迭代。模型的输入是带噪声图和 t,t 先生成embedding后,用通道和的方式加到每一层中间去: 训练过程是对每个样本分配一个随机的t,采样一个高斯噪声 ϵ \epsilon ϵ,然后根据 t 对图片和噪声进行混合,将加噪