UNIFYING DIFFUSION MODELS’ LATENT SPACE, WITHAPPLICATIONS TO CYCLEDIFFUSION AND GUIDANCE [ICCV 2023]

本文主要是介绍UNIFYING DIFFUSION MODELS’ LATENT SPACE, WITHAPPLICATIONS TO CYCLEDIFFUSION AND GUIDANCE [ICCV 2023],希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

论文链接https://arxiv.org/abs/2210.05559
github链接https://github.com/ChenWu98/cycle-diffusion

Abstract

Diffusion models have achieved unprecedented performance in generative modeling. The commonly-adopted formulation of the latent code of diffusion models is a sequence of gradually denoised samples, as opposed to the simpler (e.g., Gaussian) latent space of GANs, VAEs, and normalizing flows. This paper provides an alternative, Gaussian formulation of the latent space of diffusion models, as well as a reconstructable DPM-Encoder that maps images into the latent space. While our formulation is purely based on the definition of diffusion models, we demonstrate several intriguing consequences.

(1) Empirically, we observe that a common latent space emerges from two diffusion models trained independently on related domains. In light of this finding, we propose CycleDiffusion, which uses DPM-Encoder for unpaired image-to-image translation. Furthermore, applying CycleDiffusion to text-to-image diffusion models, we show that large-scale text-to-image diffusion models can be used as zero-shot image-to-image editors.

(2) One can guide pretrained diffusion models and GANs by controlling the latent codes in a unified, plug-and-play formulation based on energy-based models. Using the CLIP model and a face recognition model as guidance, we demonstrate that diffusion models have better coverage of low-density sub-populations and individuals than GANs.

本文提供了扩散模型潜在空间的另一种高斯公式,以及将图像映射到潜在空间的可重构dpm编码器。虽然我们的公式纯粹基于扩散模型的定义,但我们展示了几个有趣的结果。

(1) 经验上,我们观察到两个扩散模型在相关域上独立训练产生了一个共同的潜在空间。根据这一发现,我们提出了循环扩散,它使用dpm编码器进行非配对图像到图像的转换。此外,  CycleDiffusion应用于文本到图像的扩散模型,我们表明大规模文本到图像的扩散模型可以用作零镜头图像到图像的编辑器。

(2) 可以通过基于能量模型的统一的即插即用公式控制潜在代码来指导预训练的扩散模型和gan。使用CLIP模型和人脸识别模型作为指导,我们证明了扩散模型比高斯模型具有更好的低密度亚种群和个体覆盖率

Introduction

本文通过将各种扩散模型重新表述为从高斯潜在代码z到图像x的确定性映射,提供了图像生成模型的统一视图(Figure1)。接下来的问题是编码:如何将图像x映射到潜在代码z。许多生成模型已经研究了编码。例如,VAEs和规范化流设计有编码器,GAN反演(Xia等人,2021)为GAN构建事后编码器,确定性扩散概率模型(dpm) (Song等人,2021a;b)构建具有正向ode的编码器。

然而,目前尚不清楚如何为随机dpm (Ho et al ., 2020)、非确定性DDIM (Song et al ., 2021a)和潜在扩散模型(Rombach et al ., 2022)等dpm构建编码器。我们提出了dpm编码器(章节3.2),一个随机dpm的可重构编码器。

我们展示了一些有趣的结果出现从我们的扩散模型的潜在空间的定义和我们的dpm编码器。首先,观察发现,给定两种扩散模型,固定的“随机种子”会产生相似的图像(Nichol et al, 2022)。在我们的公式下,我们通过图像距离的上界来形式化“相似图像”。由于定义的潜在码包含采样期间的所有随机性,DPM-Encoder在精神上类似于从真实图像推断“随机种子”。基于这种直觉和图像距离的上界,我们提出了循环扩散(第3.3节),这是一种使用我们的dpm编码器进行非配对图像到图像转换的方法。与基于gan的UNIT方法一样(Liu et al ., 2017), CycleDiffusion使用共同潜在空间对图像进行编码和解码。我们的实验表明,循环扩散优于以前基于gan或扩散模型的方法(第4.1节)。此外,通过应用大规模文本到图像扩散模型(例如,稳定扩散;Rombach等人,2022),循环扩散,我们获得零镜头图像到图像编辑器(第4.2节)。

Related Work

生成模型:GAN、扩散模型、VAEs、规范化流

生成建模中最基本的挑战之一是设计一个既计算高效又可逆的编码器

对于具有随机dpm的真实图像,由于真实图像的随机种子是未知的,因此它们基于注意图生成掩模。在第4.2节中,我们展示了循环扩散和CAC可以结合起来提高图像编辑的结构保存。

具体方法部分恕我暂时看不下去,也看不懂,来日我看懂了一定细细读来

现在只能了解个大概,做好调研

 

Diffusion两个顶级组:thu朱军、pku张健 可以多看看这两个组的内容产出

这篇关于UNIFYING DIFFUSION MODELS’ LATENT SPACE, WITHAPPLICATIONS TO CYCLEDIFFUSION AND GUIDANCE [ICCV 2023]的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/559617

相关文章

论文翻译:arxiv-2024 Benchmark Data Contamination of Large Language Models: A Survey

Benchmark Data Contamination of Large Language Models: A Survey https://arxiv.org/abs/2406.04244 大规模语言模型的基准数据污染:一项综述 文章目录 大规模语言模型的基准数据污染:一项综述摘要1 引言 摘要 大规模语言模型(LLMs),如GPT-4、Claude-3和Gemini的快

CSP 2023 提高级第一轮 CSP-S 2023初试题 完善程序第二题解析 未完

一、题目阅读 (最大值之和)给定整数序列 a0,⋯,an−1,求该序列所有非空连续子序列的最大值之和。上述参数满足 1≤n≤105 和 1≤ai≤108。 一个序列的非空连续子序列可以用两个下标 ll 和 rr(其中0≤l≤r<n0≤l≤r<n)表示,对应的序列为 al,al+1,⋯,ar​。两个非空连续子序列不同,当且仅当下标不同。 例如,当原序列为 [1,2,1,2] 时,要计算子序列 [

论文翻译:ICLR-2024 PROVING TEST SET CONTAMINATION IN BLACK BOX LANGUAGE MODELS

PROVING TEST SET CONTAMINATION IN BLACK BOX LANGUAGE MODELS https://openreview.net/forum?id=KS8mIvetg2 验证测试集污染在黑盒语言模型中 文章目录 验证测试集污染在黑盒语言模型中摘要1 引言 摘要 大型语言模型是在大量互联网数据上训练的,这引发了人们的担忧和猜测,即它们可能已

HNU-2023电路与电子学-实验3

写在前面: 一、实验目的 1.了解简易模型机的内部结构和工作原理。 2.分析模型机的功能,设计 8 重 3-1 多路复用器。 3.分析模型机的功能,设计 8 重 2-1 多路复用器。 4.分析模型机的工作原理,设计模型机控制信号产生逻辑。 二、实验内容 1.用 VERILOG 语言设计模型机的 8 重 3-1 多路复用器; 2.用 VERILOG 语言设计模型机的 8 重 2-1 多

速通GPT-3:Language Models are Few-Shot Learners全文解读

文章目录 论文实验总览1. 任务设置与测试策略2. 任务类别3. 关键实验结果4. 数据污染与实验局限性5. 总结与贡献 Abstract1. 概括2. 具体分析3. 摘要全文翻译4. 为什么不需要梯度更新或微调⭐ Introduction1. 概括2. 具体分析3. 进一步分析 Approach1. 概括2. 具体分析3. 进一步分析 Results1. 概括2. 具体分析2.1 语言模型

使用亚马逊Bedrock的Stable Diffusion XL模型实现文本到图像生成:探索AI的无限创意

引言 什么是Amazon Bedrock? Amazon Bedrock是亚马逊云服务(AWS)推出的一项旗舰服务,旨在推动生成式人工智能(AI)在各行业的广泛应用。它的核心功能是提供由顶尖AI公司(如AI21 Labs、Anthropic、Cohere、Meta、Mistral AI、Stability AI以及亚马逊自身)开发的多种基础模型(Foundation Models,简称FMs)。

神经网络训练不起来怎么办(零)| General Guidance

摘要:模型性能不理想时,如何判断 Model Bias, Optimization, Overfitting 等问题,并以此着手优化模型。在这个分析过程中,我们可以对Function Set,模型弹性有直观的理解。关键词:模型性能,Model Bias, Optimization, Overfitting。 零,领域背景 如果我们的模型表现较差,那么我们往往需要根据 Training l

Differential Diffusion,赋予每个像素它应有的力量,以及在comfyui中的测试效果

🥽原论文要点 首先是原论文地址:https://differential-diffusion.github.io/paper.pdf 其次是git介绍地址:GitHub - exx8/differential-diffusion 感兴趣的朋友们可以自行阅读。 首先,论文开篇就给了一个例子: 我们的方法根据给定的图片和文本提示,以不同的程度改变图像的不同区域。这种可控性允许我们再现

2023 CCPC(秦皇岛)现场(第二届环球杯.第 2 阶段:秦皇岛)部分题解

所有题目链接:Dashboard - The 2023 CCPC (Qinhuangdao) Onsite (The 2nd Universal Cup. Stage 9: Qinhuangdao) - Codeforces 中文题面: contest-37054-zh.pdf (codeforces.com) G. Path 链接: Problem - G - Codeforces

diffusion model 合集

diffusion model 整理 DDPM: 前向一步到位,从数据集里的图片加噪声,根据随机到的 t t t 决定混合的比例,反向要慢慢迭代,DDPM是用了1000步迭代。模型的输入是带噪声图和 t,t 先生成embedding后,用通道和的方式加到每一层中间去: 训练过程是对每个样本分配一个随机的t,采样一个高斯噪声 ϵ \epsilon ϵ,然后根据 t 对图片和噪声进行混合,将加噪