【论文阅读】High-Resolution Image Synthesis with Latent Diffusion Model

2024-03-05 10:20

本文主要是介绍【论文阅读】High-Resolution Image Synthesis with Latent Diffusion Model,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

High-Resolution Image Synthesis with Latent Diffusion Model

引用: Rombach R, Blattmann A, Lorenz D, et al. High-resolution image synthesis with latent diffusion models[C]//Proceedings of the IEEE/CVF conference on computer vision and pattern recognition. 2022: 10684-10695.

论文链接: http://openaccess.thecvf.com/content/CVPR2022/html/Rombach_High-Resolution_Image_Synthesis_With_Latent_Diffusion_Models_CVPR_2022_paper.html
代码链接: https://github.com/CompVis/latent-diffusion

论文概述

通过将图像形成过程分解为去噪自编码器的顺序应用,扩散模型(DMs)在图像数据上实现了最先进的合成结果,并且它们的公式允许在不重新训练的情况下引入引导机制来控制图像生成过程。然而,由于这些模型通常直接在像素空间中操作,优化强大的DMs通常需要数百个GPU天,并且由于顺序评估,推理成本很高。为了在有限的计算资源下进行DM训练,同时保留它们的质量和灵活性,作者将它们应用于强大预训练自编码器的潜在空间。与之前的工作不同,在这样的表示上训练扩散模型首次实现了复杂度降低和细节保留之间的近乎最优平衡,极大地提高了视觉保真度。与纯粹基于transformer的方法相比,可以更优雅地扩展到更高维的数据。与基于像素的扩散方法相比,还显著降低了推理系数。此外,设计了一种基于交叉注意力的通用条件反射机制,实现了多模态训练。通过在模型架构中引入交叉注意力层,将扩散模型转变为强大且灵活的生成器,适用于文本或边界框等一般条件输入,并且高分辨率合成以卷积方式成为可能。提出的潜在扩散模型(LDMs)在图像修复和类条件图像合成方面取得了新的最先进分数,并在各种任务上表现出极具竞争力的性能,包括文本到图像合成、无条件图像生成和超分辨率,同时与基于像素的DMs相比显著降低了计算需求。

Method

为了降低训练扩散模型对高分辨率图像合成的计算要求,尽管扩散模型允许通过对相应的损失项进行欠采样来忽略感知上不相关的细节[1],但它们仍然需要在像素空间中进行昂贵的函数评估,这导致了对计算时间和能源的巨大需求。因此,通过引入压缩学习阶段与生成学习阶段的明确分离来规避这一缺点(见图2)。为了实现这一点,使用了一个自动编码模型,该模型学习了一个在感知上等同于图像空间的空间,但大大降低了计算复杂性。这种方法有几个优点:

  1. 通过离开高维图像空间,我们获得了计算效率更高的DM,因为采样是在低维空间上执行的。
  2. 利用了DMs的归纳偏差,这些偏差继承自其UNet架构,这使得它们对具有空间结构的数据特别有效,因此减轻了以前方法所要求的激进的、降低质量的压缩水平的需求。
  3. 最后获得了通用压缩模型,其潜在空间可用于训练多个生成模型,也可用于其他下游应用,如单图像CLIP引导的合成。
  • Perceptual Image Compression使用感知压缩模型基于以前的工作[2],由一个通过感知损失[3]和基于补丁的[4]对抗目标组合训练的自动编码器组成。这确保了通过强制执行局部真实感来将重建限制在图像流形中,并避免了仅依靠像素空间损失(如 L2 或 L1 物镜)而引入的模糊。为了避免任意高方差的潜在空间,尝试了两种不同类型的正则化。第一种变体KL-reg.对学习的潜在个体施加了对标准正态的轻微KL惩罚,类似于VAE,而VQ-reg 在解码器中使用矢量量化层。该模型可以解释为VQGAN,但量化层被解码器吸收。因为随后的 DM 被设计为学习到的潜在空间 z = E(x) 的二维结构,所以可以使用相对温和的压缩率并实现非常好的重建。这与以前的工作形成鲜明对比,后者依赖于学习空间z的任意一维排序来自动回归地模拟其分布,从而忽略了z的大部分固有结构。因此,该压缩模型可以更好地保留 x 的细节。

  • Latent Diffusion Models扩散模型是一种概率模型,旨在通过逐渐去噪正态分布变量来学习数据分布p(x),这对应于学习长度为T的固定马尔可夫链的反向过程。潜在表示的生成建模通过我们训练好的由 E 和 D 组成的感知压缩模型,因此可以访问一个高效的低维潜在空间,其中高频、难以察觉的细节被抽象出来。与高维像素空间相比,这个空间更适合基于似然的生成模型,因为它们现在可以 (i) 专注于数据的重要语义位,以及 (ii) 在较低维度、计算效率更高的空间中进行训练。与之前在高度压缩、离散的潜在空间中依赖自回归、基于注意力的转换器模型的工作不同,该工作使用的模型可以提供的特定于图像的感应偏差。这包括主要从2D卷积层构建底层UNet的能力,并使用重新加权的边界将目标进一步集中在感知上最相关的bits上
    在这里插入图片描述
    在这里插入图片描述

  • Conditioning Mechanisms:与其他类型的生成模型类似,扩散模型原则上能够模拟p(z|y)形式的条件分布。这可以通过条件去噪自动编码器来实现,并为通过输入y(如文本、语义图或其他图像到图像翻译任务)控制合成过程铺平了道路。该工作通过交叉注意力机制增强其底层UNet骨干,将DM转变为更灵活的条件图像生成器,这对于学习各种输入模式的基于注意力的模型是有效的。为了预处理来自各种模态(例如语言提示)的 y,引入了一个特定于域的编码器,它将 y 投射到中间表示,然后通过交叉注意力层实现,具体如图3所示。

实验

在这里插入图片描述
在这里插入图片描述

参考文献

[1] Jonathan Ho, Ajay Jain, and Pieter Abbeel. Denoising diffusion probabilistic models. In NeurIPS, 2020. 1, 2, 3, 4, 6, 14.

[2] Patrick Esser, Robin Rombach, and Bjorn Ommer. Taming transformers for high-resolution image synthesis. CoRR, abs/2012.09841, 2020. 2, 3, 4, 6, 7, 18, 19, 27, 32, 34

[3] Shengyu Zhao, Jianwei Cui, Yilun Sheng, Yue Dong, Xiao Liang, Eric I-Chao Chang, and Yan Xu. Large scale image completion via co-modulated generative adversarial networks. ArXiv, abs/2103.10428, 2021. 8

[4] Phillip Isola, Jun-Yan Zhu, Tinghui Zhou, and Alexei A. Efros. Image-to-image translation with conditional adversarial networks. In CVPR, ages 5967–5976. IEEE Computer Society, 2017. 3, 4

这篇关于【论文阅读】High-Resolution Image Synthesis with Latent Diffusion Model的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/776204

相关文章

Python利用qq邮箱发送通知邮件(已封装成model)

因为经常喜欢写一些脚本、爬虫之类的东西,有需要通知的时候,总是苦于没有太好的通知方式,虽然邮件相对于微信、短信来说,接收性差了一些,但毕竟免费,而且支持html直接渲染,所以,折腾了一个可以直接使用的sendemail模块。这里主要应用的是QQ发邮件,微信关注QQ邮箱后,也可以实时的接收到消息,肾好! 好了,废话不多说,直接上代码。 # encoding: utf-8import lo

1_Image和Matrix的使用

参考博文: https://www.cnblogs.com/bomo/archive/2013/03/28/2986573.html

【QML】用 Image(QQuickPaintedItem) 显示图片

大体功能: 频繁地往界面推送图片,帧率达到视频效果。捕获画布上的鼠标事件和键盘事件。 代码如下: // DrawImageInQQuickPaintedItem.pro 代码如下:QT += quick# You can make your code fail to compile if it uses deprecated APIs.# In order to do so, uncom

ssh在本地虚拟机中的应用——解决虚拟机中编写和阅读代码不方便问题的一个小技巧

虚拟机中编程小技巧分享——ssh的使用 事情的起因是这样的:前几天一位工程师过来我这边,他看到我在主机和虚拟机运行了两个vscode环境,不经意间提了句:“这么艰苦的环境写代码啊”。 后来我一想:确实。 我长时间以来都是直接在虚拟机里写的代码,但是毕竟是虚拟机嘛,有时候编辑器没那么流畅,在文件比较多的时候跳转很麻烦,容易卡住。因此,我当晚简单思考了一下,想到了一个可行的解决方法——即用ssh

康奈尔大学之论文审稿模型Reviewer2及我司七月对其的实现(含PeerRead)

前言 自从我司于23年7月开始涉足论文审稿领域之后「截止到24年6月份,我司的七月论文审稿GPT已经迭代到了第五版,详见此文的8.1 七月论文审稿GPT(从第1版到第5版)」,在业界的影响力越来越大,所以身边朋友如发现业界有相似的工作,一般都会第一时间发给我,比如本部分要介绍的康奈尔大学的reviewer2 当然,我自己也会各种看类似工作的论文,毕竟同行之间的工作一定会互相借鉴的,我们会学他们

芯片后端之 PT 使用 report_timing 产生报告如何阅读

今天,就PT常用的命令,做一个介绍,希望对大家以后的工作,起到帮助作用。 在PrimeTime中,使用report_timing -delay max命令生成此报告。switch -delay max表示定时报告用于设置(这是默认值)。 首先,我们整体看一下通过report_timing 运行之后,报告产生的整体样式。 pt_shell> report_timing -from start_

【论文精读】分类扩散模型:重振密度比估计(Revitalizing Density Ratio Estimation)

文章目录 一、文章概览(一)问题的提出(二)文章工作 二、理论背景(一)密度比估计DRE(二)去噪扩散模型 三、方法(一)推导分类和去噪之间的关系(二)组合训练方法(三)一步精确的似然计算 四、实验(一)使用两种损失对于实现最佳分类器的重要性(二)去噪结果、图像质量和负对数似然 论文:Classification Diffusion Models: Revitalizing

【python】python葡萄酒国家分布情况数据分析pyecharts可视化(源码+数据集+论文)【独一无二】

👉博__主👈:米码收割机 👉技__能👈:C++/Python语言 👉公众号👈:测试开发自动化【获取源码+商业合作】 👉荣__誉👈:阿里云博客专家博主、51CTO技术博主 👉专__注👈:专注主流机器人、人工智能等相关领域的开发、测试技术。 python葡萄酒国家分布情况数据分析pyecharts可视化(源码+数据集+论文)【独一无二】 目录 python葡

论文阅读--Efficient Hybrid Zoom using Camera Fusion on Mobile Phones

这是谷歌影像团队 2023 年发表在 Siggraph Asia 上的一篇文章,主要介绍的是利用多摄融合的思路进行变焦。 单反相机因为卓越的硬件性能,可以非常方便的实现光学变焦。不过目前的智能手机,受制于物理空间的限制,还不能做到像单反一样的光学变焦。目前主流的智能手机,都是采用多摄的设计,一般来说一个主摄搭配一个长焦,为了实现主摄与长焦之间的变焦,目前都是采用数字变焦的方式,数字变焦相比于光学

【LLM之KG】CoK论文阅读笔记

研究背景 大规模语言模型(LLMs)在许多自然语言处理(NLP)任务中取得了显著进展,特别是在零样本/少样本学习(In-Context Learning, ICL)方面。ICL不需要更新模型参数,只需利用几个标注示例就可以生成预测。然而,现有的ICL和链式思维(Chain-of-Thought, CoT)方法在复杂推理任务上仍存在生成的推理链常常伴随错误的问题,导致不真实和不可靠的推理结果。