论文阅读：《High-Resolution Image Synthesis with Latent Diffusion Models》

2024-02-26 17:12

文章标签 阅读论文 image models diffusion high resolution synthesis latent

本文主要是介绍论文阅读：《High-Resolution Image Synthesis with Latent Diffusion Models》，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

High-Resolution Image Synthesis with Latent Diffusion Models

论文链接
代码链接

What’s the problem addressed in the paper?(这篇文章究竟讲了什么问题？比方说一个算法，它的 input 和 output 是什么？问题的条件是什么)

这篇文章提出了一种合成高分辨率图片的潜在空间扩散模型（LDM），解决了在像素空间中优化Diffusion Models时面临的高计算开销问题。

Is it a new problem? If it is a new problem, why does it matters? 新问题的话有意义吗？重要吗？ If it is not an entirely new problem, why does it still matter? 为什么要研究这个问题/为什么这个问题是重要的

不是新问题，但是仍然很重要
因为在高分辨率图片数据上进行训练时梯度的计算量很大，而现有的采样和层级化策略无法解决这个问题。

What is the scientific hypothesis that the paper is trying to verify? 这篇文章觉得自己发现了什么新的知识？

在一个压缩的潜在空间（compressed latent space）上优化的一个潜在扩散模型，可以高效和低开销地合成高分辨率的图片，在和cross-attention机制结合后，LDM可以有效应用于条件生成任务，包括文本生成图片等任务。

What are the key related works and what are the key people working in this topic?

Diffusion Models（DMs) & UNet:
Jascha Sohl-Dickstein, Eric A. Weiss, Niru Maheswaranathan, and Surya Ganguli. Deep unsupervised learning using nonequilibrium thermodynamics. CoRR, abs/1503.03585, 2015.
cross attentions
Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N. Gomez, Lukasz Kaiser, and Illia Polosukhin. Attention is all you need. In NIPS, pages 5998–6008, 2017
UNet:
Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N. Gomez, Lukasz Kaiser, and Illia Polosukhin. Attention is all you need. In NIPS, pages 5998–6008, 2017
image compression
Patrick Esser, Robin Rombach, and Bj¨orn Ommer. Taming transformers for high-resolution image synthesis. CoRR,abs/2012.09841, 2020

What’s the key of the proposed solution in the paper? 所提解决方案的关键

将在像素空间上优化扩散模型转变为在一个低维潜在空间上优化模型

How are experiment designed?

1、分析不同downsampling factors f 对LDMs性能的影响，包括FID，IS等指标（On Perceptual Compression Tradeoffs）
2、无条件图片合成评估：在不同数据集上，像素空间上训练的DMs和LDM在图片质量（FID）和有效性（Precision和Recall）上进行比较（Image Generation with Latent Diffusion）
3、条件图片合成评估（text-to-image, class-to-image, layout-to-image, image-to-image)（Conditional Latent Diffusion）

文生图

4、超分辨率图片合成（在低分辨率数据集上训练的模型可以生成高分辨率图片）（Super-Resolution with Latent Diffusion）
5、图片修复任务（Inpainting with Latent Diffusion）

What datasets are used for quantatitiave evaluation? Is the code open sourced?

数据集：unconditional：CelebA-HQ [39], FFHQ [41], LSUN-Churches and Bedrooms [102]，and ImageNet [12]；conditional：LAION-400M [78]
评估标准：FID、IS、Precision-and-Recall等
代码：https://github.com/CompVis/latent-diffusion
基准方法

Is the scientific hypothesis well supported by evidence in the experiments?

是。LDM相较于像素空间训练的DMs，大大降低了计算开销，并且在无条件和条件图片合成任务中表现得更好。

What are the contributions of this paper? （try to summarize in your own words)

压缩的低维度潜在空间相较于像素空间，在高分辨率图片合成时更能减少计算和时空开销，同时保证图片质量
潜在扩散模型（LDM）能够在多种图片合成任务上取得优异的变现（包括无条件和条件生成）
开源可复用的代码

What should do next? 这篇文章局限性在哪里，接着它还能怎么做？

尽管LDM比基于像素空间的DMs减少了很多计算开销，但是它的序列采样过程仍然比GAN慢
LDM在像素空间上需要高细粒度精度的任务，LDM仍然存在不足

这篇关于论文阅读：《High-Resolution Image Synthesis with Latent Diffusion Models》的文章就介绍到这儿，希望我们推荐的文章对编程师们有所帮助！

http://www.chinasem.cn/article/749581。 23002807@qq.com

相关文章

JAVA智听未来一站式有声阅读平台听书系统小程序源码

JAVA智听未来一站式有声阅读平台听书系统小程序源码

智听未来，一站式有声阅读平台听书系统 🌟 开篇：遇见未来，从“智听”开始在这个快节奏的时代，你是否渴望在忙碌的间隙，找到一片属于自己的宁静角落？是否梦想着能随时随地，沉浸在知识的海洋，或是故事的奇幻世界里？今天，就让我带你一起探索“智听未来”——这一站式有声阅读平台听书系统，它正悄悄改变着我们的阅读方式，让未来触手可及！ 📚 第一站：海量资源，应有尽有走进“智听

阅读更多...

AI hospital 论文Idea

AI hospital 论文Idea

一、Benchmarking Large Language Models on Communicative Medical Coaching: A Dataset and a Novel System论文地址含代码大多数现有模型和工具主要迎合以患者为中心的服务。这项工作深入探讨了LLMs在提高医疗专业人员的沟通能力。目标是构建一个模拟实践环境，人类医生（即医学学习者）可以在其中与患者代理进行医学

阅读更多...

论文翻译：arxiv-2024 Benchmark Data Contamination of Large Language Models: A Survey

论文翻译：arxiv-2024 Benchmark Data Contamination of Large Language Models: A Survey

Benchmark Data Contamination of Large Language Models: A Survey https://arxiv.org/abs/2406.04244 大规模语言模型的基准数据污染：一项综述文章目录大规模语言模型的基准数据污染：一项综述摘要1 引言摘要大规模语言模型（LLMs），如GPT-4、Claude-3和Gemini的快

阅读更多...

论文阅读笔记: Segment Anything

论文阅读笔记: Segment Anything

文章目录 Segment Anything摘要引言任务模型数据引擎数据集负责任的人工智能 Segment Anything Model图像编码器提示编码器mask解码器解决歧义损失和训练 Segment Anything 论文地址: https://arxiv.org/abs/2304.02643 代码地址:https://github.com/facebookresear

阅读更多...

论文翻译：ICLR-2024 PROVING TEST SET CONTAMINATION IN BLACK BOX LANGUAGE MODELS

论文翻译：ICLR-2024 PROVING TEST SET CONTAMINATION IN BLACK BOX LANGUAGE MODELS

PROVING TEST SET CONTAMINATION IN BLACK BOX LANGUAGE MODELS https://openreview.net/forum?id=KS8mIvetg2 验证测试集污染在黑盒语言模型中文章目录验证测试集污染在黑盒语言模型中摘要1 引言摘要大型语言模型是在大量互联网数据上训练的，这引发了人们的担忧和猜测，即它们可能已

阅读更多...

lvgl8.3.6 控件垂直布局 label控件在image控件的下方显示

lvgl8.3.6 控件垂直布局 label控件在image控件的下方显示

在使用 LVGL 8.3.6 创建一个垂直布局，其中 label 控件位于 image 控件下方，你可以使用 lv_obj_set_flex_flow 来设置布局为垂直，并确保 label 控件在 image 控件后添加。这里是如何步骤性地实现它的一个基本示例：创建父容器：首先创建一个容器对象，该对象将作为布局的基础。设置容器为垂直布局：使用 lv_obj_set_flex_flow 设置容器

阅读更多...

OmniGlue论文详解（特征匹配）

OmniGlue论文详解（特征匹配）

OmniGlue论文详解（特征匹配）摘要1. 引言2. 相关工作2.1. 广义局部特征匹配2.2. 稀疏可学习匹配2.3. 半稠密可学习匹配2.4. 与其他图像表示匹配 3. OmniGlue3.1. 模型概述3.2. OmniGlue 细节3.2.1. 特征提取3.2.2. 利用DINOv2构建图形。3.2.3. 信息传播与新的指导3.2.4. 匹配层和损失函数3.2.5. 与Super

阅读更多...

软件架构模式：5 分钟阅读

软件架构模式：5 分钟阅读

原文： https://orkhanscience.medium.com/software-architecture-patterns-5-mins-read-e9e3c8eb47d2 软件架构模式：5 分钟阅读当有人潜入软件工程世界时，有一天他需要学习软件架构模式的基础知识。当我刚接触编码时，我不知道从哪里获得简要介绍现有架构模式的资源，这样它就不会太详细和混乱，而是非常抽象和易

阅读更多...

BERT 论文逐段精读【论文精读】

BERT 论文逐段精读【论文精读】

BERT: 近 3 年 NLP 最火 CV: 大数据集上的训练好的 NN 模型，提升 CV 任务的性能 —— ImageNet 的 CNN 模型 NLP: BERT 简化了 NLP 任务的训练，提升了 NLP 任务的性能 BERT 如何站在巨人的肩膀上的？使用了哪些 NLP 已有的技术和思想？哪些是 BERT 的创新？ 1标题 + 作者 BERT: Pre-trainin

阅读更多...

[论文笔记]LLM.int8(): 8-bit Matrix Multiplication for Transformers at Scale

[论文笔记]LLM.int8(): 8-bit Matrix Multiplication for Transformers at Scale

引言今天带来第一篇量化论文LLM.int8(): 8-bit Matrix Multiplication for Transformers at Scale笔记。为了简单，下文中以翻译的口吻记录，比如替换"作者"为"我们"。大语言模型已被广泛采用，但推理时需要大量的GPU内存。我们开发了一种Int8矩阵乘法的过程，用于Transformer中的前馈和注意力投影层，这可以将推理所需

阅读更多...