[论文解析] Null-text Inversion for Editing Real Images using Guided Diffusion Models

本文主要是介绍[论文解析] Null-text Inversion for Editing Real Images using Guided Diffusion Models,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

在这里插入图片描述

使用引导扩散模型编辑真实图像的空文本反转

code links: https://null- textinversion.github.io/.

Abstract

在本文中,我们引入了一种精确的反演技术,从而方便了直观的基于文本的图像修改。

我们提出的反演包含两个新的关键组成部分:

  • (i)扩散模型的关键反演。我们为每个时间戳使用单个关键噪声向量,并围绕它进行优化。我们证明了直接反演本身是不够的,但确实为我们的优化提供了一个很好的锚定。
  • (ii)空文本优化,我们只修改用于无分类器引导的无条件文本嵌入,而不是输入文本嵌入。这允许保持模型权重和条件嵌入不变,因此可以应用基于提示的编辑,同时避免对模型权重进行繁琐的调优。

取得的效果: 在各种图像和提示编辑上进行了广泛的评估,显示了对真实图像的高保真编辑。

Introduction

在本文中,我们引入了一种有效的反演方案,实现了近乎完美的重构,同时保留了原始模型丰富的文本引导编辑能力(见图1)。我们的方法建立在对导扩散模型的两个关键方面的分析之上:无分类器制导和DDIM反演。

据我们所知,我们的方法是第一个在真实图像上启用Prompt-to-Prompt[16]文本编辑技术的方法。此外,与最近的方法不同[19,39],我们不调整模型权重,从而避免破坏训练模型的先验,并为每张图像复制整个模型。通过全面的消融研究和比较,我们展示了我们的关键组件对实现给定真实图像的高保真重建的贡献,同时允许有意义和直观的编辑能力。

Method

framework

在这里插入图片描述

  • 第一行:关键反转。我们首先对输入图像应用初始DDIM反演,估计扩散轨迹。 从最后一个潜在的z * T开始扩散过程会导致不满意的重建,因为潜在代码离原始轨迹越来越远。
  • 我们使用初始轨迹作为优化的枢轴,使扩散反向轨迹{* zt}T1更接近编码z * 0的原始图像。
  • 第二行:时间戳t的空文本优化。无分类器引导包括执行两次预测θ—使用文本条件嵌入和无条件使用空文本嵌入∅,然后,这些都是用w(中)的指导尺度外推的
  • 我们仅通过采用重建MSE损失(红色)来优化无条件嵌入∅t

使用我们的方法编辑真实图像。
在这里插入图片描述

  • 我们首先对真实输入图像应用一个空文本反转,实现高保真重建。
  • 然后,应用各种基于提示符到提示符的文本编辑操作。
  • 可以看出,我们的反转方案在保持高可编辑性的同时提供了高保真度。参见附录C(图10)中的其他示例。

我们的方法基于两个主要的观察结果:

  • DDIM反演在应用无分类器引导时重构效果不理想,但为优化提供了良好的起点,使我们能够高效地实现高保真反演。
  • 其次,优化用于无分类器引导的无条件空嵌入,允许精确的重建,同时避免模型和条件嵌入的调整。

3.1 background and preliminaries

文本引导扩散模型旨在将随机噪声向量zt和文本条件P映射到一个输出图像z0,该输出image z0对应于给定的条件提示符。为了实现序列去噪,训练网络εθ对人工噪声进行预测,遵循目标:
在这里插入图片描述
其中,在这里插入图片描述
是文本条件的嵌入。

在推断的时候:给定一个噪声向量zT,使用我们训练好的T步网络对噪声进行连续预测,从而逐步去除噪声。

采用the deterministic DDIM sampling [35]:
在这里插入图片描述

扩散模型通常在图像像素空间中运行,其中z0是实数图像的样本。

我们使用流行和公开的稳定扩散模型[30],其中扩散前向过程应用于潜在图像编码z0 = E(x0),扩散后向过程x0 = D(z0)的末端使用图像解码器。

Classifier-free guidance.

更正式地说,设∅= ψ(“”)为空文本的嵌入值,设w为引导尺度参数,则无分类器引导预测定义为:
在这里插入图片描述

DDIM inversion

ODE过程可以在小步骤的限制下进行反转:
在这里插入图片描述
换句话说,扩散过程以相反的方向进行,即z0→zT而不是zT→z0,其中z0设置为给定实像的编码。

3.2 Pivotal Inversion

特别是,我们的目标是围绕一个关键噪声向量进行优化,这是一个很好的近似,因此允许更有效的反演。

我们把这个w = 1的初始DDIM反转作为我们的枢轴轨迹

我们的优化最大化了与原始图像的相似性,同时保持我们执行有意义的编辑的能力。
在实践中,我们按照扩散过程t = t→t = 1的顺序对每个时间戳t执行单独的优化,目的是尽可能接近初始轨迹z * t,…, z * 0:
在这里插入图片描述

其中zt - 1为优化的中间结果。

3.3. Null-text optimization

我们利用了无分类器引导的关键特征-结果受到无条件预测的高度影响。因此,我们将默认的空文本嵌入替换为优化后的,叫做Null-text optimization。 即,对于每个输入图像,我们只优化无条件嵌入∅,初始化为空文本嵌入。模型和条件文本嵌入保持不变。
我们将优化单个无条件嵌入∅称为全局空文本优化。

对于每个时间步, 优化:
在这里插入图片描述
更新规则:
在这里插入图片描述

在这里插入图片描述

Experiments

在这里插入图片描述

  • 顶部:我们将我们的完整算法(绿线)与不同变体的性能进行比较,通过测量PSNR分数作为数量优化迭代的函数和运行时间(以分钟为单位)来评估重构质量。
  • 下:我们直观地展示了我们的完整算法经过200次迭代后的反演结果(在右边)与其他基线的比较。所有迭代的结果显示在附录B中(图13和14)。

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

这篇关于[论文解析] Null-text Inversion for Editing Real Images using Guided Diffusion Models的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/833142

相关文章

解析 XML 和 INI

XML 1.TinyXML库 TinyXML是一个C++的XML解析库  使用介绍: https://www.cnblogs.com/mythou/archive/2011/11/27/2265169.html    使用的时候,只要把 tinyxml.h、tinystr.h、tinystr.cpp、tinyxml.cpp、tinyxmlerror.cpp、tinyxmlparser.

SQL Server中,isnull()函数以及null的用法

SQL Serve中的isnull()函数:          isnull(value1,value2)         1、value1与value2的数据类型必须一致。         2、如果value1的值不为null,结果返回value1。         3、如果value1为null,结果返回vaule2的值。vaule2是你设定的值。        如

tf.split()函数解析

API原型(TensorFlow 1.8.0): tf.split(     value,     num_or_size_splits,     axis=0,     num=None,     name='split' ) 这个函数是用来切割张量的。输入切割的张量和参数,返回切割的结果。  value传入的就是需要切割的张量。  这个函数有两种切割的方式: 以三个维度的张量为例,比如说一

BD错误集锦3——ERROR: Can't get master address from ZooKeeper; znode data == null

hbase集群没启动,傻子!   启动集群 [s233 s234 s235]启动zk集群 $>zkServer.sh start $>zkServer.sh status   [s233] 启动dfs系统 $>start-dfs.sh 如果s237 namenode启动失败,则 [s237] $>hadoop-daemon.sh start namenode [s233]启动yarn集群

BD错误集锦1——[Hive]ERROR StatusLogger No log4j2 configuration file found. Using default configuration:

错误描述:在使用IDEA进行jdbc方式连接到hive数据仓库时,出现以下错误:                ERROR StatusLogger No log4j2 configuration file found. 问题原因:缺少log4j2.xml文件   <?xml version="1.0" encoding="UTF-8"?><Configuration><Appender

陀螺仪LSM6DSV16X与AI集成(8)----MotionFX库解析空间坐标

陀螺仪LSM6DSV16X与AI集成.8--MotionFX库解析空间坐标 概述视频教学样品申请源码下载开启CRC串口设置开启X-CUBE-MEMS1设置加速度和角速度量程速率选择设置FIFO速率设置FIFO时间戳批处理速率配置过滤链初始化定义MotionFX文件卡尔曼滤波算法主程序执行流程lsm6dsv16x_motion_fx_determin欧拉角简介演示 概述 本文将探讨

【文末附gpt升级秘笈】腾讯元宝AI搜索解析能力升级:千万字超长文处理的新里程碑

腾讯元宝AI搜索解析能力升级:千万字超长文处理的新里程碑 一、引言 随着人工智能技术的飞速发展,自然语言处理(NLP)和机器学习(ML)在各行各业的应用日益广泛。其中,AI搜索解析能力作为信息检索和知识抽取的核心技术,受到了广泛的关注和研究。腾讯作为互联网行业的领军企业,其在AI领域的探索和创新一直走在前列。近日,腾讯旗下的AI大模型应用——腾讯元宝,迎来了1.1.7版本的升级,新版本在AI搜

消息认证码解析

1. 什么是消息认证码         消息认证码(Message Authentication Code)是一种确认完整性并进行认证的技术,取三个单词的首字母,简称为MAC。         消息认证码的输入包括任意长度的消息和一个发送者与接收者之间共享的密钥,它可以输出固定长度的数据,这个数据称为MAC值。         根据任意长度的消息输出固定长度的数据,这一点和单向散列函数很类似

问题1,PE文件转到内存中出现解析PE不正确的问题

1,使用fopen(FileName, “r”) r的方式读取文件到内存,此时就可能存在问题了,r以只读方式,有时候不表示字符的有可能就不读了,那么内存中就不会是完整的原始文件。所以此时要采用rb,二进制读取的方式。 bool ReadFileToMem(char* FileName, char**buf) { FILE* f; f = fopen(FileName, “rb”); if

[大师C语言(第三十六篇)]C语言信号处理:深入解析与实战

引言 在计算机科学中,信号是一种软件中断,它允许进程之间或进程与内核之间进行通信。信号处理是操作系统中的一个重要概念,它允许程序对各种事件做出响应,例如用户中断、硬件异常和系统调用。C语言作为一门接近硬件的编程语言,提供了强大的信号处理能力。本文将深入探讨C语言信号处理的技术和方法,帮助读者掌握C语言处理信号的高级技巧。 第一部分:C语言信号处理基础 1.1 信号的概念 在Unix-lik