T2I-Adapter:学习适配器为文本到图像扩散模型挖掘更多可控能力

本文主要是介绍T2I-Adapter:学习适配器为文本到图像扩散模型挖掘更多可控能力,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

文章目录

  • 一、研究动机
  • 二、T2I-Adapter的特点
  • 三、模型方法
    • (一)关于stable diffusion
    • (二)适配器设计
      • 1、结构控制
      • 2、空间调色板
      • 3、多适配器控制
    • (三)模型优化
      • 训练期间的非均匀时间步采样


一、研究动机

  • T2I模型,也就是文本到图像模型(text-to-image model)具备强大的生成能力,能够学习到复杂的内部结构和语义信息。但是仅仅依靠文本提示并不能充分利用模型学到的知识,尤其是在需要灵活准确的控制(例如颜色和结构)时。

文本很难为图像合成提供结构指导,导致在一些复杂场景下结果随机且不稳定。这并不是由于生成能力差,而是因为文本无法提供准确的生成指导以充分将 SD 的内部知识与外部控制相结合。
在这里插入图片描述

  • 因此文章提出了 T2I-Adapter,这是一种简单而小型的模型,可以为预训练的文本到图像(T2I)模型提供额外的指导,同时不影响其原始网络拓扑和生成能力。

借助 T2I-Adapter,我们可以生成原始 T2I 模型(例如stable diffusion)难以准确生成的更具想象力的结果。可以使用各种指导,例如颜色、深度、草图、语义分割和关键姿势。我们可以使用 T2I-Adapter 进一步实现本地编辑和可组合指导。
在这里插入图片描述

二、T2I-Adapter的特点

  • 即插即用:不会影响现有 T2I 扩散模型(例如稳定扩散)的原始网络拓扑和生成能力。
  • 简单、小型:可以轻松地插入到现有的 T2I 扩散模型中,训练成本较低,并且在扩散过程中只需要一次推理。它们是轻量级的,具有 ∼ 77 M 参数和 ∼ 300 M 存储空间。
  • 灵活性:可以针对不同的控制条件训练各种适配器,包括空间颜色控制和精细结构控制。
  • 可组合:可以方便地组合多个适配器来实现多条件控制。
  • 可推广:经过训练后,只要从相同的 T2I 模型进行微调,它们就可以直接用于自定义模型。
    在这里插入图片描述

三、模型方法

(一)关于stable diffusion

Stable Diffusion 是一个两阶段扩散模型,包含一个自动编码器和一个 UNet 降噪器。在第一阶段,SD 训练了一个自动编码器,它可以将图像 X0 转换为潜在空间,然后重建它们。在第二阶段,SD训练了一个改进的UNet降噪器来直接在潜在空间中执行降噪。

SD的优化过程:

  • Z t Z_t Zt表示第 t 步的噪声特征图
  • C代表条件信息
  • θ指的是UNet降噪器的函数
    在这里插入图片描述

在推理过程中, 输入潜在图 Z T Z_T ZT 由随机高斯分布生成。给定 Z T Z_T ZT ϵ θ \epsilon_θ ϵθ 在每个步骤 t以 C 为条件 预测噪声估计。通过减去它,噪声特征图变得逐渐清晰。经过 T 次迭代后,最终结果 Z 0 Z_0 Z0作为干净的潜在特征,被输入到自动编码器的解码器中以执行图像生成。

在条件部分, SD 利用预先训练的 CLIP 文本编码器将文本输入嵌入到标记 y 的序列中。然后利用交叉注意力模型将 y 结合到去噪过程中:

在这里插入图片描述

(二)适配器设计

T2I 适配器由四个特征提取块和三个用于改变特征分辨率的下采样块组成。
在这里插入图片描述
原始条件输入的分辨率为512×512,利用像素 unshuffle 操作将其下采样到 64 × 64。在每个尺度中,利用一个卷积层和两个残差块(RB)来提取条件特征 Fck。最终形成多尺度条件特征Fc = {Fc1, Fc2, Fc3, Fc4}。注意,Fc的维度与UNet降噪器的编码器中的中间特征Fenc = {Fe1nc, Fe2nc, Fe3nc, Fe4nc}相同。然后在每个尺度上添加 Fc 和 Fenc。
在这里插入图片描述

1、结构控制

T2I-Adapter 具有良好的泛化性,可以支持各种结构控制,包括草图、深度图、语义分割图和关键姿势。这些模式的条件图直接输入到特定于任务的适配器中以提取条件特征Fc。
在这里插入图片描述

2、空间调色板

除了结构之外,颜色也是图像的基本组成部分,主要涉及两个方面:色调和空间分布。文章设计了一个空间调色板来粗略地控制生成图像的色调和颜色分布

  • 文章使用了高双三次下采样来去除图像的语义和结构信息,同时保留足够的颜色信息。
  • 然后应用最近的上采样来恢复图像的原始大小。
  • 最后,色调和颜色分布由几个空间排列的色块来表示。
    根据经验,文章利用 64× 下采样和上采样来完成这个过程。训练过程利用颜色图作为C,通过FAD生成Fc。

3、多适配器控制

除了使用单个适配器作为条件外,T2I 适配器还支持多个条件。此策略不需要额外的培训。从数学上讲,这个过程可以定义为:
在这里插入图片描述

(三)模型优化

优化时固定SD中的参数,只优化T2I适配器。每个训练样本都是一个三元组,包括原始图像 X 0 X_0 X0、条件图 C C C和文本提示 y y y。优化过程与SD类似。具体来说,给定图像 X 0 X_0 X0,首先通过自动编码器的编码器将其嵌入到潜在空间 Z 0 Z_0 Z0。然后从 [ 0 , T ] [0, T ] [0,T] 中随机采样一个时间步 t t t,并将相应的噪声添加到 Z 0 Z_0 Z0,产生 Z t Z_t Zt。从数学上讲,我们的 T2I 适配器通过以下方式进行优化:
在这里插入图片描述

训练期间的非均匀时间步采样

扩散模型中的时间嵌入是采样的重要条件。如果将时间嵌入引入适配器,能够增强其引导能力,但是这种设计需要适配器参与每次迭代,进而使得适配器不再轻量化。因此文章采用了合适的训练策略来弥补这个弱点:

  • 将DDIM推理采样平均分为3个阶段,即开始、中期和后期。
  • 向三个阶段中的每个阶段添加指导信息。可以发现中后期添加引导对结果影响不大。表明生成结果的主要内容是在早期采样阶段就确定的。因此,如果t是从后面的部分采样的,则在训练期间将忽略指导信息。

因此,为了加强adapter的训练,采用非均匀采样来增加采样早期t下降的概率。这里,文章利用三次函数(即 t = ( 1 − ( t T ) 3 ) × T , t ∈ U ( 0 , T ) t = (1 − ( \frac{t} {T} )^3) × T, t ∈ U (0, T ) t=(1(Tt)3)×T,tU(0,T))作为 t 的分布。

在这里插入图片描述

均匀采样和三次采样的比较如下图所示,包括颜色引导和关键姿势引导。可以发现t的均匀采样存在指导性弱的问题,尤其是在颜色控制方面。三次采样策略可以纠正这个弱点。
在这里插入图片描述

这篇关于T2I-Adapter:学习适配器为文本到图像扩散模型挖掘更多可控能力的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/928715

相关文章

Golang的CSP模型简介(最新推荐)

《Golang的CSP模型简介(最新推荐)》Golang采用了CSP(CommunicatingSequentialProcesses,通信顺序进程)并发模型,通过goroutine和channe... 目录前言一、介绍1. 什么是 CSP 模型2. Goroutine3. Channel4. Channe

基于WinForm+Halcon实现图像缩放与交互功能

《基于WinForm+Halcon实现图像缩放与交互功能》本文主要讲述在WinForm中结合Halcon实现图像缩放、平移及实时显示灰度值等交互功能,包括初始化窗口的不同方式,以及通过特定事件添加相应... 目录前言初始化窗口添加图像缩放功能添加图像平移功能添加实时显示灰度值功能示例代码总结最后前言本文将

通过C#获取PDF中指定文本或所有文本的字体信息

《通过C#获取PDF中指定文本或所有文本的字体信息》在设计和出版行业中,字体的选择和使用对最终作品的质量有着重要影响,然而,有时我们可能会遇到包含未知字体的PDF文件,这使得我们无法准确地复制或修改文... 目录引言C# 获取PDF中指定文本的字体信息C# 获取PDF文档中用到的所有字体信息引言在设计和出

Python基于火山引擎豆包大模型搭建QQ机器人详细教程(2024年最新)

《Python基于火山引擎豆包大模型搭建QQ机器人详细教程(2024年最新)》:本文主要介绍Python基于火山引擎豆包大模型搭建QQ机器人详细的相关资料,包括开通模型、配置APIKEY鉴权和SD... 目录豆包大模型概述开通模型付费安装 SDK 环境配置 API KEY 鉴权Ark 模型接口Prompt

Java操作xls替换文本或图片的功能实现

《Java操作xls替换文本或图片的功能实现》这篇文章主要给大家介绍了关于Java操作xls替换文本或图片功能实现的相关资料,文中通过示例代码讲解了文件上传、文件处理和Excel文件生成,需要的朋友可... 目录准备xls模板文件:template.xls准备需要替换的图片和数据功能实现包声明与导入类声明与

python解析HTML并提取span标签中的文本

《python解析HTML并提取span标签中的文本》在网页开发和数据抓取过程中,我们经常需要从HTML页面中提取信息,尤其是span元素中的文本,span标签是一个行内元素,通常用于包装一小段文本或... 目录一、安装相关依赖二、html 页面结构三、使用 BeautifulSoup javascript

HarmonyOS学习(七)——UI(五)常用布局总结

自适应布局 1.1、线性布局(LinearLayout) 通过线性容器Row和Column实现线性布局。Column容器内的子组件按照垂直方向排列,Row组件中的子组件按照水平方向排列。 属性说明space通过space参数设置主轴上子组件的间距,达到各子组件在排列上的等间距效果alignItems设置子组件在交叉轴上的对齐方式,且在各类尺寸屏幕上表现一致,其中交叉轴为垂直时,取值为Vert

Ilya-AI分享的他在OpenAI学习到的15个提示工程技巧

Ilya(不是本人,claude AI)在社交媒体上分享了他在OpenAI学习到的15个Prompt撰写技巧。 以下是详细的内容: 提示精确化:在编写提示时,力求表达清晰准确。清楚地阐述任务需求和概念定义至关重要。例:不用"分析文本",而用"判断这段话的情感倾向:积极、消极还是中性"。 快速迭代:善于快速连续调整提示。熟练的提示工程师能够灵活地进行多轮优化。例:从"总结文章"到"用

大模型研发全揭秘:客服工单数据标注的完整攻略

在人工智能(AI)领域,数据标注是模型训练过程中至关重要的一步。无论你是新手还是有经验的从业者,掌握数据标注的技术细节和常见问题的解决方案都能为你的AI项目增添不少价值。在电信运营商的客服系统中,工单数据是客户问题和解决方案的重要记录。通过对这些工单数据进行有效标注,不仅能够帮助提升客服自动化系统的智能化水平,还能优化客户服务流程,提高客户满意度。本文将详细介绍如何在电信运营商客服工单的背景下进行

基于人工智能的图像分类系统

目录 引言项目背景环境准备 硬件要求软件安装与配置系统设计 系统架构关键技术代码示例 数据预处理模型训练模型预测应用场景结论 1. 引言 图像分类是计算机视觉中的一个重要任务,目标是自动识别图像中的对象类别。通过卷积神经网络(CNN)等深度学习技术,我们可以构建高效的图像分类系统,广泛应用于自动驾驶、医疗影像诊断、监控分析等领域。本文将介绍如何构建一个基于人工智能的图像分类系统,包括环境