清华团队新作 | 从Text-to-Image扩散模型中提取表征,服务下游任务

本文主要是介绍清华团队新作 | 从Text-to-Image扩散模型中提取表征,服务下游任务,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

文章标题:Unleashing Text-to-Image Diffusion Models for Visual Perception
代码地址:地址
文章地址:http://arxiv.org/abs/2303.02153

摘要

扩散模型(Diffusion Models,DMs)已成为生成模型的新趋势,并表现出强大的条件合成能力。其中,在大规模图文对上预训练的文本到图像扩散模型通过可定制的提示高度可控。与关注低层属性和细节的无条件生成模型不同,得益于视觉语言预训练,文本到图像的扩散模型包含了更多的高层知识。在本文中,我们提出了VPD (带有预训练扩散模型的视觉感知),一个在视觉感知任务中利用预训练的文本到图像扩散模型的语义信息的新框架。我们没有在基于扩散的pipeline中使用预训练的去噪自动编码器,而是简单地将其作为主干,旨在研究如何充分利用所学知识。具体来说,我们使用适当的文本输入提示去噪解码器,并使用适配器细化文本特征,从而更好地与预训练阶段对齐,并使视觉内容与文本提示进行交互。我们还提出利用视觉特征和文本特征之间的交叉注意力映射来提供显式的指导。与其他预训练方法相比,我们表明视觉语言预训练的扩散模型可以更快地适应下游的视觉感知任务。在语义分割、参考图像分割和深度估计上的大量实验证明了我们方法的有效性。值得注意的是,VPD在NYUv2深度估计上达到了0.254的RMSE,在RefCOCOval参考图像分割上达到了73.3 % oIoU,在这两个基准上都创下了新的记录。

引言

**背景:**大规模文本到图像的扩散模型能够生成纹理丰富、内容多样、结构合理的高质量图像,同时具有可组合、可编辑的语义。这一现象潜在地表明,大型文本-图像扩散模型可以从海量的图像-文本对中隐式地学习高层和低层视觉概念。同时,一些研究也表明:在文本到图像扩散模型中,文本中潜在的视觉特征和对应的单词之间存在明显的相关性

难点:传统的视觉预训练方法和文本到图像的模型有区别。

传统的视觉预训练方法旨在将输入图像编码为潜在的表示,并在分类和视觉语言任务中使用对比学习和掩蔽图像建模等假设性任务或大量标注来学习表示。预训练过程使得学习到的潜在表示自然适用于一系列视觉感知任务,因为语义知识是从原始图像中提取的。

文本到图像的模型旨在基于文本提示生成高保真图像。文本到图像的扩散模型将随机噪声和文本提示作为输入,通过渐进的去噪过程生成图像。尽管在大型扩散模型中学习到了丰富的表征,但是对于各种视觉感知任务如何提取这些知识,以及是否能对视觉感知有利,仍然是未知的

本文方向:本文研究如何利用从文本到图像中学习到的知识进行视觉感知

在扩散模型上使用迁移学习的两个难点

(1)扩散模型的pipeline与视觉感知任务之间的不兼容性

(2)UNet-like扩散模型与流行视觉骨架之间的架构差异。

本文研究重点:使用在文本生成高清图像上预训练的去噪自动编码器作为主干,研究如何充分利用学习到的高层和低层知识

解决办法

(1)不使用分步扩散pipeline,而是简单地使用自动编码器作为骨干模型直接使用没有噪声的自然图像,并通过设计prompt执行一个额外的去噪步骤来提取语义信息。

(2)为了与预训练阶段保持一致,并促进视觉内容和文本提示之间的交互,使用适当的文本输入来提示去噪扩散模型,并使用适配器来优化文本特征。

(3)受先前扩散模型中提示词与视觉模式关系研究的启发,提出利用视觉和文本特征之间的交叉注意力映射来提供显式的指导

主要的idea如图所示:

在这里插入图片描述

方法

整体框架为:

在这里插入图片描述

Prompting Text-to-Image Diffusion Model

说明:使用eθ表示一个自动编码器(通常是UNet结构)

对于文本到图像模型,文章认为,由于预训练过程中对自然语言的监督较弱,因此有足够的高级知识

一般的感知任务旨在对分布p(y|x)进行建模,其中y为任务特定标签,x为输入图像。

目标:充分挖掘训练有素的文本条件eθ的知识,并将学习到的知识迁移到下游的视觉感知任务中。

基本思想:在任务特定的标签和自然语言之间建立联系,使得学习到的语义信息能够被高效地提取出来。

预测模型定义
在这里插入图片描述
解释:

(1)p(C|S)负责从类名中提取文本特征。本文使用相同的CLIP文本编码器作为Stable Diffusion的预训练阶段,文本输入使用" a photo of a [CLS] "模板简单定义。将文本编码器转移到下游任务时,通常会出现域gap。对此,受[3]的启发,本文使用一个作为两层MLP实现的文本适配器来细化CLIP文本编码器得到的文本特征。总体流程如下:

在这里插入图片描述

其中T表示对类名集合应用提示模板生成的原始文本。r是一个可学习的因子,初始化为非常小。这种设计可以帮助我们最大限度地保留文本编码器的预训练知识,同时缓解预训练任务与下游任务之间的领域鸿沟

需要注意:不同于CLIP文本编码器使用整个句子的特征,我们简单地使用来自[EOS]标记的特征

(2)p(F|x,C)目的是在给定输入图像x和条件输入C的情况下,提取分层特征图F。本文首先使用VQGAN(简写为E)的编码器将图像编码到潜在空间(z0=E(x)),然后将潜在特征图和条件输入输入到预训练的eθ网络。

分层特征F可以从不同分辨率的每个输出块的最后一层获得,输入图像大小为512 × 512,F包含4个特征图,空间大小具体如下:

在这里插入图片描述
(3)p(y|F)它是由分层特征图F生成结果的预测头。它的组成为语义FPN(特征金字塔),由多个卷积层和上采样层组成。

文章还指出,它的方法不再是基于扩散的框架,因为我们只使用单个UNet作为主干。

Semantic Guidance via Cross-attention

在训练好的文本到图像扩散模型中,**特征图与条件文本特征之间的交叉注意力图具有很好的局部性。**这一良好的性质促使文章利用交叉注意力图来明确地促进下游的视觉感知。

交叉注意力操作存在于eθ网络的4种分辨率中。对于第i个分辨率,我们可以简单地将所有属于该分辨率的交叉注意力图进行平均,得到平均后的图Ai。注意力图使用条件输入C作为key和value的。

平均的交叉注意力图是有用的,因为它的每个通道都聚集了某个类别的一些语义信息。然后,我们可以将平均后的交叉注意力图与原始的层次特征图进行拼接,并将结果反馈给预测头Fi←[Fi,Ai]。

文章不使用最低分辨率的交叉注意力图,因为它们不是非常准确。

通过实验发现,通过交叉注意进行显性语义引导可以帮助我们的模型更快地适应下游任务

实验

实验设置

在训练时固定了VQGAN编码器E和CLIP文本编码器。我们总是将eθ的学习率设置为基学习率的1 / 10。文本适配器采用r = 1e - 4。

不同任务上的设置可以详细看论文。

实验结果

语义分割上不同方法的比较:
在这里插入图片描述
在这里插入图片描述
Referring image segmentation旨在从一幅图像中找到给定自然语言表达的相关对象。它的实验比较如下:
在这里插入图片描述

深度估计:

在这里插入图片描述

使用了已发布的1-5版本的"Stable-Diffusion"(简称SD-1-5)。以下结果表明,更长的预训练在下游任务产生更好的效果。

在这里插入图片描述

不足

虽然本文的方法表现出了令人满意的性能,但VPD的计算成本目前相对较高。eθ的高计算成本在我们当前的框架下无法解决。

结论

在本文中,我们提出了一个名为VPD的新框架,将预训练的文本到图像扩散模型的高级知识迁移到下游任务中。我们提出了几种设计来鼓励视觉-语言对齐,并隐式和显式地提示预训练模型。在语义分割、参考图像分割和深度估计上的大量实验证了VPD可以实现更好的性能且与各种视觉预训练范式的方法相比,表现出更快的收敛速度。我们也相信除了扩散模型,文本引导的生成模型也可以适用于VPD,这也是我们留给未来工作的方向。我们期望我们的努力能够揭示生成性文本到图像的预训练在视觉感知中的重要作用,为视觉生成和感知任务的统一迈出一步

参考文献

[1]Alec Radford, Jong Wook Kim, Chris Hallacy, Aditya Ramesh, Gabriel Goh, Sandhini Agarwal, Girish Sastry, Amanda Askell, Pamela Mishkin, Jack Clark, et al. Learning transferable visual models from natural language supervision. In ICML, pages 8748–8763. PMLR, 2021. 4

[2]Robin Rombach, Andreas Blattmann, Dominik Lorenz, Patrick Esser, and Bj ̈ orn Ommer. High-resolution image synthesis with latent diffusion models. In CVPR, pages 1068410695, 2022. 1, 2, 4

[3]Peng Gao, Shijie Geng, Renrui Zhang, Teli Ma, Rongyao Fang, Yongfeng Zhang, Hongsheng Li, and Yu Qiao. Clip-adapter: Better vision-language models with feature adapters. arXiv preprint arXiv:2110.04544, 2021. 4

这篇关于清华团队新作 | 从Text-to-Image扩散模型中提取表征,服务下游任务的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/202399

相关文章

大模型研发全揭秘:客服工单数据标注的完整攻略

在人工智能(AI)领域,数据标注是模型训练过程中至关重要的一步。无论你是新手还是有经验的从业者,掌握数据标注的技术细节和常见问题的解决方案都能为你的AI项目增添不少价值。在电信运营商的客服系统中,工单数据是客户问题和解决方案的重要记录。通过对这些工单数据进行有效标注,不仅能够帮助提升客服自动化系统的智能化水平,还能优化客户服务流程,提高客户满意度。本文将详细介绍如何在电信运营商客服工单的背景下进行

Andrej Karpathy最新采访:认知核心模型10亿参数就够了,AI会打破教育不公的僵局

夕小瑶科技说 原创  作者 | 海野 AI圈子的红人,AI大神Andrej Karpathy,曾是OpenAI联合创始人之一,特斯拉AI总监。上一次的动态是官宣创办一家名为 Eureka Labs 的人工智能+教育公司 ,宣布将长期致力于AI原生教育。 近日,Andrej Karpathy接受了No Priors(投资博客)的采访,与硅谷知名投资人 Sara Guo 和 Elad G

Retrieval-based-Voice-Conversion-WebUI模型构建指南

一、模型介绍 Retrieval-based-Voice-Conversion-WebUI(简称 RVC)模型是一个基于 VITS(Variational Inference with adversarial learning for end-to-end Text-to-Speech)的简单易用的语音转换框架。 具有以下特点 简单易用:RVC 模型通过简单易用的网页界面,使得用户无需深入了

【区块链 + 人才服务】可信教育区块链治理系统 | FISCO BCOS应用案例

伴随着区块链技术的不断完善,其在教育信息化中的应用也在持续发展。利用区块链数据共识、不可篡改的特性, 将与教育相关的数据要素在区块链上进行存证确权,在确保数据可信的前提下,促进教育的公平、透明、开放,为教育教学质量提升赋能,实现教育数据的安全共享、高等教育体系的智慧治理。 可信教育区块链治理系统的顶层治理架构由教育部、高校、企业、学生等多方角色共同参与建设、维护,支撑教育资源共享、教学质量评估、

透彻!驯服大型语言模型(LLMs)的五种方法,及具体方法选择思路

引言 随着时间的发展,大型语言模型不再停留在演示阶段而是逐步面向生产系统的应用,随着人们期望的不断增加,目标也发生了巨大的变化。在短短的几个月的时间里,人们对大模型的认识已经从对其zero-shot能力感到惊讶,转变为考虑改进模型质量、提高模型可用性。 「大语言模型(LLMs)其实就是利用高容量的模型架构(例如Transformer)对海量的、多种多样的数据分布进行建模得到,它包含了大量的先验

图神经网络模型介绍(1)

我们将图神经网络分为基于谱域的模型和基于空域的模型,并按照发展顺序详解每个类别中的重要模型。 1.1基于谱域的图神经网络         谱域上的图卷积在图学习迈向深度学习的发展历程中起到了关键的作用。本节主要介绍三个具有代表性的谱域图神经网络:谱图卷积网络、切比雪夫网络和图卷积网络。 (1)谱图卷积网络 卷积定理:函数卷积的傅里叶变换是函数傅里叶变换的乘积,即F{f*g}

秋招最新大模型算法面试,熬夜都要肝完它

💥大家在面试大模型LLM这个板块的时候,不知道面试完会不会复盘、总结,做笔记的习惯,这份大模型算法岗面试八股笔记也帮助不少人拿到过offer ✨对于面试大模型算法工程师会有一定的帮助,都附有完整答案,熬夜也要看完,祝大家一臂之力 这份《大模型算法工程师面试题》已经上传CSDN,还有完整版的大模型 AI 学习资料,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

【生成模型系列(初级)】嵌入(Embedding)方程——自然语言处理的数学灵魂【通俗理解】

【通俗理解】嵌入(Embedding)方程——自然语言处理的数学灵魂 关键词提炼 #嵌入方程 #自然语言处理 #词向量 #机器学习 #神经网络 #向量空间模型 #Siri #Google翻译 #AlexNet 第一节:嵌入方程的类比与核心概念【尽可能通俗】 嵌入方程可以被看作是自然语言处理中的“翻译机”,它将文本中的单词或短语转换成计算机能够理解的数学形式,即向量。 正如翻译机将一种语言

AI Toolkit + H100 GPU,一小时内微调最新热门文生图模型 FLUX

上个月,FLUX 席卷了互联网,这并非没有原因。他们声称优于 DALLE 3、Ideogram 和 Stable Diffusion 3 等模型,而这一点已被证明是有依据的。随着越来越多的流行图像生成工具(如 Stable Diffusion Web UI Forge 和 ComyUI)开始支持这些模型,FLUX 在 Stable Diffusion 领域的扩展将会持续下去。 自 FLU

【区块链 + 人才服务】区块链集成开发平台 | FISCO BCOS应用案例

随着区块链技术的快速发展,越来越多的企业开始将其应用于实际业务中。然而,区块链技术的专业性使得其集成开发成为一项挑战。针对此,广东中创智慧科技有限公司基于国产开源联盟链 FISCO BCOS 推出了区块链集成开发平台。该平台基于区块链技术,提供一套全面的区块链开发工具和开发环境,支持开发者快速开发和部署区块链应用。此外,该平台还可以提供一套全面的区块链开发教程和文档,帮助开发者快速上手区块链开发。