What the DAAM: Interpreting Stable Diffusion Using Cross Attention

2023-12-07 02:44

本文主要是介绍What the DAAM: Interpreting Stable Diffusion Using Cross Attention,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

What the DAAM: Interpreting Stable Diffusion Using Cross Attention (Paper reading)

Raphael Tang, Comcast Applied AI, ACL2023 best paper, Code, Paper

1. 前言

大规模扩散神经网络是文本到图像生成中的一个重要里程碑,但人们对其了解甚少,缺乏可解释性分析。在本文中,我们对最近开源的模型Stable Diffusion进行了文本-图像归因分析。为了生成像素级归因图,我们在去噪子网络中提升并聚合交叉注意词-像素得分,将我们的方法命名为DAAM。我们通过测试其对名词的语义分割能力以及对所有词性的广义归因质量来评估其正确性,并由人类进行评分。然后,我们应用DAAM来研究语法在像素空间中的作用,表征十种常见依赖关系的头部相关热图交互模式。最后,我们使用DAAM研究了几种语义现象,重点是特征纠缠,我们发现同音同源词恶化了生成质量,描述性形容词出现的范围太广。据我们所知,我们是第一个从视觉语言学的角度解释大型扩散模型的人,这有助于未来的研究。

2. 整体思想

将Stable Diffusion中的交叉注意力可视化,对文本中的词的对生成图像的影响做了全面的分析,建议看原文。

3. 方法

3.1 Diffusion Attentive Attribution Maps

给定一个用于文本到图像合成的大规模潜在扩散模型,每个单词对图像的哪些部分影响最大?实现这一点的一种方法是归因方法,主要是基于扰动和梯度的,其中显著性图是根据输出相对于输入的一阶导数构建的,或者根据输入扰动构建的,以查看输出如何变化。不幸的是,梯度方法被证明是难以处理的,因为在所有T个时间步长内,每个像素都需要反向传播,在我们的试点实验中,即使是微小的扰动也会导致显著不同的图像。

具体来说,给定一个latent变量 l t ∈ R w × h l_t\in R^{w\times h} ltRw×h,扩散模型的U- Net的下采样块输出一系列向量 { h i , t } i K ∈ R w / c i , h / c i \{h_{i,t}\}^K_i \ \in R^{w/c^i,h/c^i} {hi,t}iK Rw/ci,h/ci。通常在多头交叉注意力层添加文本条件,Stable Diffusion的网络结构请点击这里,可以表示为:
h i , t = F t i ( h ^ i , t , X ) ⋅ ( W v i X ) , F t i ( h ^ i , t , X ) = s o f t m a x ( ( W q i h ^ i , t ) ( W k i X ) T / d ) h_{i,t}=F^i_t(\hat h_{i,t}, X)\cdot (W^i_v X),\\ ~\\ F^i_t(\hat h_{i,t}, X)=softmax((W^i_q \hat h_{i,t})(W^i_k X)^T / \sqrt{d}) hi,t=Fti(h^i,t,X)(WviX), Fti(h^i,t,X)=softmax((Wqih^i,t)(WkiX)T/d )
这里 F F F表示注意力得分,这个分数表现在空间层面,也就是文本和特征的分数,会影响最终的输出。下图搬运上述链接,防丢失。


在这里插入图片描述


在这里插入图片描述

3.2 Spatiotemporal aggregation

F t i [ x , y , l , k ] F^i_t[x, y, l, k] Fti[x,y,l,k]被归一化为[0,1],并将第 k k k个字(word)连接到第 i i i个下采样块和第 l l l个头的中间坐标 ( x , y ) (x,y) (x,y)。由于U-Net(和VAE)的完全卷积性质,中间坐标局部映射到最终图像中周围受影响的正方形区域因此得分将每个单词与该图像块相关联。然而,不同的层产生不同尺度的热图,最深的层是最粗糙的,需要空间归一化来创建单个热图。为此,我们使用双三次插值将所有中间注意力得分数组提升到原始图像大小,然后在头部、层和时间步长上对它们求和:
在这里插入图片描述

其实就是单词k对应的所有时间步,所有上下采样块,所有heads,所有通道的特征图插值到原图大小合并为一张图片,这样就得到了软热力图,如果是硬热力图就设定一个阈值变为0-1。

4. 归因分析

4.1 目标归因

对我们的方法进行定量评估具有挑战性,但我们可以尝试利用现有的注释数据集和方法,看看我们的方法有多一致。一个流行的视觉语义任务是图像分割,其中区域(即分割掩码)被赋予语义上有意义的标签,通常是名词。如果DAAM是准确的,那么我们的注意力图应该可以说与这些任务的图像分割标签对齐——尽管没有经过执行这项任务的训练。

我们使用DPM求解器运行Stable Diffusion 2.0基础模型,每张图像使用30个推理步骤。然后,我们使用COCO图像字幕数据集的验证集合成了一组图像,表示真实的提示,另一组图像通过随机交换同一组中的名词(固定词汇)来合成,表示不真实。第二组的目的是观察该模型在多大程度上适用于不真实的提示,而在训练时不太可能遇到这种提示。我们将这两个集合命名为“COCO-Gen”和“Unreal-Gen”,每个集合有100个提示-图像对。对于基本事实,我们从提示中提取所有可数名词,然后手工分割图像中的每个现在名词。下图中可以看到,分割效果比其他无监督方法好多了,这也体现了名词可以对应相应的文本

在这里插入图片描述

4.2 广义归因

我们将我们的准确性分析从名词扩展到所有词性,如形容词和动词,以表明DAAM更普遍地适用。高质量、可靠的分析需要人工注释;因此,我们要求人类评分者使用五点Likert量表来评估DAAM地图的归因质量。这种设置概括了上一节的设置,因为单词通常在视觉上是不可分离的,这妨碍了有效的分段注释。例如,在“人们在跑步”的提示中,不清楚在哪里可以直观地划分“跑步”。这只是跑步者的膝盖和脚,还是摆动的手臂?相反,如果给注释者提供建议的“运行”热图,他们可以判断这些热图在多大程度上反映了单词
在这里插入图片描述

4.3 视觉语法分析

有了DAAM,我们现在研究语法与生成的像素之间的关系。我们描述了头部相关DAAM图之间的成对相互作用,补充了前面的部分,并有助于形成进一步研究的假设。在图5中给出了示例。结论如下,请看图5从左到右,从上到下:

  1. 不相关的词容易区分
  2. 名词复合词没有优势,ice-cream,分为ice和cream没用
  3. 标点符号仅有少许语义信息,意义不大
  4. and连接两个名词,词意相似较难区分,反之容易
  5. 动词很直观,体现了shirt的整体
  6. 形容词分布广泛
  7. 相关词表现突出

在这里插入图片描述


在这里插入图片描述

这篇关于What the DAAM: Interpreting Stable Diffusion Using Cross Attention的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!


原文地址:
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.chinasem.cn/article/464240

相关文章

cross-plateform 跨平台应用程序-03-如果只选择一个框架,应该选择哪一个?

跨平台系列 cross-plateform 跨平台应用程序-01-概览 cross-plateform 跨平台应用程序-02-有哪些主流技术栈? cross-plateform 跨平台应用程序-03-如果只选择一个框架,应该选择哪一个? cross-plateform 跨平台应用程序-04-React Native 介绍 cross-plateform 跨平台应用程序-05-Flutte

什么是 Flash Attention

Flash Attention 是 由 Tri Dao 和 Dan Fu 等人在2022年的论文 FlashAttention: Fast and Memory-Efficient Exact Attention with IO-Awareness 中 提出的, 论文可以从 https://arxiv.org/abs/2205.14135 页面下载,点击 View PDF 就可以下载。 下面我

图神经网络框架DGL实现Graph Attention Network (GAT)笔记

参考列表: [1]深入理解图注意力机制 [2]DGL官方学习教程一 ——基础操作&消息传递 [3]Cora数据集介绍+python读取 一、DGL实现GAT分类机器学习论文 程序摘自[1],该程序实现了利用图神经网络框架——DGL,实现图注意网络(GAT)。应用demo为对机器学习论文数据集——Cora,对论文所属类别进行分类。(下图摘自[3]) 1. 程序 Ubuntu:18.04

使用亚马逊Bedrock的Stable Diffusion XL模型实现文本到图像生成:探索AI的无限创意

引言 什么是Amazon Bedrock? Amazon Bedrock是亚马逊云服务(AWS)推出的一项旗舰服务,旨在推动生成式人工智能(AI)在各行业的广泛应用。它的核心功能是提供由顶尖AI公司(如AI21 Labs、Anthropic、Cohere、Meta、Mistral AI、Stability AI以及亚马逊自身)开发的多种基础模型(Foundation Models,简称FMs)。

Differential Diffusion,赋予每个像素它应有的力量,以及在comfyui中的测试效果

🥽原论文要点 首先是原论文地址:https://differential-diffusion.github.io/paper.pdf 其次是git介绍地址:GitHub - exx8/differential-diffusion 感兴趣的朋友们可以自行阅读。 首先,论文开篇就给了一个例子: 我们的方法根据给定的图片和文本提示,以不同的程度改变图像的不同区域。这种可控性允许我们再现

diffusion model 合集

diffusion model 整理 DDPM: 前向一步到位,从数据集里的图片加噪声,根据随机到的 t t t 决定混合的比例,反向要慢慢迭代,DDPM是用了1000步迭代。模型的输入是带噪声图和 t,t 先生成embedding后,用通道和的方式加到每一层中间去: 训练过程是对每个样本分配一个随机的t,采样一个高斯噪声 ϵ \epsilon ϵ,然后根据 t 对图片和噪声进行混合,将加噪

时序预测|变分模态分解-双向时域卷积-双向门控单元-注意力机制多变量时间序列预测VMD-BiTCN-BiGRU-Attention

时序预测|变分模态分解-双向时域卷积-双向门控单元-注意力机制多变量时间序列预测VMD-BiTCN-BiGRU-Attention 文章目录 一、基本原理1. 变分模态分解(VMD)2. 双向时域卷积(BiTCN)3. 双向门控单元(BiGRU)4. 注意力机制(Attention)总结流程 二、实验结果三、核心代码四、代码获取五、总结 时序预测|变分模态分解-双向时域卷积

经验笔记:跨站脚本攻击(Cross-Site Scripting,简称XSS)

跨站脚本攻击(Cross-Site Scripting,简称XSS)经验笔记 跨站脚本攻击(XSS:Cross-Site Scripting)是一种常见的Web应用程序安全漏洞,它允许攻击者将恶意脚本注入到看起来来自可信网站的网页上。当其他用户浏览该页面时,嵌入的脚本就会被执行,从而可能对用户的数据安全构成威胁。XSS攻击通常发生在Web应用程序未能充分过滤用户提交的数据时,导致恶意脚本得以传递

阅读笔记--Guiding Attention in End-to-End Driving Models

作者:Diego Porres1, Yi Xiao1, Gabriel Villalonga1, Alexandre Levy1, Antonio M. L ́ opez1,2 出版时间:arXiv:2405.00242v1 [cs.CV] 30 Apr 2024 这篇论文研究了如何引导基于视觉的端到端自动驾驶模型的注意力,以提高它们的驾驶质量和获得更直观的激活图。 摘 要   介绍

基于 BiLSTM+Attention 实现降雨预测多变量时序分类——明日是否降雨

前言 系列专栏:【深度学习:算法项目实战】✨︎ 涉及医疗健康、财经金融、商业零售、食品饮料、运动健身、交通运输、环境科学、社交媒体以及文本和图像处理等诸多领域,讨论了各种复杂的深度神经网络思想,如卷积神经网络、循环神经网络、生成对抗网络、门控循环单元、长短期记忆、自然语言处理、深度强化学习、大型语言模型和迁移学习。 降雨预测作为气象学和水文学领域的重要研究课题,‌对于农业、‌城市规划、