论文阅读《Dual-Awareness Attention for Few-Shot Object Detection》

2023-11-25 11:50

本文主要是介绍论文阅读《Dual-Awareness Attention for Few-Shot Object Detection》,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

Background & Motivation

小样本分类模型分为两类:optimization-based 的元学习方法和 metric-based 的度量学习方法。而小样本检测模型大多使用迁移学习和度量学习的方法来实现跨域学习,大多都采用平均特征来作为类的表征与模型输出的 Query 表征进行 concatenation 或 element-wise product 等来计算相似度。

Motivation 是现有的小样本检测模型在 base 类数据上精度普遍降低,此前直接将小样本分类模型的思想用在检测任务上的做法存在不恰当的地方并且 Support 的质量直接影响了模型的精度。因此本文聚焦到了两个问题:Support 的质量和怎么更好的建立 Support 和 Query 之间的联系。为了解决这些问题提出了 Dual-Awareness Attention(DAnA),包含两个模块:Background Attenuation(BA)和 Cross-image Spatial Attention(CISA)。

而这两个模块的 Motivation 分别是物理学中的 interference 现象和我们人类判断两个物体是否是同一类别的方法,即我们会找到最有代表性的特征来判断它。

文章中解释了这些不恰当的原因:

(a)中采用全局平均池化的方法来降低运算复杂度,但是不可避免的损失了 Support 中携带的空间信息。

比如《Few-shot object detection via feature reweighting》中(红色箭头):

《Meta R-CNN: Towards general solver for instance-level low-shot learning》中:

(b)中用 convolution-based 的注意力操作将 Query 中带上 Support 的信息,但是没有考虑到局部信息的错位。或者不采用全局池化,也将导致局部信息的错位。

(c)采用类平均的思想计算出每一类的表征,但是每类表征的计算方法很有可能导致表征的偏差。

Dual-Awareness Attention(DAnA)

  • Background Attenuation(BA)

BA 针对 Support image 而言,图中 Y 代表 Support image 的特征图(这里假设只有一张 Support image),只有这一个输入,We(C*1)是一个线性变换可学习的向量,计算公式如下:

其中 yi 是 1*C 的矩阵,代表着特征图每一个通道上同一像素的位置,经过 Softmax 得到特征图中每一位置的激活值。这些激活值可以看作 yi 的权重系数,再与 yi 相乘得到调整过各个通道每一像素权重的特征图 G(1*C,即图中画红色波浪线的地方)。每个特征图的特征向量 G(1*1*C)可以作为一个 specific pattern 的“信号”,这个 pattern 代表着局部信息。

但是直接使用这个 G 反而影响了模型的精度,文章中认为原因是:

By visualization, it can be observed that only few narrow regions of support image contribute to the aggregated feature G. Such a naive attention process leads to a considerable loss of support information and would deteriorate the ability of models.

受物理学 interference 现象的启发,两个信号的叠加要么是振幅更大要么趋于平稳。将最开始的特征图 Y 看作一个信号,将特征图 G 施加到这个信号,其中 α 是一个常数,取0.5:

因此对图像中的各个 pattern,属于一个类别的 pattern 将会获得“信号”增强,而不同的类别则将被削弱。

BA 模块可以看作一种注意力机制,保留前景的特征而抑制背景的特征。模块足够轻便,只有 We 是需要学习的参数。

  • Cross-image Spatial Attention(CISA)

CISA 中由两部分输入,第一部分是 BA 模块输出的不同 Support image 的特征图 Z1、Z2,第二部分是 Query image 的特征图 X。CISA 的核心思想是将 Support 中的特征转换成带有具体语义信息的 query-position-aware(QPA)特征,那些与 QPA 有着高响应的 Query 特征图的区域应被识别为目标。

(f) 中 Query 中的类别与 Support 中不相同时,CISA 更倾向于高亮最能描述一个对象最具有代表性的特征。

有 Transformer 类似的 QKV 参数,分别表示为,Wq 和 Wk 是两个可学习的参数矩阵(C`*C,C` 是 C 的四分之一)。Query 和 Support 之间的相似性得分为:

其中 μQ 和 μK 与 BA 模块中 yi 的含义相同,σ 是 softmax 函数。考虑最终的 attention map 应该不止与 Query 和 Support 有关,还应该与 Support 自身有关。

Wr 是 1*C 的矩阵,β 是常数,取0.1。输出的维度是 HQWQ*HSWS,可以看作 Query image 特征图(HQ*WQ)上不同空间位置的基于 Support image 的 attention map(HS*WS)。而 QPA 特征的计算如下:

pi 代表了 Query 特征图上对应空间位置的 QPA 特征(应对问题 a),如果 Support Set 不止一张图像的话,QPA 特征可变为每张图像 QPA 特征的平均值:

without the concern of entangled representations, because those QPA vectors pki of the same entry will represent relevant contextual information by taking the same query position i into consideration.(应对问题 c)

同样 CISA 打破了物理的限制不用考虑对齐的问题(应对问题 b),因为 QPA 不是由一个简单的 Support image 的特征图得来,而是经过类似于 Transformer 的注意力计算:

DAnA 将最后的输出 P 与原特征图 X 进行结合之后,可以直接输入到传统检测网络 Faster Rcnn 的 RPN 中。值得注意的是 DAnA 的输出与 Query image 的特征图大小是一样的,因此这一个即插即用的模块:

也可以加入到一阶段的检测网络中:

Experiments

TABLE Ⅰ中模型的训练都采用了两个 Trick:

  • two-way contrastive 训练策略。
  • 将多分类损失换成了二分类损失。

Support image 用 zero-padding 成320*320。COCO 中与 PASCAL VOC 类别相同的20类作为 Novel 类,其余60类作为 Base 类。采用元学习的训练方法,每个 episode 中包含一个或多个 Support set,一张 Query image 以及他们的标注,每个 episode 选择目标类别中的一个类别作为训练目标。

Note that all the annotations belonging to the novel categories have been removed in order the prevent models from peeking at the novel task.

N-way K-shot 的定义是训练时每一个类别都应包含 K 个目标,不论多少张图片。

TABLE Ⅱ 和 TABLE Ⅲ 的精度对比中的 1-shot、5-shot 是说 Support image 的数量。

Furthermore, we are the first to conduct zero-shot evaluation for FSOD, where models are trained from the source domain and directly tested on the target domain without fine-tuning.

从 PASCAL VOC 跨域到 COCO:

对模块进行了消融实验:

Mask 是用 CNN 取代 BA 模块来实现注意力机制并与原特征图叠加,同时也证明了 RPN 对本文提出的 DAnA 的重要性。

Conclusion

DAnA 是一个计算 Query 和 Support 之间语义信息的模块,提出了应对 Motivation 中几个问题的方法。

这篇关于论文阅读《Dual-Awareness Attention for Few-Shot Object Detection》的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/423745

相关文章

深入探讨Java 中的 Object 类详解(一切类的根基)

《深入探讨Java中的Object类详解(一切类的根基)》本文详细介绍了Java中的Object类,作为所有类的根类,其重要性不言而喻,文章涵盖了Object类的主要方法,如toString()... 目录1. Object 类的基本概念1.1 Object 类的定义2. Object 类的主要方法3. O

JAVA智听未来一站式有声阅读平台听书系统小程序源码

智听未来,一站式有声阅读平台听书系统 🌟 开篇:遇见未来,从“智听”开始 在这个快节奏的时代,你是否渴望在忙碌的间隙,找到一片属于自己的宁静角落?是否梦想着能随时随地,沉浸在知识的海洋,或是故事的奇幻世界里?今天,就让我带你一起探索“智听未来”——这一站式有声阅读平台听书系统,它正悄悄改变着我们的阅读方式,让未来触手可及! 📚 第一站:海量资源,应有尽有 走进“智听

AI hospital 论文Idea

一、Benchmarking Large Language Models on Communicative Medical Coaching: A Dataset and a Novel System论文地址含代码 大多数现有模型和工具主要迎合以患者为中心的服务。这项工作深入探讨了LLMs在提高医疗专业人员的沟通能力。目标是构建一个模拟实践环境,人类医生(即医学学习者)可以在其中与患者代理进行医学

论文翻译:arxiv-2024 Benchmark Data Contamination of Large Language Models: A Survey

Benchmark Data Contamination of Large Language Models: A Survey https://arxiv.org/abs/2406.04244 大规模语言模型的基准数据污染:一项综述 文章目录 大规模语言模型的基准数据污染:一项综述摘要1 引言 摘要 大规模语言模型(LLMs),如GPT-4、Claude-3和Gemini的快

什么是 Flash Attention

Flash Attention 是 由 Tri Dao 和 Dan Fu 等人在2022年的论文 FlashAttention: Fast and Memory-Efficient Exact Attention with IO-Awareness 中 提出的, 论文可以从 https://arxiv.org/abs/2205.14135 页面下载,点击 View PDF 就可以下载。 下面我

论文阅读笔记: Segment Anything

文章目录 Segment Anything摘要引言任务模型数据引擎数据集负责任的人工智能 Segment Anything Model图像编码器提示编码器mask解码器解决歧义损失和训练 Segment Anything 论文地址: https://arxiv.org/abs/2304.02643 代码地址:https://github.com/facebookresear

论文翻译:ICLR-2024 PROVING TEST SET CONTAMINATION IN BLACK BOX LANGUAGE MODELS

PROVING TEST SET CONTAMINATION IN BLACK BOX LANGUAGE MODELS https://openreview.net/forum?id=KS8mIvetg2 验证测试集污染在黑盒语言模型中 文章目录 验证测试集污染在黑盒语言模型中摘要1 引言 摘要 大型语言模型是在大量互联网数据上训练的,这引发了人们的担忧和猜测,即它们可能已

OmniGlue论文详解(特征匹配)

OmniGlue论文详解(特征匹配) 摘要1. 引言2. 相关工作2.1. 广义局部特征匹配2.2. 稀疏可学习匹配2.3. 半稠密可学习匹配2.4. 与其他图像表示匹配 3. OmniGlue3.1. 模型概述3.2. OmniGlue 细节3.2.1. 特征提取3.2.2. 利用DINOv2构建图形。3.2.3. 信息传播与新的指导3.2.4. 匹配层和损失函数3.2.5. 与Super

软件架构模式:5 分钟阅读

原文: https://orkhanscience.medium.com/software-architecture-patterns-5-mins-read-e9e3c8eb47d2 软件架构模式:5 分钟阅读 当有人潜入软件工程世界时,有一天他需要学习软件架构模式的基础知识。当我刚接触编码时,我不知道从哪里获得简要介绍现有架构模式的资源,这样它就不会太详细和混乱,而是非常抽象和易

BERT 论文逐段精读【论文精读】

BERT: 近 3 年 NLP 最火 CV: 大数据集上的训练好的 NN 模型,提升 CV 任务的性能 —— ImageNet 的 CNN 模型 NLP: BERT 简化了 NLP 任务的训练,提升了 NLP 任务的性能 BERT 如何站在巨人的肩膀上的?使用了哪些 NLP 已有的技术和思想?哪些是 BERT 的创新? 1标题 + 作者 BERT: Pre-trainin