论文阅读:《Fast Convergence of DETR with Spatially Modulated Co-Attention》

2023-10-31 21:30

本文主要是介绍论文阅读:《Fast Convergence of DETR with Spatially Modulated Co-Attention》,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

在这里插入图片描述
论文链接:https://arxiv.org/pdf/2101.07448.pdf.
arxiv 2021

文章目录

  • 1 Background
  • 2 Motivation
  • 3 Related Work
  • 4 Advantages/Contributions
  • 5 Method
    • 5.1. A Revisit of DETR
    • 5.2. Spatially Modulated Co-Attention
  • 6 Experiments
    • 6.1.Datasets
    • 6.2.Comparison with DETR
    • 6.3. Ablation Study
    • 6.4. Overall Performance Comparison
  • 7 Conclusions

1 Background

最近提出的DETR
(detection transformer)通过去掉手工anchor和NMS操作很大程度上简化了目标检测的流程,但是DETR的收敛速度很慢,这增加了算法的设计周期,使得算法很难扩展,限制了它的广泛用途。
在这里插入图片描述
接下来回顾一下为了加快DETR的收敛,都有哪些改进的方法:
(1)Deformable DETR:Deformable DETRDeformable DETR将DETR中的attention替换成Deformable attention,只关注参考点周围的一小部分关键点采样,为每个query分配少量固定数量的key,可以缓解收敛性和输入分辨率受限制的问题
在这里插入图片描述
(2)TSP:TSP(Rethinking Transformer-based Set Prediction for Object Detection)通过去掉decoder,将FCOS/R-CNN和DETR组合,来加快DETR的收敛速度
在这里插入图片描述
(3)Sparse-RCNN:Sparse-RCNN虽然结构上跟DETR没有关系,但是思想上是通过将粗粒度的目标区域扣出来来加快收敛速度
在这里插入图片描述

为了增加收敛速度,本文提出了Spatially Modulated Co-attention (SMCA)模块,它是一个即用即插的模块。

2 Motivation

为了加速DETR收敛,本文通过动态预测一个2D的空间高斯weight map,来跟co-attention feature maps相乘来达到加快收敛速度的目的。即插即用,让DETR涨点明显。性能优于可变形DETR、DETR等网络。
在这里插入图片描述
其中,Co-attention的概念可以理解为下面红色框的部分,即Q和K、V来自于不同的地方。
在这里插入图片描述

3 Related Work

  • Object Detection:
    • two-stage:eg,RCNN , Fast RCNN ,Faster RCNN
    • one-stage:eg,YOLO ,SSD
    • end-to-end:无需NMS操作。eg,DETR ,Deformable DETR,TSP
  • Transformer
    • CNN和LSTM都可以对序列数据进行建模,Transformer是一种新的序列数据建模架构,在机器翻译、模型预训练、视觉识别等方面都有应用。它处理较长的序列比较难,许多方法被提出来解决这个问题, : eg,Reformer ,Linformer , Longformer
  • Dynamic Modulation
    • Attention机制可以看作是动态调制的变体。 eg,Look-Attend-Tell , Dynamic filter , SE-Net

4 Advantages/Contributions

本文提出的Spatial Modulated Co-Attention(SMCA) 通过动态预测一个2D的空间高斯weight map,来跟co-attention feature maps相乘来达到加快收敛速度的目的;同时SMCA通过整合multi-scale features 和 multi-head spatial modulation 来提升检测性能;并在COCO 2017数据集上进行了消融研究

5 Method

在这里插入图片描述
整体思路就是先在Decoder部分进行空间调制协同注意力(SMCA,橙色部分)来加快收敛,同时发现高斯权重图G不共享(即每个头一个G,文中称为多头)可以提升性能,为了进一步提升性能,在encoder部分提出了多尺度(蓝色和绿色部分),然后又发现Q对不同的尺度需求不同,因此又在decoder部分加入了scale选择网络(文中黄色部分)。

5.1. A Revisit of DETR

在这里插入图片描述

  • encoder:

在这里插入图片描述
H表示Mutli-Head self-attention有H个头,每个头是按上边那个d的通道数来划分的,比如有8个头,H==8,d=16,那么每个头是d×HW

  • decoder
    -在这里插入图片描述
    FC表示线性转换

5.2. Spatially Modulated Co-Attention

1)Dynamic spatial weight maps(橙色部分)
在这里插入图片描述
在这里插入图片描述
根据上边公式,首先N个queris分别预测中心点坐标和scale(两个公式都可以用图中蓝色部分表示)
在这里插入图片描述
得到坐标个scale之后,根据高斯公式预测出2D高斯权重图,就是上图中的Spatial Prior

2)Spatially-modulated co-attention
然后进行空间调制协同,橙色部分
在这里插入图片描述
公式就是在DETR的encoder部分的公式上添加上了G(2D高斯权重图),论文中的意思是按元素相乘,这里公式应该是错了,加号应该改为乘号。

3)SMCA with multi-head modulation
这里多头的意思就是橙色部分多个头不共享2D高斯权重图(G),每个头一个G,总共N个G,成为多头。
在这里插入图片描述
每个头的G是在第一个算出来的G的基础上来算的,即是在第一个G的中心点坐标和Scale的基础上学出自己的中心点和Scale的偏移量来得到自己的C和S
在这里插入图片描述
4)SMCA with multi-scale visual features
在这里插入图片描述

  • Intra-Scale:是指在f16、f32、f64三个平面内,每个平面中的每个位置只和自己平面的其它位置进行self-attention
  • Mutli-Scale:指每个平面位置与所有平面进行self-attention

此外,we notice that some queries might only require information from a specific scale but not always from all the scales ,因此
在这里插入图片描述
在这里插入图片描述

6 Experiments

6.1.Datasets

  • COCO 2017

6.2.Comparison with DETR

![在这里插入图片描述](https://img-blog.csdnimg.cn/20210225150910798.png?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3l1YW5zaW1pbmcwOTIw,size_16,colo r_FFFFFF,t_70)

6.3. Ablation Study

1)The baseline DETR model
在这里插入图片描述
2)Head-shared spatially modulated co-attention
在这里插入图片描述
3)Multi-head vs. head-shared spatially modulated co-attention
在这里插入图片描述
4)Design of multi-head spatial modulation for co-attention
在这里插入图片描述

  • indep 指的是 G 的三层(不同 scale)计算 h 和 w 时候, FC 不一样,FC1 / FC2/ FC3
  • single 指的是 G 的三层(不同 scale)计算 h 和 w 时候, FC 一样
  • fixed 指的是 h 和 w 固定,不是学出来的,论文中设置为了 1
    在这里插入图片描述
    5)Multi-scale feature encoding and scale-selection attention
    在这里插入图片描述
    6)Visualization of SMCA
    在这里插入图片描述

6.4. Overall Performance Comparison

在这里插入图片描述

7 Conclusions

  • SMCA与Deformable DETR的不同:(1)SMCA仅仅替换了DETR的decoder的co-attention部分 , Deformable DETR使用 deformable attention 替换了DETR的encoder和decoder两部分(2) Deformable DETR探索的是local信息,SMCA探索的是global信息
  • SMCA跟Sparse R-CNN的联系:某种意义上来讲,SMCA和Sparse R-CNN的关系类似于CNN范式中FCOS和Faster-RCNN的关系,一个直接在global的feature上加先验,来达到快速收敛的目的,一个通过ROIAilgn的方式将目标feature扣出来来达到快速收敛的目的。本质上就是拿更好的目标位置先验,帮助定位目标,提取目标context的信息。

这篇关于论文阅读:《Fast Convergence of DETR with Spatially Modulated Co-Attention》的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/318269

相关文章

JAVA智听未来一站式有声阅读平台听书系统小程序源码

智听未来,一站式有声阅读平台听书系统 🌟 开篇:遇见未来,从“智听”开始 在这个快节奏的时代,你是否渴望在忙碌的间隙,找到一片属于自己的宁静角落?是否梦想着能随时随地,沉浸在知识的海洋,或是故事的奇幻世界里?今天,就让我带你一起探索“智听未来”——这一站式有声阅读平台听书系统,它正悄悄改变着我们的阅读方式,让未来触手可及! 📚 第一站:海量资源,应有尽有 走进“智听

AI hospital 论文Idea

一、Benchmarking Large Language Models on Communicative Medical Coaching: A Dataset and a Novel System论文地址含代码 大多数现有模型和工具主要迎合以患者为中心的服务。这项工作深入探讨了LLMs在提高医疗专业人员的沟通能力。目标是构建一个模拟实践环境,人类医生(即医学学习者)可以在其中与患者代理进行医学

论文翻译:arxiv-2024 Benchmark Data Contamination of Large Language Models: A Survey

Benchmark Data Contamination of Large Language Models: A Survey https://arxiv.org/abs/2406.04244 大规模语言模型的基准数据污染:一项综述 文章目录 大规模语言模型的基准数据污染:一项综述摘要1 引言 摘要 大规模语言模型(LLMs),如GPT-4、Claude-3和Gemini的快

什么是 Flash Attention

Flash Attention 是 由 Tri Dao 和 Dan Fu 等人在2022年的论文 FlashAttention: Fast and Memory-Efficient Exact Attention with IO-Awareness 中 提出的, 论文可以从 https://arxiv.org/abs/2205.14135 页面下载,点击 View PDF 就可以下载。 下面我

论文阅读笔记: Segment Anything

文章目录 Segment Anything摘要引言任务模型数据引擎数据集负责任的人工智能 Segment Anything Model图像编码器提示编码器mask解码器解决歧义损失和训练 Segment Anything 论文地址: https://arxiv.org/abs/2304.02643 代码地址:https://github.com/facebookresear

论文翻译:ICLR-2024 PROVING TEST SET CONTAMINATION IN BLACK BOX LANGUAGE MODELS

PROVING TEST SET CONTAMINATION IN BLACK BOX LANGUAGE MODELS https://openreview.net/forum?id=KS8mIvetg2 验证测试集污染在黑盒语言模型中 文章目录 验证测试集污染在黑盒语言模型中摘要1 引言 摘要 大型语言模型是在大量互联网数据上训练的,这引发了人们的担忧和猜测,即它们可能已

OmniGlue论文详解(特征匹配)

OmniGlue论文详解(特征匹配) 摘要1. 引言2. 相关工作2.1. 广义局部特征匹配2.2. 稀疏可学习匹配2.3. 半稠密可学习匹配2.4. 与其他图像表示匹配 3. OmniGlue3.1. 模型概述3.2. OmniGlue 细节3.2.1. 特征提取3.2.2. 利用DINOv2构建图形。3.2.3. 信息传播与新的指导3.2.4. 匹配层和损失函数3.2.5. 与Super

软件架构模式:5 分钟阅读

原文: https://orkhanscience.medium.com/software-architecture-patterns-5-mins-read-e9e3c8eb47d2 软件架构模式:5 分钟阅读 当有人潜入软件工程世界时,有一天他需要学习软件架构模式的基础知识。当我刚接触编码时,我不知道从哪里获得简要介绍现有架构模式的资源,这样它就不会太详细和混乱,而是非常抽象和易

BERT 论文逐段精读【论文精读】

BERT: 近 3 年 NLP 最火 CV: 大数据集上的训练好的 NN 模型,提升 CV 任务的性能 —— ImageNet 的 CNN 模型 NLP: BERT 简化了 NLP 任务的训练,提升了 NLP 任务的性能 BERT 如何站在巨人的肩膀上的?使用了哪些 NLP 已有的技术和思想?哪些是 BERT 的创新? 1标题 + 作者 BERT: Pre-trainin

[论文笔记]LLM.int8(): 8-bit Matrix Multiplication for Transformers at Scale

引言 今天带来第一篇量化论文LLM.int8(): 8-bit Matrix Multiplication for Transformers at Scale笔记。 为了简单,下文中以翻译的口吻记录,比如替换"作者"为"我们"。 大语言模型已被广泛采用,但推理时需要大量的GPU内存。我们开发了一种Int8矩阵乘法的过程,用于Transformer中的前馈和注意力投影层,这可以将推理所需