DETR开篇之作

2024-06-17 00:12
文章标签 detr 开篇 之作

本文主要是介绍DETR开篇之作,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

1. 论文背景和动机

背景: 传统的物体检测方法(如Faster R-CNN等)通常依赖复杂的多阶段 pipeline,包括区域候选生成、特征提取和后处理步骤。这些方法尽管有效,但复杂度高且难以端到端训练。
动机: DETR的提出是为了简化物体检测的流程,通过端到端的训练方式实现高效准确的物体检测。

2. DETR的核心思想

Transformer架构: 利用 Transformer 模型中的自注意力机制,DETR将物体检测问题转化为集合预测问题。
端到端训练: DETR通过直接预测图像中的物体边界框和类别标签,避免了传统检测方法中的复杂步骤。

在这里插入图片描述

Transformer是由多个 encoder 和多个 decoder 组成。decoder 的第二个多头注意力 (Multi-Head Attention MHA) 将 encoder 的输出作为两个输入。实际上 MHA 中主要由点积放缩注意力算子组成,大概可以看到其由 Query、Key 和 Value 三者作为输入,进行一系列矩阵操作得到结果。
点积缩放计算示例

简单对点积缩放注意力算子进行介绍:每一个 Embedding 可以生成对应的 Q、K、V,然后每一个 Embedding 的 Q 都会跟 n 个 K (包括自己的)进行向量内积计算,从而得到 n 个值,再通过 softmax 得到 n 个权重,最后和 n 个 V 相乘后相加得到了最后的结果。这个过程可以通过右边矩阵相乘实现,里面涉及两个矩阵乘法 Q x K,其结果和 V 进行矩阵相乘。而对于 encoder 而言,Embedding 的个数是和 image 的尺寸成正比,那么其矩阵相乘的计算复杂度就和 image 的尺寸就成平方关系了。

3. 网络结构

a. 特征提取(Feature Extraction)

  • 使用预训练的卷积神经网络(如ResNet)从输入图像中提取特征。

b. Transformer编码器(Encoder)

  • 将特征图输入到多层 Transformer 编码器中进行处理,添加位置编码(Positional Encoding)以保持空间信息。
  • Positional Encoding 为特征图中的每个像素位置添加位置信息,使Transformer能处理图像数据的空间信息。

  • 编码器的每一层包含自注意力(Self-Attention)和前馈神经网络(Feed-Forward Neural Network)层。
  • 每个编码器层计算输入特征的自注意力分布,并通过前馈网络对特征进行非线性变换。

c. Transformer解码器(Decoder)

  • 使用一组可学习的查询向量(Learnable Query Embeddings)和编码器的输出进行交互。
  • 解码器的每一层包含自注意力层、编码器-解码器注意力层(Encoder-Decoder Attention)和前馈神经网络层。
  • 最终输出物体的边界框和类别。

4. 关键技术

  • 匈牙利匹配(Hungarian Matching): 在训练过程中,通过匈牙利算法将预测结果与真实标签进行一一匹配,计算损失并优化模型。
  • 损失函数(Loss Function):结合了分类损失和边界框回归损失,确保模型在训练过程中能够平衡地优化这两个目标。

5. 实验和结果

在COCO数据集上的实验结果表明,DETR在检测精度和效率上与当前最先进的方法相当。
DETR在处理复杂场景和遮挡物体方面表现尤为出色。

6. 优势和局限性

  • 优势
    简化流程:通过端到端训练简化了传统的多阶段物体检测流程。
    高效:利用Transformer架构的自注意力机制,能够更好地捕捉图像中的全局信息。
    鲁棒性:在复杂场景和遮挡物体的检测中表现良好。
  • 局限性
    计算开销:Transformer的自注意力机制在处理大分辨率图像时计算复杂度较高。
    训练时间:相比传统方法,训练时间较长,需要更多计算资源。

7. 总结

DETR通过将物体检测任务转化为集合预测问题,利用Transformer的自注意力机制,实现了端到端的高效物体检测。其核心创新点在于使用可学习的查询向量和匈牙利匹配算法,简化了传统的物体检测流程,并提高了检测精度。

通过这篇论文,我们可以看到Transformer架构在视觉任务中的潜力,并了解到物体检测领域的最新进展和研究方向。这为进一步研究和应用提供了新的思路和方法。

这篇关于DETR开篇之作的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1067949

相关文章

Android热修复学习之旅开篇——热修复概述

Android热修复技术无疑是Android领域近年来最火热的技术之一,同时也涌现了各种层出不穷的实现方案,如QQ空间补丁方案、阿里AndFix以及微信Tinker等等,从本篇博客开始,计划写一个系列博客专门介绍热修复的相关内容,本系列博客将一一介绍这些框架的原理和源码分析,作为本系列的开篇,本篇博客将对热修复技术进行一个概述,并对以上几种方案进行对比。 为什么会出现热修复? 简单来说,以前出

【目标检测】DAB-DETR

一、引言 论文: DAB-DETR: Dynamic Anchor Boxes are Better Queries for DETR 作者: IDEA 代码: DAB-DETR 注意: 该算法是对DETR的改进,在学习该算法前,建议掌握多头注意力、Sinusoidal位置编码、DETR等相关知识。 特点: 将Decoder中Query的角色解耦为图像内容和物体位置,明确了DETR收敛慢的原因在

DN-DETR

可以看到,与 DAB-DETR 相比,最大的差别仍然在 decoder 处,主要是 query 的输入。DN-DETR 认为可以把对 offsets 的学习,看作一种对噪声学习的过程,因此,可以直接在 GT 周围生成一些 noised boxes,这些 boxes 是GT进行稍微移动得到的。然后将得到的 noised boxes 转化为高维的 embedding 与原本的 query

【轨迹规划论文整理(1)】UAV轨迹规划的开山之作Minimum Snap Trajectory

【轨迹规划论文整理(1)】UAV轨迹规划的开山之作Minimum Snap Trajectory Generation and Control for Quadrotors 本系列主要是对精读的一些关于无人机、无人车的轨迹搜索论文的整理,包括了论文所拓展的其他一些算法的改进思路。 这是本系列的第一篇文章,也是UAV轨迹规划的开山之作,是所有学习无人机方向的需要精读的第一篇文章,两个作者来自于宾夕

Lamp兄弟连第五十期开篇宣言 “要么赶紧死,要么精彩的活着”

要么赶紧死,要么精彩的活着” 听到这句话的人,大部分人应该是不会陌生的,这句话出至中国达人秀第一季冠军刘伟的经典语录,话很直白,也很明了,从他那不放弃自我的求生,不放弃自我梦想的追寻,最终造就了奇迹的诞生,而他也因此得到了世界上独一无二的,既优雅又传奇的名字“断臂钢琴王子”。 2010年7月 年仅23岁的刘伟 参加东方卫视《中国达人秀》 同年10月获得冠

写点什么吧,作为STM32系列的开篇……

自从本科毕业后,就再也没碰过单片机…… 自从研究生毕业后,就再也没碰过硬件…… 自以为以前单片机玩的熟得很,特别是ATMEGA系列的AVR单片机,由于老师的推荐,本科时花了好多精力在这个系列单片机上面…… 本科时STM32还没开始流行,嵌入式系统课程用的还是三星S3C44B0,任课老师做项目用的是LPC系列,但圈内STM32已经在崛起了,大四的时候还给毕设老师设计了一块STM32的开发板,从

【运维趟坑回忆录 开篇】初入初创, 一脸懵逼

距离vpc和容器化过去了快一年, 一直想要完整回顾梳理下整个过程, 最近准备进行swarm->kubernetes的二次迁移, 正好借由这次契机重新回顾下这段历从最初原始时代到vpc,swarm容器化到k8s的经历. 原始时代 16年7月从上家游戏公司离职, 来到了目前的互金公司, 成为唯一的运维, 此时公司java开发人数已经有几十人… 运维的技术栈也由php转移到了java, 刚开始的时候

【YOLOv5/v7改进系列】改进池化层为RT-DETR的AIFI

一、导言 Real-Time DEtection TRansformer(RT-DETR),是一种实时端到端目标检测器,克服了Non-Maximum Suppression(NMS)对速度和准确性的影响。通过设计高效的混合编码器和不确定性最小化查询选择,RT-DETR在保持准确性的同时提高了速度,实现了实时检测的要求。实验结果表明,RT-DETR在COCO数据集上达到了53.1%的平均精度(

DETR实现目标检测(一)-训练自己的数据集

1、DETR架构 DETR(Detection Transformer)是一种新型的目标检测模型,由Facebook AI Research (FAIR) 在2020年提出。DETR的核心思想是将目标检测任务视为一个直接的集合预测问题,而不是传统的两步或多步预测问题。这种方法的创新之处在于它直接预测目标的类别和边界框,而不是先生成大量的候选区域,然后再对这些区域进行分类和边界框回归。 DERT

RT-DETR 详解之 Uncertainty-minimal Query Selection

引言 在上一章博客中博主已经完成查询去噪向量构造部分的讲解(DeNoise)在本篇博客中,我们将进行Uncertainty-minimal Query Selection创新点的讲解。 Uncertainty-minimal Query Selection是RT-DETR提出的第二个创新点,其作用是在训练期间约束检测器对高 IOU 的特征产生高分类分数,对低 IOU 的特征产生低分类分数。从而