DETR解读，将Transformer带入CV

2024-01-28 18:12

文章标签 cv transformer 解读 detr 带入

本文主要是介绍DETR解读，将Transformer带入CV，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

论文出处

[2005.12872] End-to-End Object Detection with Transformers (arxiv.org)

一个前置知识

匈牙利算法：来源于二部图匹配，计算最小或最大匹配

算法操作：在n*n的矩阵中

减去行列最小值，更新矩阵（此时行或者列最少一个0）
最少的横线来覆盖有0的行列，横线数量等于n结束算法，否则进入循环
循环操作：取未被横线覆盖的最小值k，所有未被覆盖的数都减去k（这个步骤至少增加一个0），横线的交点加上k，再次画横线判断

匈牙利算法在CV中用于对目标检测结果的匹配，前后帧之间相同目标的匹配，实现框随目标的运动。

具体的在CV任务中匈牙利算法的匹配代价用框中点之间欧式距离，也可以是IoU（即框之间的重合度）

DETR：Transformer实现的端到端检测算法

模型训练思路

提前用超参数设置一些预测框，然后根据图像标注的信息得知图像中的物体正确的框选。预测框要和真实的那几个框一一对应，例如图中原本只标注了2个框，但是预测了100个，是从100个中选两个对应上。然后匈牙利算法计算匹配损失，反向传播

测试阶段

计算预测框的类别置信度，达到阈值则可以保留

Transformer先编码图像信息，然后解码，自注意力机制学习图像信息

object query查询图像中是否有物体

这里和NLP任务有明显的不同点。即当前输出是不依赖前一个输出，虽然是用decoder但是多目标的检测是可以并行的

具体操作步骤

backbone卷积提取特征，
Encoder，特征结合位置编码，两者相加生成Q，K。做多头注意力。每次编解码都使用位置编码
Decoder：可以看做两层，先query初始为0，object query这两个query是学习anchor特征，两者相加生成Q，K。再加入图像特征（上一层输出再叠加object query为Q，Encoder输出加上位置编码生成K），学习预测物体类别，坐标，预测框信息等
输出：预测类别的标签，预测框的坐标

再介绍几个改进

Deformable DETR

文章出处：[2010.04159] Deformable DETR: Deformable Transformers for End-to-End Object Detection (arxiv.org)

提出可变注意力，这个改进对DETR来说十分关键。不再做全局注意力，只对关键部份做注意力。不仅仅是解决普通DETR计算量大和收敛慢的问题，做局部的注意力使得模型更能学习到关键特征，而不是无用的信息

在这个模型中，查询的Q还是来自特征提取和位置编码。但是K的查询几个点是由用户指定的，而且点的位置是由网络学习得到的。可以理解为最终值是一个点和图中的几个关键点做多头注意力得到。

先对输入Z分别做位置编码得到查询位置的偏移量和Attention Weight，还要对Z做线性变换得到Value。通过位置偏移量就能得到要查询位置的坐标，进一步去除对应位置的Value

Multi-scale Deformable Attention：

多尺度是为了在不同的尺度都能够学习到特征，大尺度对小物体的特征学习有效，小尺度学习大物体特征有效，使用多个尺度做注意力机制模型学习到更多的东西。先分别提取多张不同尺度的feature map，转换成线性之后连接起来，当做一个token，做注意力

RT-DERT

论文出处：

[2304.08069] DETRs Beat YOLOs on Real-time Object Detection (arxiv.org)

RT DETR的提出使得DETR路线的可用性和落地的可能性更进一步。这篇文章提出的实时端到端目标检测器，出发点就是提高模型训练和推理速度。

作者提到他发现模型执行时间取决于：预测框的数量，score threshold类别阈值，IoU threshold冗余框阈值

于是针对这些问题他做了几点创新：

只对最小尺度的特征图做可变注意力，其他的尺度做特征融合
基于IoU的查询选择，提高性能
推理加速，直接使用前几个decoder的输出

AIFI

对于最小尺度的一个特征图做Transformer encoder，以往是多个尺度的特征拉长成一个很长的一维token，这里减少了计算量。而且小尺度的语义特征更加丰富。

CCFM

每个尺寸两两之间都做特征的融合，做上采样或下采样匹配尺寸，最终拼接成一个列表

这篇关于DETR解读，将Transformer带入CV的文章就介绍到这儿，希望我们推荐的文章对编程师们有所帮助！

http://www.chinasem.cn/article/654397。 23002807@qq.com

相关文章

javacv依赖太大导致jar包也大的解决办法

javacv依赖太大导致jar包也大的解决办法

《javacv依赖太大导致jar包也大的解决办法》随着项目的复杂度和依赖关系的增加,打包后的JAR包可能会变得很大,：本文主要介绍javacv依赖太大导致jar包也大的解决办法,文中通过代码介绍的... 目录前言1.检查依赖2.更改依赖3.检查副依赖总结前言最近在写项目时，用到了Javacv里的获取视频

阅读更多...

C语言自定义类型之联合和枚举解读

C语言自定义类型之联合和枚举解读

《C语言自定义类型之联合和枚举解读》联合体共享内存,大小由最大成员决定,遵循对齐规则；枚举类型列举可能值,提升可读性和类型安全性,两者在C语言中用于优化内存和程序效率... 目录一、联合体1.1 联合体类型的声明1.2 联合体的特点1.2.1 特点11.2.2 特点21.2.3 特点31.3 联合体的大小1

阅读更多...

Python标准库datetime模块日期和时间数据类型解读

Python标准库datetime模块日期和时间数据类型解读

《Python标准库datetime模块日期和时间数据类型解读》文章介绍Python中datetime模块的date、time、datetime类,用于处理日期、时间及日期时间结合体,通过属性获取时间... 目录Datetime常用类日期date类型使用时间 time 类型使用日期和时间的结合体–日期时间(

阅读更多...

C语言中%zu的用法解读

C语言中%zu的用法解读

《C语言中%zu的用法解读》size_t是无符号整数类型,用于表示对象大小或内存操作结果,%zu是C99标准中专为size_t设计的printf占位符,避免因类型不匹配导致错误,使用%u或%d可能引发... 目录size_t 类型与 %zu 占位符%zu 的用途替代占位符的风险兼容性说明其他相关占位符验证示

阅读更多...

Linux系统之lvcreate命令使用解读

Linux系统之lvcreate命令使用解读

《Linux系统之lvcreate命令使用解读》lvcreate是LVM中创建逻辑卷的核心命令,支持线性、条带化、RAID、镜像、快照、瘦池和缓存池等多种类型,实现灵活存储资源管理,需注意空间分配、R... 目录lvcreate命令详解一、命令概述二、语法格式三、核心功能四、选项详解五、使用示例1. 创建逻

阅读更多...

解读GC日志中的各项指标用法

解读GC日志中的各项指标用法

《解读GC日志中的各项指标用法》：本文主要介绍GC日志中的各项指标用法,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录一、基础 GC 日志格式（以 G1 为例）1. Minor GC 日志2. Full GC 日志二、关键指标解析1. GC 类型与触发原因2. 堆

阅读更多...

Java设计模式---迭代器模式(Iterator)解读

Java设计模式---迭代器模式(Iterator)解读

《Java设计模式---迭代器模式(Iterator)解读》：本文主要介绍Java设计模式---迭代器模式(Iterator),具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,... 目录1、迭代器（Iterator）1.1、结构1.2、常用方法1.3、本质1、解耦集合与遍历逻辑2、统一

阅读更多...

MySQL之InnoDB存储页的独立表空间解读

MySQL之InnoDB存储页的独立表空间解读

《MySQL之InnoDB存储页的独立表空间解读》：本文主要介绍MySQL之InnoDB存储页的独立表空间,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录1、背景2、独立表空间【1】表空间大小【2】区【3】组【4】段【5】区的类型【6】XDES Entry区结构【

阅读更多...

MySQL主从复制与读写分离的用法解读

MySQL主从复制与读写分离的用法解读

《MySQL主从复制与读写分离的用法解读》：本文主要介绍MySQL主从复制与读写分离的用法,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录一、主从复制mysql主从复制原理实验案例二、读写分离实验案例安装并配置mycat 软件设置mycat读写分离验证mycat读

阅读更多...

Python的端到端测试框架SeleniumBase使用解读

Python的端到端测试框架SeleniumBase使用解读

《Python的端到端测试框架SeleniumBase使用解读》：本文主要介绍Python的端到端测试框架SeleniumBase使用,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全... 目录SeleniumBase详细介绍及用法指南什么是 SeleniumBase？SeleniumBase

阅读更多...