干货!端到端的目标检测器——香港大学PhD孙培泽

2023-11-02 02:50

本文主要是介绍干货!端到端的目标检测器——香港大学PhD孙培泽,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

点击蓝字

197916f6ab7b01b972d8372fc970cd3d.png

关注我们

AI TIME欢迎每一位AI爱好者的加入!

最近提出的DETR目标检测器在检测流程的最后一个不可微分部分、NMS(非极大值抑制)以及建立一个端到端的目标检测器方面都取得了很大的进步。然而,DETR的缺点是降低训练过程的收敛速度和小目标检测效果不佳,其主要原因是每个检测目标都需要对全图特征进行交互。本文提出了一种每个目标只对局部特征进行交互的Sparse R-CNN,其各个尺度检测精度和训练收敛表现在现有典型目标检测器发挥优秀。

本期AI TIME PhD直播间邀请到了香港大学博士生孙泽培,带来分享——《基于图结构学习的归纳式协同过滤》。

eebaa1b258753274111751bcc649f1bd.png

香港大学二年级博士生,导师为罗平副教授。主要研究方向是目标检测、分割、跟踪等,曾在CVPR、ICML、ICCV等国际会议发表论文多篇。

01

 背  景 

目标检测的目的是在图像中对一组目标进行定位并识别它们的类别,而稠密先验(dense prior)一直是检测器成功的基础。目标检测主流的两大类方法包括一阶段的Dense detector和两阶段的Dense-to-Sparse detector。

  • 一阶段Dense detector的做法是在高为H宽为W的feature map上预设anchor boxes、reference points等,基于这些检测框预测目标的位置和类别。

  • 两阶段Dense-to-Sparse detector是在一阶段的基础上进行进一步的调优:由一阶段给出的proposal得出物体特征然后进行预测类别和检测候选框。

c9786efc654f98bb9534847af86cbadf.png

上述两种目标检测方法的局限性:

i. 需要NMS来去除冗余候选框。

拥挤场景下NMS窘境:

  • NMS阈值过小,即两个候选框的IoU(交并比)较大时才会去掉其中一个,导致产生更多false positives(假的正样本),如下图的红色候选框。

  • NMS阈值过小,两个候选框的IoU较小也会去掉其中一个,导致减少true positives(真的正样本),如下图黄色候选框。

ea2f182061282430d1457ad7f159262a.png

ii. One-to-many label assignment:由于会有大量候选框,使得一个物体可能存在多个正样本。

IoU值较低会导致预测结果含有许多噪声(如图a),IoU过高使得数据集正样本极少,从而使得detector对这些正样本进行过拟合(如图b)。

06a93e58984483cc3d61c847e352ec5f.png

FaceBook提出一个稀疏先验(Sparse-prior)的目标检测器——DETR(End-to-end object detection with transformers)创造性地解决了以上两个问题。DETR的创新之处是Sparse-prior,首先预设一组object queries,其数量远小于之前dense的工作,一般为100个左右。然后object queries经过编码器和解码器之后生成一组box predictions。将box prediction与物体进行二分匹配,一个物体只有一个正样本,因此解决了NMS和One-to-many label assignment问题。

b4b53b0a0a18262386ea58609cd8b98c.png

DETR在解决NMS和一对多问题上确实是里程碑的工作,但是也有以下两个需要关注的问题。1) DETR在训练过程中收敛很慢;2)由于使用了transformer结构,物体的feature map上的每个点都需要两两交互,因此限制了feature map的分辨率不能太大,因此对于小物体的检测性能有限。

02

 方  法 

为了解决DETR在目标检测任务中存在的问题,本文提出了Sparse R-CNN模型。

Sparse R-CNN继承了DETR的Sparse-prior的性能,也是仅通过一组较少数量的proposal boxes来完成目标检测任务。本文认为DETR收敛较慢的原因是每个object query需要和feature map上的所有点进行交互,如果这个是稀疏的,即每个proposal仅与局部区域进行交互,具体是仅与proposal对应的RolPooling、ROIAlign取出来的feature交互,就可以极大加速收敛过程。由于交互仅在局部发生,可使proposal去和高分辨率的feature map进行交互,从而提升小物体的检测效果。

下图是Sparse R-CNN的模型结构图,输入一张图片提取feature map和一组proposal box及对应的proposal feature。Sparse feature可以理解我DETR中的object query。proposal box和proposal feature与网络参数一样在后续训练中都是能够学习优化的。

63d0dae7cd3a27d6366d500dd3520f4c.png

Sparse R-CNN继承了DETR中的损失函数,一个物体只有一个正样本。

25b991fa6ba17936e2ded0a84bce9f7a.png

本文认为Sparse的结构只进行以此调优是远远不够的,因此本模型采用迭代的结构进行多次调优,得到与之前dense的工作相比的性能。具体实现是采用新生成的proposal box和proposal feature作为下一阶段的proposal box和proposal feature。

49226fdc10ae4072ab246099a6c78c8c.png

03

 实  验 

(1) 训练收敛情况

下图是多个目标检测模型在COCO数据集上的训练迭代情况,本文模型Sparse R-CNN的收敛速度与经典的模型对比基本持平,且远快于DETR。

7dabc2a7693dab48150cc99e3d22e8dc.png

(2) 小物体的目标检测性能

下图是多个目标检测模型的消融实验,APs那一列表示小物体的检测精度,Sparse R-CNN对于小物体的检测性能优于DETR,在其他Dense detector或者经典目标检测器中也是很优秀的。

f2e225648eae7dba74b1ea8463745658.png

04

 总  结 

本文提出了一种用于图像中目标检测的方法——Sparse R-CNN,给出了一组可学习的稀疏的物体proposal进行分类和定位。Sparse R-CNN参考了DETR的一对一的proposal,直接输出最终的预测结果,不需要进行NMS。Sparse R-CNN在拥挤场景下可以实现更精确的检测,并且在准确性、训练收敛性能上都优于DETR。

今日视频推荐

整理:爱国

审核:孙培泽

AI TIME欢迎AI领域学者投稿,期待大家剖析学科历史发展和前沿技术。针对热门话题,我们将邀请专家一起论道。同时,我们也长期招募优质的撰稿人,顶级的平台需要顶级的你!

请将简历等信息发至yun.he@aminer.cn!

微信联系:AITIME_HY

AI TIME是清华大学计算机系一群关注人工智能发展,并有思想情怀的青年学者们创办的圈子,旨在发扬科学思辨精神,邀请各界人士对人工智能理论、算法、场景、应用的本质问题进行探索,加强思想碰撞,打造一个知识分享的聚集地。

52890468483ddf8824d1eb1729d02046.png

更多资讯请扫码关注

bcfefae7f5769d1782ccfe8c09528909.png

我知道你在看

b0331ff6defda266ce0a0ce846b58f34.png

点击“阅读原文”查看精彩回放

这篇关于干货!端到端的目标检测器——香港大学PhD孙培泽的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/327576

相关文章

如何用Java结合经纬度位置计算目标点的日出日落时间详解

《如何用Java结合经纬度位置计算目标点的日出日落时间详解》这篇文章主详细讲解了如何基于目标点的经纬度计算日出日落时间,提供了在线API和Java库两种计算方法,并通过实际案例展示了其应用,需要的朋友... 目录前言一、应用示例1、天安门升旗时间2、湖南省日出日落信息二、Java日出日落计算1、在线API2

烟火目标检测数据集 7800张 烟火检测 带标注 voc yolo

一个包含7800张带标注图像的数据集,专门用于烟火目标检测,是一个非常有价值的资源,尤其对于那些致力于公共安全、事件管理和烟花表演监控等领域的人士而言。下面是对此数据集的一个详细介绍: 数据集名称:烟火目标检测数据集 数据集规模: 图片数量:7800张类别:主要包含烟火类目标,可能还包括其他相关类别,如烟火发射装置、背景等。格式:图像文件通常为JPEG或PNG格式;标注文件可能为X

AI(文生语音)-TTS 技术线路探索学习:从拼接式参数化方法到Tacotron端到端输出

AI(文生语音)-TTS 技术线路探索学习:从拼接式参数化方法到Tacotron端到端输出 在数字化时代,文本到语音(Text-to-Speech, TTS)技术已成为人机交互的关键桥梁,无论是为视障人士提供辅助阅读,还是为智能助手注入声音的灵魂,TTS 技术都扮演着至关重要的角色。从最初的拼接式方法到参数化技术,再到现今的深度学习解决方案,TTS 技术经历了一段长足的进步。这篇文章将带您穿越时

[数据集][目标检测]血细胞检测数据集VOC+YOLO格式2757张4类别

数据集格式:Pascal VOC格式+YOLO格式(不包含分割路径的txt文件,仅仅包含jpg图片以及对应的VOC格式xml文件和yolo格式txt文件) 图片数量(jpg文件个数):2757 标注数量(xml文件个数):2757 标注数量(txt文件个数):2757 标注类别数:4 标注类别名称:["Platelets","RBC","WBC","sickle cell"] 每个类别标注的框数:

【干货分享】基于SSM的体育场管理系统的开题报告(附源码下载地址)

中秋送好礼 中秋佳节将至,祝福大家中秋快乐,阖家幸福。本期免费分享毕业设计作品:《基于SSM的体育场管理系统》。 基于SSM的体育场管理系统的开题报告 一、课题背景与意义 随着全民健身理念的深入人心,体育场已成为广大师生和社区居民进行体育锻炼的重要场所。然而,传统的体育场管理方式存在诸多问题,如资源分配不均、预约流程繁琐、数据统计不准确等,严重影响了体育场的使用效率和用户体验。

YOLOv8/v10+DeepSORT多目标车辆跟踪(车辆检测/跟踪/车辆计数/测速/禁停区域/绘制进出线/绘制禁停区域/车道车辆统计)

01:YOLOv8 + DeepSort 车辆跟踪 该项目利用YOLOv8作为目标检测模型,DeepSort用于多目标跟踪。YOLOv8负责从视频帧中检测出车辆的位置,而DeepSort则负责关联这些检测结果,从而实现车辆的持续跟踪。这种组合使得系统能够在视频流中准确地识别并跟随特定车辆。 02:YOLOv8 + DeepSort 车辆跟踪 + 任意绘制进出线 在此基础上增加了用户

[数据集][目标检测]智慧农业草莓叶子病虫害检测数据集VOC+YOLO格式4040张9类别

数据集格式:Pascal VOC格式+YOLO格式(不包含分割路径的txt文件,仅仅包含jpg图片以及对应的VOC格式xml文件和yolo格式txt文件) 图片数量(jpg文件个数):4040 标注数量(xml文件个数):4040 标注数量(txt文件个数):4040 标注类别数:9 标注类别名称:["acalcerosis","fertilizer","flower","fruit","grey

【超级干货】2天速成PyTorch深度学习入门教程,缓解研究生焦虑

3、cnn基础 卷积神经网络 输入层 —输入图片矩阵 输入层一般是 RGB 图像或单通道的灰度图像,图片像素值在[0,255],可以用矩阵表示图片 卷积层 —特征提取 人通过特征进行图像识别,根据左图直的笔画判断X,右图曲的笔画判断圆 卷积操作 激活层 —加强特征 池化层 —压缩数据 全连接层 —进行分类 输出层 —输出分类概率 4、基于LeNet

目标检测-RT-DETR

RT-DETR (Real-Time Detection Transformer) 是一种结合了 Transformer 和实时目标检测的创新模型架构。它旨在解决现有目标检测模型在速度和精度之间的权衡问题,通过引入高效的 Transformer 模块和优化的检测头,提升了模型的实时性和准确性。RT-DETR 可以直接用于端到端目标检测,省去了锚框设计,并且在推理阶段具有较高的速度。 RT-DET

目标检测-YOLOv3

YOLOv3介绍 YOLOv3 (You Only Look Once, Version 3) 是 YOLO 系列目标检测模型的第三个版本,相较于 YOLOv2 有了显著的改进和增强,尤其在检测速度和精度上表现优异。YOLOv3 的设计目标是在保持高速的前提下提升检测的准确性和稳定性。下面是对 YOLOv3 改进和优势的介绍,以及 YOLOv3 核心部分的代码展示。 相比 YOLOv2 的改进