【文献阅读6】第一届微小目标检测TOD挑战赛的冠军方案解读:方法和结果!

本文主要是介绍【文献阅读6】第一届微小目标检测TOD挑战赛的冠军方案解读:方法和结果!,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

【文献阅读6】The 1st Tiny Object Detection Challenge: Methods and Results-第一届微小目标检测TOD挑战赛的冠军方案解读:方法和结果!

  • 摘要
  • 1 引言
  • 2 TOD挑战
    • 2.1 挑战数据集
    • 2.2 评估指标
  • 3 结果和方法
    • 3.1 baidu_ppdet团队
    • 3.2 STY-402团队
    • 3.3 BRiLliant团队
  • 4 结论

论文名称:The 1st Tiny Object Detection Challenge: Methods and Results
论文地址: http://arxiv.org/pdf/2009.07506v1.pdf
开源代码: https://github.com/ucas-vg/tinybenchmark

本博客仅作为翻译、阅读、学习笔记

摘要

第一届微小物体检测(TOD)挑战旨在鼓励研究开发新的和准确的方法,用于在具有宽视角的图像中检测微小物体,目前的重点是微小人的检测。TinyPerson数据集1用于TOD挑战,并公开发布。它有1610个图像和72651个框级注释。来自全球的大约36支参赛队伍参加了第一届托德挑战赛。文中,作者对第一届TOD挑战赛进行了简要概述,包括了对获得前三名的方法进行了简要介绍。

1 引言

探测微小物体具有挑战性,但没有得到很好的探索。一个可能的原因是因为缺乏用于微小物体检测的数据集和基准,因此与一般物体检测相比,研究人员对微小物体检测中的挑战关注较少。

微小目标检测对于真实世界的视觉应用非常重要,并且在几个方面不同于一般的目标检测。例如,由于对象非常小,而整个输入图像具有相对较大的视野,所以来自目标对象的信息要少得多,来自背景干扰的信息要多得多。此外,输入图像的大视场特性通常意味着微小物体被远距离成像,这使得具有各种姿态和视点的微小物体的检测更加困难。

第一次微小物体检测挑战采用了TinyPerson数据集。该数据集包含1610幅带有72651个盒级注释的图像,并且是从真实场景中收集的。挑战数据集中的人非常小,他们的纵横比有很大的差异,因此他们代表不同类型的对象。在下一节中,我们将总结关于挑战、方法和结果的详细信息。

2 TOD挑战

2.1 挑战数据集

  • 来自真实世界视频,50帧采样一次,去除重复图片,图像的大小主要是1920*1080。
  • TinyPerson中人的长宽比有较大的方差。具有多样的人的姿态和观点,它带来了更复杂的人的多样性。
  • 主要关注海边周围的人。
  • 有很多物体密集的图像(每张图像200人以上),将人分为海洋人(海洋中的人)或地球人(陆地上的人)。
  • 数据集忽略了难以分开成单个人的人群、模糊区域、大部分身体在水面以下的人。

2.2 评估指标

  • 平均精度 AP (average precision) and 失误率 MR(miss rate)
  • 尺寸范围分为3个区间:微小[2,20]小[20,32]全部[2,inf]。对于微小[2,20],它被分成3个子区间:tiny1[2,8]tiny2[8,12]tiny3[12,20]。并且IOU阈值设置为0.25和0.5,用于性能评估。与行人检测相同,“忽略”区域不参与评估,这意味着与它们匹配的检测包围盒不会产生假阳性。
  • 由于被忽略区域比人的区域大得多,因此将忽略区域的IOU(insertion of union)标准改为IOD(insertion of detection)
    IOU阈值概念
    IOD用于评估被忽略的区域。轮廓(inviolet)框代表一个标记的被忽略区域,虚线框代表未标记和被忽略的人。红色框是一个检测结果框,有一个被忽略的人的高欠条。

IOD用于评估被忽略的区域。轮廓(inviolet)框代表一个标记的被忽略区域,虚线框代表未标记和被忽略的人。红色框是一个检测结果框,有一个被忽略的人的高欠条。

3 结果和方法

第一次TOD挑战的结果如表1所示。在这一部分,将简要介绍前3名提交的方法。在这里插入图片描述

3.1 baidu_ppdet团队

Yuan Feng, Bin Zhang, Xiaodi Wang, Ying Xin, Jingwei Liu, Mingyuan Mao, Sheng Xu, Baochang Zhang, Shumin Han.(Baidu & Beihang University)

作者基于两阶段检测框架构建了检测器。他们检查了探测器不同组件的性能,得出了一个用于集成的大模型池。两阶段的检测器包括 Faster R-CNN,FPN, Deformable R-CNN和Cascade R-CNN。将数据集分两部分训练90%,验证10%
框架如图二所示。
在这里插入图片描述
数据增强
作者在MSCOCO和Object365数据集上预处理了他们的模型,以获得更好的性能。 为了解决尺度差异问题,作者在MSCOCO上实现了尺度匹配1,通过重新调整训练图像的比例来匹配TinyPerson中图像的大小分布,这有助于实现2%到3%的改善,即AP 50%

训练策略
作者以ResNet-101[6]为基线训练了fast R-CNN,AP tiny 50为57.9%。应用多尺度训练技巧后,APtiny 50达到60.1%。此外,擦除忽略区域,同时在有效集上验证以保持与评估相同,收益也接近2%。优化NMS阈值、样本比例和数量。最后,FRCNN-Res101的APtiny 50达到65.38%。

模型改进
特征表示一直是微小目标检测的关键。为了提高网络的特征表示能力,设计了一种新的特征融合方法。对于更快的CNN和FPN,P3层可以更好地代表微小的物体。相比之下,P3层的缺失带来了语义信息的丢失。因此,作者使用PAFPN2来代替检测器中的FPN,这将mAP提高了约1.5%。

模型集成
作者进一步用各种例如SENet-154、ResNet-200、CBNet和Res2Net-200的主干进行组合来训练网络。现有的集成方法可以有效地融合尺寸和性能相对接近的网络。然而,当涉及到尺寸和性能非常不同的模型时,结果会变得更糟,因为较小的模型会降低较大模型的性能。为了解决这个问题,作者提出了一种简单有效的集成方法,称为hierarchical coarse-to-fine(分层粗到细),如图3所示。
在这里插入图片描述

3.2 STY-402团队

Cheng Gao, Wei Tang, Lizuo Jin (Southeast University)

作者采用Faster R-CNN,ResNet-50、FPN、DCNv2为基线模型。所有的模特都是在MS COCO上预训练。基线采用从 P2 到 P6 的特征金字塔等级,锚的面积定义为(122, 242,4822,962,1922)像素。在ResNet-50的第3-5阶段,可变形卷积应用于所有卷积层。

骨干网络
在基线中,第一阶段的权重被冻结。由于MS COCO和TinyPerson的区别比较明显,所以主干中的卷积层都是不冻结的。此外,在FPN的每个卷积层之后添加批处理规范化层。作者用ResNet-vd代替ResNet。而且Res2Net是一种新的多尺度骨干架构,可以不费力地进一步提高几个有代表性的计算机视觉任务的性能。作者还用26w×4s训练了Res2Net-50,性能比ResNet-50-vd提高了3%。

多尺度训练
短边的刻度是从832、896、960、1024、1088、1152、1216、1280、1344、1408、1472、1500中随机取样的,而长边在PaddleDetection中固定为2000。特别是由于GPU内存有限,训练ResNeXt101(64×4d)时,短边最大值设为1280。在MMDetection中,短边的比例从480、528、576、624、672、720、768、816、912、960中随机采样,长边固定为1280。

训练技巧
在培训练阶段,NMS之前的推荐数量从2000个更改为12000个。并且在测试阶段将数据改为6000。

数据扩充
采用随机水平翻转、随机裁剪、随机扩展和剪切混合来增加训练数据。VisDrone也用作附加数据,只使用类别0、1、2,删除类别3-11。

大尺度测试
测试采用大尺度(1280 × 960)。为了获得更好的性能,同时还使用了另一个大尺度(1024 × 768)进行测试。

双阈值测试
如果子图像检测结果的最高置信度小于某个阈值(0.5),则该子图像将被视为纯背景图像并被忽略。

模型集成
他们使用不同的主干训练7个模型,如图4所示。除了HRNetV2p-W18接受过MMDetection训练外,其余模型均接受过PaddleDetection训练。最后通过加权框融合得到最终的集成结果(IoU阈值为0.6)。
在这里插入图片描述

3.3 BRiLliant团队

Mingbo Hong, Yuchao Yang, Huan Luo, Shuiwang Li, Qijun Zhao(College of Computer Science, Sichuan University)

为了探索微小物体中更详细的特征,作者利用高分辨率网络作为主干网络,允许网络提取高分辨率表示。为了同时检测不同尺度的对象,作者在区域建议网络中引入了一个改进的卷积块注意模块(CBAM)3,以引导网络寻找如图5所示的地方。与传统的CBAM不同,改进的CBAM增加了一个抑制块,以平衡不同比例的对象之间的注意力值。此外,为了针对不同比例的对象提出不同数量的建议,作者使用Top k采样器而不是固定阈值来选择正样本,如图6所示,并且选择是基于IOU度量,而不是ATSS中使用的中心距离。所提出的采样器适应于物体的尺度,这可以更准确地检测微小物体,而ATSS可能根本不会为微小物体生成任何正样本。
在这里插入图片描述
在这里插入图片描述

4 结论

微小目标检测相关任务对于许多真实世界的计算机视觉应用是重要的,解决其技术挑战的进展也可以帮助一般目标检测研究。作者希望第一次TOD挑战是这一有希望的研究方向中有用的第一步。


  1. Yu, X., Gong, Y., Jiang, N., Ye, Q., Han, Z.: Scale match for tiny person detection.In: W ACV. pp. 1257–1265 (2020)
    文章链接:https://arxiv.org/abs/1912.10664
    我的笔记:https://editor.csdn.net/md?articleId=111567522 ↩︎ ↩︎

  2. Tan, M., Pang, R., Le, Q.V.: Efficientdet: Scalable and efficient object detection.In: CVPR. pp. 10781–10790 (2020) ↩︎

  3. Woo, S., Park, J., Lee, J.Y., So Kweon, I.: Cbam: Convolutional block attention
    module. In: ECCV. pp. 3–19 (2018) ↩︎

这篇关于【文献阅读6】第一届微小目标检测TOD挑战赛的冠军方案解读:方法和结果!的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/537070

相关文章

无人叉车3d激光slam多房间建图定位异常处理方案-墙体画线地图切分方案

墙体画线地图切分方案 针对问题:墙体两侧特征混淆误匹配,导致建图和定位偏差,表现为过门跳变、外月台走歪等 ·解决思路:预期的根治方案IGICP需要较长时间完成上线,先使用切分地图的工程化方案,即墙体两侧切分为不同地图,在某一侧只使用该侧地图进行定位 方案思路 切分原理:切分地图基于关键帧位置,而非点云。 理论基础:光照是直线的,一帧点云必定只能照射到墙的一侧,无法同时照到两侧实践考虑:关

高效+灵活,万博智云全球发布AWS无代理跨云容灾方案!

摘要 近日,万博智云推出了基于AWS的无代理跨云容灾解决方案,并与拉丁美洲,中东,亚洲的合作伙伴面向全球开展了联合发布。这一方案以AWS应用环境为基础,将HyperBDR平台的高效、灵活和成本效益优势与无代理功能相结合,为全球企业带来实现了更便捷、经济的数据保护。 一、全球联合发布 9月2日,万博智云CEO Michael Wong在线上平台发布AWS无代理跨云容灾解决方案的阐述视频,介绍了

综合安防管理平台LntonAIServer视频监控汇聚抖动检测算法优势

LntonAIServer视频质量诊断功能中的抖动检测是一个专门针对视频稳定性进行分析的功能。抖动通常是指视频帧之间的不必要运动,这种运动可能是由于摄像机的移动、传输中的错误或编解码问题导致的。抖动检测对于确保视频内容的平滑性和观看体验至关重要。 优势 1. 提高图像质量 - 清晰度提升:减少抖动,提高图像的清晰度和细节表现力,使得监控画面更加真实可信。 - 细节增强:在低光条件下,抖

JAVA智听未来一站式有声阅读平台听书系统小程序源码

智听未来,一站式有声阅读平台听书系统 🌟 开篇:遇见未来,从“智听”开始 在这个快节奏的时代,你是否渴望在忙碌的间隙,找到一片属于自己的宁静角落?是否梦想着能随时随地,沉浸在知识的海洋,或是故事的奇幻世界里?今天,就让我带你一起探索“智听未来”——这一站式有声阅读平台听书系统,它正悄悄改变着我们的阅读方式,让未来触手可及! 📚 第一站:海量资源,应有尽有 走进“智听

【C++】_list常用方法解析及模拟实现

相信自己的力量,只要对自己始终保持信心,尽自己最大努力去完成任何事,就算事情最终结果是失败了,努力了也不留遗憾。💓💓💓 目录   ✨说在前面 🍋知识点一:什么是list? •🌰1.list的定义 •🌰2.list的基本特性 •🌰3.常用接口介绍 🍋知识点二:list常用接口 •🌰1.默认成员函数 🔥构造函数(⭐) 🔥析构函数 •🌰2.list对象

浅谈主机加固,六种有效的主机加固方法

在数字化时代,数据的价值不言而喻,但随之而来的安全威胁也日益严峻。从勒索病毒到内部泄露,企业的数据安全面临着前所未有的挑战。为了应对这些挑战,一种全新的主机加固解决方案应运而生。 MCK主机加固解决方案,采用先进的安全容器中间件技术,构建起一套内核级的纵深立体防护体系。这一体系突破了传统安全防护的局限,即使在管理员权限被恶意利用的情况下,也能确保服务器的安全稳定运行。 普适主机加固措施:

Android平台播放RTSP流的几种方案探究(VLC VS ExoPlayer VS SmartPlayer)

技术背景 好多开发者需要遴选Android平台RTSP直播播放器的时候,不知道如何选的好,本文针对常用的方案,做个大概的说明: 1. 使用VLC for Android VLC Media Player(VLC多媒体播放器),最初命名为VideoLAN客户端,是VideoLAN品牌产品,是VideoLAN计划的多媒体播放器。它支持众多音频与视频解码器及文件格式,并支持DVD影音光盘,VCD影

webm怎么转换成mp4?这几种方法超多人在用!

webm怎么转换成mp4?WebM作为一种新兴的视频编码格式,近年来逐渐进入大众视野,其背后承载着诸多优势,但同时也伴随着不容忽视的局限性,首要挑战在于其兼容性边界,尽管WebM已广泛适应于众多网站与软件平台,但在特定应用环境或老旧设备上,其兼容难题依旧凸显,为用户体验带来不便,再者,WebM格式的非普适性也体现在编辑流程上,由于它并非行业内的通用标准,编辑过程中可能会遭遇格式不兼容的障碍,导致操

透彻!驯服大型语言模型(LLMs)的五种方法,及具体方法选择思路

引言 随着时间的发展,大型语言模型不再停留在演示阶段而是逐步面向生产系统的应用,随着人们期望的不断增加,目标也发生了巨大的变化。在短短的几个月的时间里,人们对大模型的认识已经从对其zero-shot能力感到惊讶,转变为考虑改进模型质量、提高模型可用性。 「大语言模型(LLMs)其实就是利用高容量的模型架构(例如Transformer)对海量的、多种多样的数据分布进行建模得到,它包含了大量的先验

烟火目标检测数据集 7800张 烟火检测 带标注 voc yolo

一个包含7800张带标注图像的数据集,专门用于烟火目标检测,是一个非常有价值的资源,尤其对于那些致力于公共安全、事件管理和烟花表演监控等领域的人士而言。下面是对此数据集的一个详细介绍: 数据集名称:烟火目标检测数据集 数据集规模: 图片数量:7800张类别:主要包含烟火类目标,可能还包括其他相关类别,如烟火发射装置、背景等。格式:图像文件通常为JPEG或PNG格式;标注文件可能为X