Enriched Feature Guided Refinement Network for Object Detection(面向目标检测的丰富特征引导细化网络)

本文主要是介绍Enriched Feature Guided Refinement Network for Object Detection(面向目标检测的丰富特征引导细化网络),希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

Jing Nie1∗ †, Rao Muhammad Anwer2∗, Hisham Cholakkal2, Fahad Shahbaz Khan2
Yanwei Pang1‡, Ling Shao2
1School of Electrical and Information Engineering, Tianjin University
2Inception Institute of Artificial Intelligence (IIAI), UAE
1{jingnie,pyw}@tju.edu.cn,
2{rao.anwer, hisham.cholakkal, fahad.khan, ling.shao}@inceptioniai.org

我们提出了一个单阶段检测框架,共同解决多尺度目标检测和类不平衡的问题。我们没有设计更深层的网络,而是引入了一个简单而有效的特征丰富方案来产生多尺度的上下文特征。我们进一步提出了一种级联改进方案,该方案首先在单级检测器的预测层中加入多尺度上下文特征,以增强其对多尺度检测的分辨能力。第二,级联细化方案通过细化锚和丰富特征来改善分类和回归,解决了类不平衡问题。实验在两个基准上进行:PASCAL VOC和MS COCO。对于MS COCO测试设备上的320×320输入,我们的探测器在单尺度推断的情况下达到了最先进的单级检测精度,COCO AP为33.2,而在Titan XP GPU上以21毫秒的速度运行。对于MS-COCO测试dev上的512×512输入,我们的方法获得的COCO-AP绝对增益为1.6%,与最好的单级结果相比[5]。源代码和模型可从以下网址获得:https://github.com/Ranchentx/EFGRNet

摘要提出了一种单级检测框架,解决了多尺度目标检测和类不平衡的问题。我们没有设计更深层的网络,而是引入了一个简单而有效的特征丰富方案来产生多尺度的上下文特征。我们进一步提出了一种级联改进方案,该方案首先在单级检测器的预测层中加入多尺度上下文特征,以增强其对多尺度检测的分辨能力。第二,级联细化方案通过细化锚和丰富特征来改善分类和回归,解决了类不平衡问题。实验在两个基准上进行:PASCAL VOC和MS COCO。对于MS COCO测试设备上的320×320输入,我们的探测器在单尺度推断的情况下达到了最先进的单级检测精度,COCO AP为33.2,而在Titan XP GPU上以21毫秒的速度运行。对于MS-COCO测试dev上的512×512输入,我们的方法获得的COCO-AP绝对增益为1.6%,与最好的单级结果相比[5]。源代码和模型可从以下网址获得:https://github.com/Ranchentx/EFGRNet。

一。介绍

目标检测是一个活跃的研究课题,在现实世界中有着广泛的应用。基于卷积神经网络(CNNs)的现代目标检测方法可分为两类:(1)两阶段方法[33,23],(2)单阶段方法[27,32]。两阶段方法首先生成目标建议,然后对这些建议进行分类和回归。单阶段方法直接在输入图像上通过规则和密集的采样网格对目标进行定位。与单阶段方法相比,相应的作者项目检测器具有更精确的优点。另一方面,与两级检测器相比,单级方法具有时间计算效率,但在性能上存在折衷[19]。在这项工作中,我们研究了在一个单阶段框架中的通用对象检测问题。近年来,各种单级目标检测方法相继推出[27、32、41、24]。在现有的单级目标检测器中,单镜头多盒检测器(SSD)[27 ]由于其改进的检测性能和高速的综合优点而最近获得了普及。标准SSD框架利用一个基本网络(例如VGG)并在截断的基本网络的末尾添加一系列卷积层。增加的卷积层和一些不同分辨率的早期基础网络层都被用来进行独立预测。在标准SSD中,每个预测层侧重于预测特定规模的对象。它采用金字塔特征层次结构,其中浅层或前层以小目标为目标,而深层或后层以检测大目标为目标。SSD虽然具有较高的计算效率,但在检测精度上仍落后于大多数现代两级检测器。在这项工作中,我们区分了两个阻碍标准固态硬盘探测器在保持其标志性速度的情况下达到实时精度的关键障碍。首先,标准SSD难以处理大规模变化[1]。这可能是由于SSD预测层中的固定上下文信息造成的。现有的方法解决了这个问题,例如,添加上下文信息连同更深的骨干模型[13 ]和特征金字塔表示[41, 24, 4,30 ]。大多数方法[41,24,4]采用自顶向下的金字塔表示,其中深层的低分辨率特征映射首先被上采样,然后与浅层的高分辨率特征映射相结合,以注入高层语义信息。虽然这样的特征金字塔表示有助于解决大规模变化,但性能仍然远远不能令人满意。

第二个关键问题是在训练固态硬盘探测器时遇到的地面背景类9537不平衡问题。对这个问题的现有解决方案[24, 41 ]包括,例如,对一组稀疏的硬示例进行训练,同时向下加权良好分类的示例,并结合两步锚细化策略,通过去除负锚来减少分类器的搜索空间。尽管取得了成功,但[41]的工作采用了自上而下的特征金字塔表示,并且只对锚进行了优化,因为锚的特征与优化后的锚不太一致。在这项工作中,我们寻找一种替代的方法来共同解决多尺度目标检测和类不平衡的问题,以提高SSD的精度而不牺牲其特征速度。贡献:我们再次访问标准SSD框架,共同解决多尺度目标检测和类不平衡问题。首先,我们引入了一种特征丰富方案来提高标准SSD中预测层的识别能力。我们的特征丰富方案不是深化主干模型,而是设计来产生多尺度的上下文特征。我们进一步引入了一个具有双重目标的级联优化方案。首先,它将多尺度的上下文特征嵌入到标准的dpredictionlayersinbottomuppyramidal特征层次中。由此得到的丰富特征对尺度变化更为稳健。其次,利用丰富的特征进行类不可知分类和边界盒回归以实现精确定位,解决了类不平衡问题。然后,利用初始盒回归和二元分类进一步细化相关的丰富特征,得到最终的分类得分和边界盒回归。我们对具有挑战性的基准进行了全面的实验:PASCAL VOC 2007[12]和MS COCO[25]。我们的检测器取得了优于现有的单阶段方法在两个数据集的结果。对于MS-COCO测试集上的512×512,我们的检测器在COCO-AP方面比具有相同主干(VGG)的RefineDet[41]高4.5%,而在Titan XP GPU上以39毫秒(MS)的推断时间工作。

物体检测[33,27,7,28,35]是一个具有挑战性和主动性的计算机视觉问题。基于卷积神经网络(CNNs)[36,18,9,38,29,37]的目标检测器[14,15,32,17,33,8,27,2]近年来取得了显著的效果。这项工作的重点是单级目标探测器[32,27],它们通常比两级探测器更快。在现有的单级方法中,SSD〔27〕已显示出在实时操作时提供优异的性能。它使用多尺度表示来检测金字塔层次结构中的对象。在这种层次结构中,浅层有助于预测较小的对象,而深层有助于检测较大的对象。我们的方法基于标准的固态硬盘,因为它的高精度和高速。单级探测器,如SSD,难以精确地探测到具有显著尺度变化的物体。此外,SSD检测器还存在类不平衡问题。文献[13, 3, 6,42 ]中的现有方法通过利用上下文信息、更好的特征提取或自顶向下特征金字塔表示来解决第一个问题。一种流行的策略是构建一个自顶向下的特征金字塔表示,将高层语义信息从较深层注入到信息有限的浅层[24,4]。文献[30]提出了一种基于图像金字塔的特征金字塔构造方法,称之为特征图像金字塔。相比之下,我们的方法不需要任何特征化的图像金字塔或自顶向下的金字塔结构,而是侧重于捕获多尺度的上下文信息。此外,我们的方法包含一个专用模块来解决类不平衡问题。[6]的工作是通过一个多变形头部来研究上下文的集成,并使用盒回归(位置和比例偏移)来细化特征。相反,我们从两个方面提高标准SSD预测层的区分能力。首先,我们介绍了一个从多分支ResNeXT体系结构[39,31]中获得灵感的特性丰富方案,该方案生成多尺度上下文特性,以使用上下文信息丰富标准SSD特性。其次,我们引入了一个级联的细化方案,其中盒回归和二元分类都被用来细化特征。二进制分类(对象类别预测)用于生成突出显示可能的对象位置的对象映射。在特征优化过程中,仅使用位置偏移与优化的定位点对齐特征,而忽略比例偏移。为了解决训练阶段的等级不平衡问题,RetinaNet[24]引入了焦点损失来降低简单样本的贡献。RefineDet[41]提出了一个两步锚细化模块,通过去除几个负锚来减少分类器的搜索空间。此外,锚细化模块粗略地调整锚的位置。与文献[41]不同,我们的级联改进方案首先将多尺度上下文信息注入标准SSD预测层,从而利用丰富的特征。此外,级联优化移除了几个负锚定,不仅优化了锚定位置,还优化了特征。

我们的检测框架由三部分组成:标准SSD层、特征丰富(FE)方案和级联细化方案。我们的FE计划(第。3.1)包含一个多尺度上下文特征模块(MSCF),用于处理尺度变化。有限元格式产生多个缩放上下文特征以提高标准SSD预测层的区分能力。级联优化方案(第。3.2)利用多尺度上下文和标准SSD特性,解决类不平衡问题。级联细化方案通过对两个级联模块(对象模块(OM)和特征引导细化模块(FGRM))分别进行盒回归和分类,细化锚和特征。objectness模块(OM)执行对象与背景的二元分类以及初始的box回归。然后,FGRM模块细化特征和锚定位置,以预测最终的多类分类和边界框定位。

图1示出了当使用VGG作为骨干网络时,我们的框架的总体架构,如[27]。在[41]之后,我们只使用四个预测层(conv4 3、f c7、conv8 2、conv9 2)进行检测,而不是原始SSD中使用的六个层。将预测层增加到4层以上并不能提高我们的性能。

在标准SSD框架中,从深卷积网络骨干网(例如VGG16或ResNet)中的特征提取通过卷积和最大池操作的重复过程来执行。尽管保留了一定程度的语义信息,但它们仍然丢失了有助于区分目标区域和背景区域的低级特征信息。此外,在每个预测层的恒定接收场仅捕获固定的上下文信息。在这项工作中,我们引入了一个特征丰富(FE)方案来捕捉多尺度的上下文信息。我们首先使用一个简单的池操作对输入图像进行下采样,以使其大小与第一个SSD预测层的大小相匹配。然后,下采样图像通过我们的多尺度上下文特征(MSCF)模块。多尺度上下文特征模块:在图1(b)中,用蓝色虚线框突出显示所提议的MSCF模块。它是一个简单的模块,由几个卷积操作组成,并产生多尺度的上下文特征。MSCF模块的结构灵感来源于多分支ResNeXT体系结构[39,31],是一种分裂、转换和聚合策略的操作。MSCF模块以降采样图像作为输入,输出增强的多尺度特征。下采样图像首先通过大小为3×3和1×1的两个连续卷积层,产生初始特征投影。然后,通过1×1卷积层将这些特征投影分割成三维低维分支。为了捕获多尺度上下文信息,我们使用三个扩张卷积[40],对于不同的分支,扩张率分别设置为1、2和4。扩展卷积运算将初始特征投影转换为上下文增强的9539特征集。然后,这些转换后的特征通过级联操作聚合并传递到1×1卷积操作。MSCF的输出用于我们的级联优化方案的对象模块(OM)。

3.2条。级联求精方案我们的求精方案由两个级联模块组成:目标模块和特征引导求精模块(FGRM),如图1(a)所示。对象模块通过多尺度上下文信息和可识别的对象位置(objectness)来丰富SSD特性。利用多尺度上下文信息丰富特征可以提高小对象的性能,而在FGRM中使用对象预测来解决类不平衡问题。对象模块:对象模块首先通过元素乘法操作,从conv4 3的MCSF模块中注入多尺度上下文特征,从而丰富SSD特性。然后,如图1(a)所示,我们引入自下而上的金字塔特征层次来将丰富的特征传播到随后的SSD预测层。对象模块采用3×3卷积运算,步长为2(D),将前一层的特征投影到与当前层的空间分辨率和通道数相匹配的位置。然后通过在每个预测层上执行投影特征和SSD特征之间的元素相乘来获得丰富的特征。最后,使用丰富的特征在每个预测层x处执行二元分类(C1x)和初始盒回归(B1x)。这里x=1、2、3和4对应于四个预测层。图2示出了来自PASCAL VOC数据集的示例图像和来自标准SSD(第二列)、D(第三列)之后的多尺度上下文特征和丰富的特征(第四列)的对应f c7特征图。实例表明,利用多尺度上下文信息丰富标准SSD特性有助于更加关注包含对象实例的区域。在FGRM中进一步使用了从对象模块输出的二值分类c1xout,通过过滤掉大量的负锚来减少正锚和负锚之间的类不平衡。此外,C1xoutput还用于生成一个注意图,以引导丰富的特征在抑制背景的同时更加注意对象。在FGRM中还使用box回归B1xoutputs来优化特性和锚定位置。

这篇关于Enriched Feature Guided Refinement Network for Object Detection(面向目标检测的丰富特征引导细化网络)的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/896881

相关文章

综合安防管理平台LntonAIServer视频监控汇聚抖动检测算法优势

LntonAIServer视频质量诊断功能中的抖动检测是一个专门针对视频稳定性进行分析的功能。抖动通常是指视频帧之间的不必要运动,这种运动可能是由于摄像机的移动、传输中的错误或编解码问题导致的。抖动检测对于确保视频内容的平滑性和观看体验至关重要。 优势 1. 提高图像质量 - 清晰度提升:减少抖动,提高图像的清晰度和细节表现力,使得监控画面更加真实可信。 - 细节增强:在低光条件下,抖

Linux 网络编程 --- 应用层

一、自定义协议和序列化反序列化 代码: 序列化反序列化实现网络版本计算器 二、HTTP协议 1、谈两个简单的预备知识 https://www.baidu.com/ --- 域名 --- 域名解析 --- IP地址 http的端口号为80端口,https的端口号为443 url为统一资源定位符。CSDNhttps://mp.csdn.net/mp_blog/creation/editor

poj 2349 Arctic Network uva 10369(prim or kruscal最小生成树)

题目很麻烦,因为不熟悉最小生成树的算法调试了好久。 感觉网上的题目解释都没说得很清楚,不适合新手。自己写一个。 题意:给你点的坐标,然后两点间可以有两种方式来通信:第一种是卫星通信,第二种是无线电通信。 卫星通信:任何两个有卫星频道的点间都可以直接建立连接,与点间的距离无关; 无线电通信:两个点之间的距离不能超过D,无线电收发器的功率越大,D越大,越昂贵。 计算无线电收发器D

烟火目标检测数据集 7800张 烟火检测 带标注 voc yolo

一个包含7800张带标注图像的数据集,专门用于烟火目标检测,是一个非常有价值的资源,尤其对于那些致力于公共安全、事件管理和烟花表演监控等领域的人士而言。下面是对此数据集的一个详细介绍: 数据集名称:烟火目标检测数据集 数据集规模: 图片数量:7800张类别:主要包含烟火类目标,可能还包括其他相关类别,如烟火发射装置、背景等。格式:图像文件通常为JPEG或PNG格式;标注文件可能为X

ASIO网络调试助手之一:简介

多年前,写过几篇《Boost.Asio C++网络编程》的学习文章,一直没机会实践。最近项目中用到了Asio,于是抽空写了个网络调试助手。 开发环境: Win10 Qt5.12.6 + Asio(standalone) + spdlog 支持协议: UDP + TCP Client + TCP Server 独立的Asio(http://www.think-async.com)只包含了头文件,不依

poj 3181 网络流,建图。

题意: 农夫约翰为他的牛准备了F种食物和D种饮料。 每头牛都有各自喜欢的食物和饮料,而每种食物和饮料都只能分配给一头牛。 问最多能有多少头牛可以同时得到喜欢的食物和饮料。 解析: 由于要同时得到喜欢的食物和饮料,所以网络流建图的时候要把牛拆点了。 如下建图: s -> 食物 -> 牛1 -> 牛2 -> 饮料 -> t 所以分配一下点: s  =  0, 牛1= 1~

poj 3068 有流量限制的最小费用网络流

题意: m条有向边连接了n个仓库,每条边都有一定费用。 将两种危险品从0运到n-1,除了起点和终点外,危险品不能放在一起,也不能走相同的路径。 求最小的费用是多少。 解析: 抽象出一个源点s一个汇点t,源点与0相连,费用为0,容量为2。 汇点与n - 1相连,费用为0,容量为2。 每条边之间也相连,费用为每条边的费用,容量为1。 建图完毕之后,求一条流量为2的最小费用流就行了

poj 2112 网络流+二分

题意: k台挤奶机,c头牛,每台挤奶机可以挤m头牛。 现在给出每只牛到挤奶机的距离矩阵,求最小化牛的最大路程。 解析: 最大值最小化,最小值最大化,用二分来做。 先求出两点之间的最短距离。 然后二分匹配牛到挤奶机的最大路程,匹配中的判断是在这个最大路程下,是否牛的数量达到c只。 如何求牛的数量呢,用网络流来做。 从源点到牛引一条容量为1的边,然后挤奶机到汇点引一条容量为m的边

基于 YOLOv5 的积水检测系统:打造高效智能的智慧城市应用

在城市发展中,积水问题日益严重,特别是在大雨过后,积水往往会影响交通甚至威胁人们的安全。通过现代计算机视觉技术,我们能够智能化地检测和识别积水区域,减少潜在危险。本文将介绍如何使用 YOLOv5 和 PyQt5 搭建一个积水检测系统,结合深度学习和直观的图形界面,为用户提供高效的解决方案。 源码地址: PyQt5+YoloV5 实现积水检测系统 预览: 项目背景

JavaFX应用更新检测功能(在线自动更新方案)

JavaFX开发的桌面应用属于C端,一般来说需要版本检测和自动更新功能,这里记录一下一种版本检测和自动更新的方法。 1. 整体方案 JavaFX.应用版本检测、自动更新主要涉及一下步骤: 读取本地应用版本拉取远程版本并比较两个版本如果需要升级,那么拉取更新历史弹出升级控制窗口用户选择升级时,拉取升级包解压,重启应用用户选择忽略时,本地版本标志为忽略版本用户选择取消时,隐藏升级控制窗口 2.