本文主要是介绍End-to-End Object Detection with Fully Convolutional Network论文翻译,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
End-to-End Object Detection with Fully Convolutional Network论文翻译
- 摘要
- 1.介绍
- 2.相关工作
- 2.1 全卷积目标检测器
- 2.2 端到端的目标检测
- 3.方法
- 3.1 标签分配的分析
- 3.1.1 One-to-many标签分配
- 3.1.2 手工设计的One-to-one标签分配
- 3.2 我们的方法
- 3.2.1 Prediction-aware One-to-one标签分配
- 3.2.2 3D Max Filtering
- 3.2.3 辅助损失
- 4. 实验
- 4.1 实现细节
- 4.2 COCO上的消融研究
- 4.2.1 可视化
- 4.2.2 Prediction-Aware One-to-One标签分配
- 4.2.3 3D Max Filtering
- 4.2.4 更大的骨干网络
- 4.3 在CrowdHuman上的评估
- 5.结论
- 参考文献
代码地址:https://github.com/Megvii-BaseDetection/DeFCN
论文地址:https://arxiv.org/pdf/2012.03544.pdf
作者知乎解析:https://zhuanlan.zhihu.com/p/332281368
摘要
主流的基于全卷积网络的目标检测器已经取得了令人瞩目的性能。虽然他们中的大多数仍然需要手工设计的非最大抑制(NMS)后处理,这阻碍了完全端到端训练。在本文中,我们给出了丢弃NMS的分析,结果表明适当的标签分配起着至关重要的作用。为此,对于全卷积检测器,我们引入了一个 Prediction-aware one-to-one(POTO)标签分配分类,以实现端到端检测,其性能与使用NMS相当。此外,还提出了一种简单的 3D Max Filtering(3DMF)方法,利用多尺度特征,提高卷积在局部区域的识别能力。通过这些技术,我们的端到端框架在COCO和CrowdHuman数据集上获得了与许多先进的检测器相比具有竞争力的性能。
1.介绍
目标检测是计算机视觉中的一个基本课题,它为每幅图像预测一组带有预定义类别标签的边界框。大多数主流检测器[8,20,26,49]利用一些手工设计,如基于锚的标签分配和非最大抑制(NMS)。最近,人们提出了很多方法[42,52,5],通过使用 距离感知和基于分布的标签分配 来消除预定义的锚框集合。尽管它们取得了显著的进步和卓越的性能,但仍然存在着放弃手工设计的NMS后处理的挑战,这阻碍了完全端到端训练。
为了解决这个问题,提出了Learnable NMS[11],Soft-NMS [1]和CenterNet[5]来改善重复去除,但仍然没有提供有效的端到端训练策略 。与此同时,许多基于递归神经网络的方法[39,31,23,28,32]被引入使用自回归解码器来预测每个实例的边界框。这些方法为边界框的预测提供了自然的顺序建模。但这种方法只在一些小的数据集上进行评估,没有采用现代的检测器,迭代的方法使得推理过程效率低下。
最近,DETR[3]引入了一种基于二匹配的训练策略和有并行解码器的transformers,以实现端到端检测。它实现了竞争性能相对于许多最先进的检测器。然而,目前DETR的训练时间长得多,覆盖范围小,性能相对较低。为此,本文探索了一个新的视角:全卷积网络能否实现竞争性端到端目标检测?
在本文中,我们试图从两个维度来回答这个问题,即标签分配和网络架构。如图1所示,大部分的全卷积检测器[20, 42, 46, 19]采用one-to-many的标签分配规则,也就是说对于一个GT,采用多个预测作为前景采样。该规则提供了足够的前景样本,以获得强大和鲁棒的特征表示。然而,大量的前景样本会导致对单个实例重复预测框,从而阻止端到端检测。为了证明这一点,我们首先给出了一个经验比较不同的现有的手工设计标签分配。我们发现,单标签分配在消除重复去除的后处理中起着至关重要的作用。然而,手工设计的one-to-one分配仍有一个缺点。固定的赋值会导致模糊问题,降低特征的可区分性,因为实例的预定义区域可能不是[14]进行训练的最佳选择。为了解决这一问题,我们提出了一种基于预测感知的一对一(POTO)标签分配方法,该方法根据分类质量和回归质量同时动态分配前景样本。
此外,对于现代基于FPN的[42]检测器,广泛的实验表明,重复边界框主要来自邻近尺度上最可靠预测的邻近区域。因此,我们设计了一个3D Max Filtering(3DMF),它可以作为可微模块嵌入FPN头中。该模块通过使用一个简单的3D Max Filtering算子跨相邻尺度,提高了局部区域卷积的判别能力。此外,为了对特征表示学习提供足够的监督,我们修改了one-to-many分配作为辅助损失。
通过提出的技术,我们的端到端检测框架实现了与许多先进的检测器竞争的性能。在COCO[21]数据集上,我们基于FCOS框架[42]和ResNeXt-101[45]骨干的端到端检测器的性能比使用NMS时的基线高出1.1%。此外,我们的端到端检测器在拥挤检测中具有更强的鲁棒性和灵活性。为了证明该算法在拥挤场景中的优越性,我们在CrowdHuman[33]数据集上构建了更多的实验。在ResNet-50主干网下,我们的端到端检测器相比于有NMS的FCOS基准实现了3.1% AP50和5.6% mMR的绝对收益。
2.相关工作
2.1 全卷积目标检测器
由于卷积网络的成功[10,36,37,35,18,47],目标检测在过去的十年中取得了巨大的进步。现代的one-stage检测器[20,22,27,34]或two-stage检测器[29,19,2]严重依赖锚或基于锚的方案。在这些检测器中,锚定框由预定义的滑动窗口组成,它们被分配为带有边框偏移的前景或背景采样。由于是手工设计和数据独立的锚点,基于锚的检测器的训练目标通常是次优的,需要仔细调整超参数。最近,FCOS[42]和CornerNet[16]引入了一个无锚框架,为全卷积检测器提供了一个不同的视角。这些方法提供了更简单、更灵活的检测管道和较少的手工超参数,进一步证明了在一些具有挑战性的数据集上的有效性。然而,这些框架仍然需要手工设计的消除重复的后处理步骤,即非最大抑制(NMS)。由于NMS是一种启发式方法,并对所有实例采用一个恒定的阈值,因此需要仔细调优它,而且可能不够健壮,特别是在拥挤的场景中。与此相反,本文在无锚框架的基础上,提出了一个prediction-aware one-to-one分配规则来丢弃不可训练的NMS。
2.2 端到端的目标检测
为了实现端到端检测,在之前的文献中探索了很多方法。具体地说,在早期的研究中,许多基于递归神经网络的检测框架[39,31,23,28,32]都试图直接生成一组边界框。尽管它们原则上允许端到端学习,但它们只在一些小数据集上被证明有效,而不与现代基线相对抗[42,7]。同时,提出了一种可学习的NMS[11],通过使用非常复杂的深度网络来学习重复删除,其性能与NMS相当。但它是由离散组件构成的,并没有给出一个有效的解决方案来实现端到端训练。最近,relation network[12]和DETR[3]将注意机制应用到目标检测中,建立了不同预测之间的成对关系。通过使用one-to-one分配规则和直接设置损失,他们不需要任何额外的后处理步骤。然而,在进行大规模预测时,这些方法需要很高的成本,这使得它们不适合密集预测框架。由于缺乏图像先验和多尺度融合机制,DETR的训练时间也比主流检测器长,对小目标的性能也较低。与上述方法不同,我们的方法是第一个实现基于全卷积网络的端到端目标检测的方法。
3.方法
3.1 标签分配的分析
为了揭示标签分配对端到端目标检测的影响,我们构建了几个COCO[21]数据集常规标签分配的消融研究。如表1所示,所有的实验都基于FCOS[42]框架,去掉了该框架的centerness,实现了head-to-head的比较。结果证明了 one-to-many分配在特征表示上的优越性和 one-to-one分配在丢弃NMS上的潜力。详细的分析将在下面的章节中进行阐述。
3.1.1 One-to-many标签分配
由于NMS后处理在稠密预测框架中被广泛采用[19,20,52,48,42,46],One-to-many的标签分配成为分配训练目标的传统方式。充分的前景样本可以得到强而鲁棒的特征表示。然而,当丢弃NMS时,由于One-to-many标签分配的冗余前景样本,重复的FP预测可能会导致性能显著下降,例如,在FCOS[20]基线上28.4%的mAP绝对下降。因此,检测器仅依靠One-to-many分配很难实现竞争性端到端检测。
3.1.2 手工设计的One-to-one标签分配
MultiBox[41]和YOLO[26]展示了应用One-to-one标签分配到稠密预测框架的潜力。在本文中,我们评估了两个One-to-one标签分配规则来揭示正在进行的与丢弃NMS的联系。这些规则由两个广泛使用的one-to-many标签赋值来修改:锚规则和中心规则。具体来说,锚点规则基于RetinaNet[20],每个ground-truth实例只分配给相交过并最大的锚点(IoU)。中心规则基于FCOS[42],每个groundtruth实例只分配给预定义特征层中最接近实例中心的像素 。除此之外,其他锚点或像素设置为背景样本。
如表1所示,与one-to-many标签分配相比,one-to-one标签分配使得无NMS的全卷积检测器可以大大减小有NMS与无NMS的差距,达到合理的性能。例如,基于中心规则的检测器在FCOS基线上获得21.5%的map绝对增益。同时,避免了NMS在复杂场景下的错误抑制,进一步提高了召回率。然而,仍然存在两个尚未解决的问题。首先,当应用one-to-one标签分配时,有NMS和没有NMS的检测器之间的性能差距仍然不可忽略。其次,由于对每个实例的监督较少,one-to-one标签分配的性能仍然不如FCOS基线。
3.2 我们的方法
在本文中,为了实现端到端竞争性目标检测,我们提出了一种混合标签分配和一种新的3D Max Filtering(3DMF)。混合标签分配由提出的prediction-aware one-to-one(POTO)标签分配和修改的one-to-many标签分配(辅助损失)组成 。有了这些技术,我们的端到端框架可以抛弃NMS的后处理,而保持强大的特征表示。
3.2.1 Prediction-aware One-to-one标签分配
手工设计的One-to-one标签分配遵循一个固定的规则。然而,这个规则对于复杂场景中的各种实例可能不是最优的,例如,中心规则对于一个古怪的物体[14]。因此,如果在分配过程中强制分配次优的预测作为唯一的前景样本,网络的收敛困难会大大增加,导致更多的FP预测。为了这个目的,我们提出了一个新的规则,叫做 Prediction-aware One-To-One (POTO) 标签分配,根据预测质量动态分配样本。
让Ψ表示所有预测的索引。G和N分别对应GT和预测的数量,其中在稠密检测器中通过G << N。πˆ ∈ ΠNG表示对应标签G的N个预测。我们的POTO的目的是生成一个合适的πˆ作为前景样本。训练损失公式为Eq. 1,由前景损失Lfg和背景损失Lbg组成。
其中 R(πˆ)表示分配的前景样本对应的索引集。对于第i个GT,ci和bi分别为其类别标签和边界框坐标。而对于 πˆ(i)-th个预测, pˆπˆ(i)和bˆπˆ(i)分别对应其预测的分类分数和预测的边框坐标。
为了实现竞争性的端到端检测,需要找到合适的标签分配方法。如Eq. 2所示,以往的工作[6,3]利用前景损失[20,30]作为匹配代价,将其视为二匹配问题,匈牙利算法[39]可以快速解决该问题:
然而,前景损失通常需要额外的权重来缓解优化问题,如不平衡的训练样本和多任务的联合训练。如表1所示,该属性使得训练损失不是匹配代价中的最优选择。因此,如Eq. 3和Eq. 4所示,我们提出一个更干净和有效的公式(POTO)来找到一个更好的分配。
在这里,Qi,π(i) ∈ [0, 1]表示提出的第i个GT与第i个预测的匹配质量。同时考虑空间先验、分类的置信度和回归的质量 。Ωi表示第i个GT的候选预测集,即空间先验。空间先验在训练阶段被广泛使用[19,20,52,48,42,46]。例如,FCOS[42]采用了中心采样策略,只将ground-truth实例中心部分的预测值作为前景样本。我们也在POTO中应用它来获得更高的性能,但它不是丢弃NMS的必要条件(更多细节参见第4.2.2节)。为了达到平衡,我们用方程式4中的分类分数pˆπ(i)(ci)和回归质量IoU(bi,bˆπ(i))的加权几何平均值来定义质量。超参数α∈
[0,1]调整了分类与回归之间的比例,默认采用的是α = 0.8,更多的消融研究在第4.2.2节详细阐述。如表1所示,POTO不仅缩小了与NMS之间的差距,而且改善了性能。
3.2.2 3D Max Filtering
除了标签的分配,我们尝试设计一个有效的架构,以实现更有竞争力的端到端检测。为此,我们首先揭示重复预测的分布。如表2所示,对于一个现代的基于FPN的检测器[42],当分别将NMS应用到每个尺度时,性能有明显的下降。此外,我们发现重复预测主要来自最可靠预测的邻近空间区域。因此,我们提出了一个名为3D Max Filtering (3DMF)的新模块来抑制重复预测。
卷积是一种具有平移不变性的线性运算,它在不同位置对相似的图形产生相似的输出。但是,这个属性在消除重复方面有很大的障碍,因为对于稠密预测检测器来说,对同一个实例的不同预测通常具有类似的特性[20]。Max滤波器是一种基于排序的非线性滤波器[38],它可以用于补偿卷积在局部区域的识别能力。此外,在CenterNet[51]和CornerNet[16]等基于关键点的检测器中,也使用了max滤波作为一种新的后处理步骤来代替非最大抑制。它展示了执行重复删除的一些潜力,但不可训练的方式阻碍了有效性和端到端训练。同时,max filter只考虑了单尺度特征,这不适用于目前广泛使用的基于FPN的检测器[20,42,46]。
因此,我们将max filter扩展到一个多尺度的版本,称为3D max filter,它将FPN的各个尺度的特征进行变换。在feature map的每个通道上分别采用3D Max滤波。
具体如Eq. 5所示,给定FPN的尺度s中的一个输入特征xs,我们首先采用双线性算子[25]对τ相邻尺度的相邻特征插值到与输入xs相同的尺度。
如Eq. 6所示,对于s尺度下的空间位置i,在预先定义的三维相领域中,根据比例τ尺度和φ × φ的空间距离,得到ysi的最大值。这个操作可以通过高效的3D max-pooling运算符[24]轻松实现。
此外,为了将3D Max Filtering嵌入到现有框架中,实现端到端训练,我们提出了一个新的模块,如图3所示。该模块利用max滤波选择局部区域中活化值最高的预测,可以增强与其他预测的区别,在第4.2.1节进一步验证。由于这一特性,如图2所示,我们采用3DMF来细化粗密集预测,并抑制重复预测。所有的模块都由简单的可微算子构造,计算开销很小。
3.2.3 辅助损失
此外,在使用NMS时,如表1所示,POTO和3DMF的性能仍然低于FCOS基线。这可能是由于one-to-one的标签分配提供了较少的监督,使得网络难以学习到强而鲁棒的特征表示[40]。它可以进一步减少分类的分辨力,从而导致性能的下降。为此,受前人研究的启发[40,49,50],我们引入了一个基于one-to-many的标签分配来提供充足的监督,如图2所示。
与ATSS[46]相似,我们的辅助损失采用了改进的one-to-many标签分配的focal loss[20]。具体来说,one-to-many标签分配首先根据Eq. 4中提出的匹配质量,在每个FPN阶段将前9个预测作为候选。然后将匹配质量超过统计阈值的候选样本作为前景样本分配 。 统计阈值由所有候选匹配质量的均值和标准差的总和计算。另外,在补充材料中详细报告了辅助损失的one-to-many标签分配的不同形式。
4. 实验
在本节中,我们对COCO[21]和CrowdHuman[33]数据集进行了一些实验和可视化。
4.1 实现细节
与FCOS[42]一样,我们的检测器采用一对4-卷积的头分别进行分类和回归。在3DMF中,第一卷积和第二卷积的输出通道数分别为256和1。所有的骨干都是在ImageNet数据集[4]上预先训练的,并使用冷冻BN[13]。在训练阶段,对输入图像进行resize,使其短边为800像素。所有训练超参数与Detectron2[44]中的2x调度一致。具体的说,我们冻结了主干中前两个阶段的参数,并对网络的其余部分进行微调。所有实验在8个GPU上进行训练,每GPU 2张图像,180K次迭代,进行多尺度训练。初始学习率为0.01,在120K和160K迭代时学习率除以10。我们使用Synchronized SGD[15]优化所有的模型,重量衰减为0.0001,动量为0.9。此外,报告的运行时间都是在Tesla-V100 GPU上评估的。
4.2 COCO上的消融研究
4.2.1 可视化
如图4所示,我们展示了来自FCOS基线和我们所提议的框架的分类分数的可视化。对于单个实例,带有one-to-many分配规则的FCOS基线输出大量重复的预测,这些预测高度激活,并且具有与最自信的一个相当的激活分数。这些重复的预测被评估为FP样本,并极大地影响性能。相比之下,通过使用POTO规则,重复样本的分数得到了显著的抑制。这个特性对于检测器在不使用NMS的情况下实现直接的边界框预测至关重要。此外,通过提出的3DMF模块,该属性得到了进一步增强,特别是在最可靠预测的附近区域。此外,由于3DMF模块引入了多尺度竞争机制,检测器可以很好地跨不同FPN阶段进行独特的预测,如图4中在不同阶段的一个实例具有单个高激活分数的。
4.2.2 Prediction-Aware One-to-One标签分配
空间先验. 如表3所示,在分配的空间范围上,中心采样策略在COCO数据集上相对优于内框和全局策略。它反映了图像的先验知识在现实场景中是必不可少的。
分类 vs 回归. 如Eq. 4所示,超参数近似控制了分类与回归之间的重要性比率。如表3所示,当α = 1时,与NMS的差距并没有缩小。这可能是由于分类和回归的最佳位置不一致造成的。当α = 0时,分配规则只依赖于预测的分类分数。在这种情况下,与NMS的差距得到了很大的消除,但其绝对性能仍然不能令人满意,这可能是由于初始化过拟合不理想造成的。通过分类质量与回归质量的适当融合,可显著提高系统的绝对性能。
质量函数. 我们进一步探讨了不同融合方法对质量函数的影响,即式4。如表4所示,名为“Add”的方法用
代替了原始的质量函数,其形式与[17]相似。然而,我们发现乘法融合(Mul)更适合于端到端检测,它比加法融合方法获得了0.7%的mAP绝对增益。
4.2.3 3D Max Filtering
组件. 如表5所示,在没有NMS后处理的情况下,我们的带有POTO的端到端检测器相比普通FCOS实现了19.0%的map绝对增益。通过使用提议的3DMF,性能进一步提高了1.8% mAP,与NMS的差距缩小到0.2% mAP。如图4所示,结果显示了多尺度和局部距离抑制对于端到端目标检测的关键作用。提出的辅助损失提供了足够的监督,使我们的检测器获得了与NMS的FCOS竞争的性能。
端到端. 为了证明端到端训练方法的优越性,我们将CenterNet[5]的2D Max滤波替换为3D Max Filtering作为新的去除重复的后处理方法。在FCOS检测器上进一步采用了这种后处理方法。如表5所示,端到端的方式获得了1.1%的显著绝对增益。
核大小. 如表6所示,我们评估了3DMF中空间范围的不同设置。当取值为3和取值为2时,我们的方法在COCO数据集上获得了最高的性能。这一现象反映了重复预测主要来自邻近尺度的局部区域,与3.2.2节的观察相似。
性能和训练时间. 如图5(a)所示,在一开始,我们的端到端检测器在COCO val set上的性能不如使用NMS的检测器。随着训练的进行,性能的差距变得越来越小。经过180k的迭代训练,我们的方法最终优于NMS的其他检测器。这种现象在CrowdHuman val set上也会发生,如图5©所示。此外,由于去掉了手工设计的后处理,图5(b)显示了我们的方法相对于基于NMS的方法在召回率方面的优越性。
4.2.4 更大的骨干网络
为了进一步证明我们的方法的鲁棒性和有效性,我们提供了大骨架的实验。具体结果见表7。具体地说,当使用ResNet-101作为主干时,我们的方法略低于FCOS的0.3% mAP。但当引入更强的主干,即可变形卷积[53]的ResNeXt-101[45]时,我们的端到端检测器相对于使用NMS的FCOS实现了1.1%的map绝对增益。这可能归因于可变形卷积的灵活空间建模。此外,提出的3DMF是有效的和容易实现。如表7所示,相对于使用NMS的基线检测器,我们的3DMF模块只有轻微的计算开销。
4.3 在CrowdHuman上的评估
我们在CrowdHuman数据集[33]上评估我们的模型,这是一个具有各种遮挡的大型人体检测数据集。与COCO dataset相比,CrowdHuman的场景更加复杂和拥挤,给传统的重复删除带来了严峻的挑战。我们的端到端检测器在拥挤的场景中更加健壮和灵活。如表8和图5所示,我们的方法显著优于几种最先进的NMS检测器,例如,相对于FCOS的3.1% mAP和5.6% mMR绝对增益。此外,我们的方法的召回率甚至优于使用NMS的GT。
5.结论
为了弥补全卷积网络与端到端目标检测之间的差距,本文提出了一种基于预测感知的 one-to-one标签分配和3D Max Filtering 方法。在辅助损失的情况下,我们的端到端框架在COCO和CrowdHuman数据集上使用NMS实现了比许多先进检测器更优越的性能。我们的方法在复杂拥挤的场景中也显示了巨大的潜力,这可能有利于许多其他实例级任务。
附录的检测对比图,如图6所示,在有目标重叠情况下,带有NMS的FCOS确实是会去掉一些预测正确的框,而留下一些FP,而论文提出的方法在此方面有较好的效果;
如图7所示,论文中的方法能够得到更少的重叠框。
参考文献
[1] Navaneeth Bodla, Bharat Singh, Rama Chellappa, and
Larry S Davis. Soft-nms–improving object detection with
one line of code. In IEEE International Conference on Computer Vision, 2017. 1
[2] Zhaowei Cai and Nuno Vasconcelos. Cascade r-cnn: Delving
into high quality object detection. In IEEE Conference on
Computer Vision and Pattern Recognition, 2018. 2
[3] Nicolas Carion, Francisco Massa, Gabriel Synnaeve, Nicolas
Usunier, Alexander Kirillov, and Sergey Zagoruyko. End-toend object detection with transformers. European Conference on Computer Vision, 2020. 1, 2, 4
[4] Jia Deng, Wei Dong, Richard Socher, Li-Jia Li, Kai Li,
and Li Fei-Fei. Imagenet: A large-scale hierarchical image
database. In IEEE Conference on Computer Vision and Pattern Recognition, 2009. 6
[5] Kaiwen Duan, Song Bai, Lingxi Xie, Honggang Qi, Qingming Huang, and Qi Tian. Centernet: Keypoint triplets for
object detection. In IEEE International Conference on Computer Vision, 2019. 1, 7
[6] Dumitru Erhan, Christian Szegedy, Alexander Toshev, and
Dragomir Anguelov. Scalable object detection using deep
neural networks. In IEEE Conference on Computer Vision
and Pattern Recognition, 2014. 4
[7] Golnaz Ghiasi, Tsung-Yi Lin, and Quoc V Le. Nas-fpn:
Learning scalable feature pyramid architecture for object detection. In IEEE Conference on Computer Vision and Pattern
Recognition, 2019. 2
[8] Ross Girshick. Fast r-cnn. In IEEE International Conference
on Computer Vision, 2015. 1
[9] Jun Han and Claudio Moraga. The influence of the sigmoid function parameters on the speed of backpropagation
learning. In International Workshop on Artificial Neural Networks, 1995. 4
[10] Kaiming He, Xiangyu Zhang, Shaoqing Ren, and Jian Sun.
Deep residual learning for image recognition. In IEEE Conference on Computer Vision and Pattern Recognition, 2016.
2
[11] Jan Hosang, Rodrigo Benenson, and Bernt Schiele. Learning
non-maximum suppression. In IEEE Conference on Computer Vision and Pattern Recognition, 2017. 1, 2
[12] Han Hu, Jiayuan Gu, Zheng Zhang, Jifeng Dai, and Yichen
Wei. Relation networks for object detection. In IEEE Conference on Computer Vision and Pattern Recognition, 2018.
2
[13] Sergey Ioffe and Christian Szegedy. Batch normalization:
Accelerating deep network training by reducing internal covariate shift. arXiv preprint arXiv:1502.03167, 2015. 6
[14] Kang Kim and Hee Seok Lee. Probabilistic anchor assignment with iou prediction for object detection. arXiv preprint
arXiv:2007.08103, 2020. 2, 3
[15] Alex Krizhevsky, Ilya Sutskever, and Geoffrey E Hinton.
Imagenet classification with deep convolutional neural networks. In Advances in Neural Information Processing Systems, 2012. 6
[16] Hei Law and Jia Deng. Cornernet: Detecting objects as
paired keypoints. In European Conference on Computer Vision, 2018. 2, 5
[17] Hengduo Li, Zuxuan Wu, Chen Zhu, Caiming Xiong,
Richard Socher, and Larry S Davis. Learning from noisy
anchors for one-stage object detection. In IEEE Conference
on Computer Vision and Pattern Recognition, 2020. 7
[18] Yanwei Li, Lin Song, Yukang Chen, Zeming Li, Xiangyu
Zhang, Xingang Wang, and Jian Sun. Learning dynamic
routing for semantic segmentation. In IEEE Conference on
Computer Vision and Pattern Recognition, 2020. 2
[19] Tsung-Yi Lin, Piotr Dollar, Ross Girshick, Kaiming He, ´
Bharath Hariharan, and Serge Belongie. Feature pyramid
networks for object detection. In IEEE Conference on Computer Vision and Pattern Recognition, 2017. 2, 3, 4
[20] Tsung-Yi Lin, Priya Goyal, Ross Girshick, Kaiming He, and
Piotr Dollar. Focal loss for dense object detection. In ´ IEEE
International Conference on Computer Vision, 2017. 1, 2, 3,
4, 5, 6, 8
[21] Tsung-Yi Lin, Michael Maire, Serge Belongie, James Hays,
Pietro Perona, Deva Ramanan, Piotr Dollar, and C Lawrence ´
Zitnick. Microsoft coco: Common objects in context. In
European Conference on Computer Vision, 2014. 2, 6
[22] Wei Liu, Dragomir Anguelov, Dumitru Erhan, Christian
Szegedy, Scott Reed, Cheng-Yang Fu, and Alexander C
Berg. Ssd: Single shot multibox detector. In European Conference on Computer Vision, 2016. 2
[23] Eunbyung Park and Alexander C Berg. Learning to decompose for object detection and instance segmentation. arXiv
preprint arXiv:1511.06449, 2015. 1, 2
[24] Adam Paszke, Sam Gross, Francisco Massa, Adam Lerer,
James Bradbury, Gregory Chanan, Trevor Killeen, Zeming
Lin, Natalia Gimelshein, Luca Antiga, et al. Pytorch: An
imperative style, high-performance deep learning library. In
Advances in Neural Information Processing Systems, 2019.
5
[25] William H Press, Saul A Teukolsky, William T Vetterling,
and Brian P Flannery. Numerical recipes 3rd edition: The art
of scientific computing. Cambridge university press, 2007. 5
[26] Joseph Redmon, Santosh Divvala, Ross Girshick, and Ali
Farhadi. You only look once: Unified, real-time object detection. In IEEE Conference on Computer Vision and Pattern
Recognition, 2016. 1, 3
[27] Joseph Redmon and Ali Farhadi. Yolov3: An incremental
improvement. arXiv preprint arXiv:1804.02767, 2018. 2
[28] Mengye Ren and Richard S Zemel. End-to-end instance segmentation with recurrent attention. In IEEE Conference on
Computer Vision and Pattern Recognition, 2017. 1, 2
[29] Shaoqing Ren, Kaiming He, Ross Girshick, and Jian Sun.
Faster r-cnn: Towards real-time object detection with region
proposal networks. In Advances in Neural Information Processing Systems, 2015. 2
[30] Hamid Rezatofighi, Nathan Tsoi, JunYoung Gwak, Amir
Sadeghian, Ian Reid, and Silvio Savarese. Generalized intersection over union: A metric and a loss for bounding box
regression. In IEEE Conference on Computer Vision and
Pattern Recognition, 2019. 4
[31] Bernardino Romera-Paredes and Philip Hilaire Sean Torr.
Recurrent instance segmentation. In European Conference
on Computer Vision, 2016. 1, 2
[32] Amaia Salvador, Miriam Bellver, Victor Campos, Manel
Baradad, Ferran Marques, Jordi Torres, and Xavier Giro-i
Nieto. Recurrent neural networks for semantic instance segmentation. arXiv preprint arXiv:1712.00617, 2017. 1, 2
[33] Shuai Shao, Zijian Zhao, Boxun Li, Tete Xiao, Gang Yu,
Xiangyu Zhang, and Jian Sun. Crowdhuman: A benchmark for detecting human in a crowd. arXiv preprint
arXiv:1805.00123, 2018. 2, 6, 8
[34] Lin Song, Yanwei Li, Zhengkai Jiang, Zeming Li, Hongbin
Sun, Jian Sun, and Nanning Zheng. Fine-grained dynamic
head for object detection. Advances in Neural Information
Processing Systems, 2020. 2
[35] Lin Song, Yanwei Li, Zhengkai Jiang, Zeming Li, Xiangyu
Zhang, Hongbin Sun, Jian Sun, and Nanning Zheng. Rethinking learnable tree filter for generic feature transform.
Advances in Neural Information Processing Systems, 2020.
2
[36] Lin Song, Yanwei Li, Zeming Li, Gang Yu, Hongbin Sun,
Jian Sun, and Nanning Zheng. Learnable tree filter for
structure-preserving feature transform. In Advances in Neural Information Processing Systems, 2019. 2
[37] Lin Song, Shiwei Zhang, Gang Yu, and Hongbin Sun. Tacnet: Transition-aware context network for spatio-temporal
action detection. In IEEE Conference on Computer Vision
and Pattern Recognition, 2019. 2
[38] Milan Sonka, Vaclav Hlavac, and Roger Boyle. Image processing, analysis, and machine vision. Cengage Learning,
2014. 5
[39] Russell Stewart, Mykhaylo Andriluka, and Andrew Y Ng.
End-to-end people detection in crowded scenes. In IEEE
Conference on Computer Vision and Pattern Recognition,
2016. 1, 2, 4
[40] Christian Szegedy, Wei Liu, Yangqing Jia, Pierre Sermanet,
Scott Reed, Dragomir Anguelov, Dumitru Erhan, Vincent
Vanhoucke, and Andrew Rabinovich. Going deeper with
convolutions. In IEEE Conference on Computer Vision and
Pattern Recognition, 2015. 5
[41] Christian Szegedy, Scott Reed, Dumitru Erhan, Dragomir
Anguelov, and Sergey Ioffe. Scalable, high-quality object
detection. arXiv preprint arXiv:1412.1441, 2014. 3
[42] Zhi Tian, Chunhua Shen, Hao Chen, and Tong He. Fcos:
Fully convolutional one-stage object detection. In IEEE International Conference on Computer Vision, 2019. 1, 2, 3, 4,
5, 6, 7, 8, 13
[43] Yuxin Wu and Kaiming He. Group normalization. In European Conference on Computer Vision, 2018. 5
[44] Yuxin Wu, Alexander Kirillov, Francisco Massa, Wan-Yen
Lo, and Ross Girshick. Detectron2. https://github.
com/facebookresearch/detectron2, 2019. 6
[45] Saining Xie, Ross Girshick, Piotr Dollar, Zhuowen Tu, and ´
Kaiming He. Aggregated residual transformations for deep
neural networks. In IEEE Conference on Computer Vision
and Pattern Recognition, 2017. 2, 8
[46] Shifeng Zhang, Cheng Chi, Yongqiang Yao, Zhen Lei, and
Stan Z Li. Bridging the gap between anchor-based and
anchor-free detection via adaptive training sample selection.
In IEEE Conference on Computer Vision and Pattern Recognition, 2020. 2, 3, 4, 5, 6, 8, 13
[47] Shiwei Zhang, Lin Song, Changxin Gao, and Nong Sang.
Glnet: Global local network for weakly supervised action
localization. IEEE Transactions on Multimedia, 2019. 2
[48] Xiaosong Zhang, Fang Wan, Chang Liu, Rongrong Ji, and
Qixiang Ye. Freeanchor: Learning to match anchors for visual object detection. In Advances in Neural Information
Processing Systems, 2019. 3, 4
[49] Hengshuang Zhao, Jianping Shi, Xiaojuan Qi, Xiaogang
Wang, and Jiaya Jia. Pyramid scene parsing network. In
IEEE Conference on Computer Vision and Pattern Recognition, 2017. 1, 5
[50] Zhong-Qiu Zhao, Peng Zheng, Shou-tao Xu, and Xindong
Wu. Object detection with deep learning: A review. IEEE
transactions on neural networks and learning systems, 2019.
5
[51] Xingyi Zhou, Dequan Wang, and Philipp Krahenb ¨ uhl. Ob- ¨
jects as points. arXiv preprint arXiv:1904.07850, 2019. 5
[52] Chenchen Zhu, Yihui He, and Marios Savvides. Feature selective anchor-free module for single-shot object detection.
In IEEE Conference on Computer Vision and Pattern Recognition, 2019. 1, 3, 4
[53] Xizhou Zhu, Han Hu, Stephen Lin, and Jifeng Dai. Deformable convnets v2: More deformable, better results. In
IEEE Conference on Computer Vision and Pattern Recognition, 2019. 8
这篇关于End-to-End Object Detection with Fully Convolutional Network论文翻译的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!