（三十四）论文阅读 | 目标检测之DDBNet

本文主要是介绍（三十四）论文阅读 | 目标检测之DDBNet，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

简介

在这里插入图片描述

图1：论文原文

本文是发表在 ${\rm ECCV\ 2020}$ 上的一篇关于目标检测论文，论文的关注点是 ${\rm Anchor}$ - ${\rm Free}$ 方法中的边界框回归过程。由于在 ${\rm Anchor}$ - ${\rm Free}$ 方法中摒弃了锚框的设定，因此如何设置有效的边界框回归目标以及方式格外重要。论文提出的 ${\rm DDBNet}$ 不断精细化 ${\rm Anchor}$ - ${\rm Free}$ 方法中的边界框回归过程，主要是针对基于中心关键点的 ${\rm Anchor}$ - ${\rm Free}$ 方法的改进。实验结果为 ${\rm COCO}$ 数据集上达到了 ${\rm SOTA}$ 。论文原文

0. Abstract

近年， ${\rm Anchor}$ - ${\rm Free}$ 方法引起了目标检测的一大研究浪潮，其中边界框回归是这类方法的一大关键。然而，即便是具有很高置信度的边界框仍可能具有很差的定位效果。基于此，论文提出 ${\rm DDBNet}$ 用于实现更加精确的定位。首先过滤漂移框，因为这类框与真实框具有较大的语义差异性。然后为选定的框划定边界，以此来搜索对齐的边界继而将它们分组成一系列优化后的框，从而能够首先更加精确的定位。

论文贡献：（一）论文提出一种针对 ${\rm Anchor}$ - ${\rm Free}$ 的边界框回归方法；（二）语义一致性模块可能有效地过滤掉噪声点，帮助网络更精确地回归；（三） ${\rm DDBNet}$ 的 ${\rm AP}$ 达到了 ${\rm 45.5\%}$ 。

1. Introduction

目标检测是计算机视觉中的一项重要任务，它的目标是在给定图像中找出所有感兴趣目标，并用矩形框标出其位置和具体类别。当前目标检测算法可划分为 ${\rm Anchor}$ - ${\rm Based}$ 和 ${\rm Anchor}$ - ${\rm Free}$ 两种，而近年来后者的热度正逐渐超越前者。然而，尽管 ${\rm Anchor}$ - ${\rm Free}$ 方法取得了实质性的进展，其准确性仍受限于许多因素。至此，论文介绍了两个造成 ${\rm Anchor}$ - ${\rm Free}$ 方法准确性较低的原因：

首先，中心关键点的定义与目标语义信息不合。基于中心关键点是 ${\rm Anchor}$ - ${\rm Free}$ 中的一种重要方法，其常用策略是将中心关键点映射到真实框内，如 ${\rm FCOS}$ 和 ${\rm CornerNet}$ 等。但是，在此过程中会不可避免地将噪声点当作训练正样本，这就会造成语义间的不一致，从而降低了检测器的精度。如下图，在基于中心关键点的这类方法中会将图中红色区域的所有点当作正样本处理。但是显然，该红色区域内包含许多背景信息，即大量关键点并不包含前景信息。
在这里插入图片描述

图2：基于中心关键点的不一致性

其次，基于局部区域回归的方式不能很好地获取图像的全局信息。具体地，在基于中心关键点的算法中以基于局部区域的方式回归，这种方法受限于感受野的大小。如下图，中心点以及对应的虚线边界框用相同的颜色标出。尽管每一个边界框都能将目标包括在内，但每个框都没有很好地拟合目标。这是因为，如果该点没有包含图像中的目标关键部分的感受野，则无法精确地识别出目标整体。
在这里插入图片描述

图3：基于中心关键点的方法受限于感受野大小

基于以上两点，论文提出了一种新的边界框回归方法， ${\rm DDBNet}$ 。该方法包含两大部分：边界框的分解、重组和语义一致性模块。具体地，首先基于中心关键点形成一系列对于边界框的粗分布预测，这些预测可能并不能很好地拟合目标。然后基于边界框的置信度使用边界框的分解、重组模块将这些预测边界框的边界划分成四个集合，接着使用排序、重组的方法产生更加精确的定位预测。同时，语义一致性模块用于剔除噪声等干扰数据，使模型仅关注有用的关键点。语义一致性模块是一种自适应的方法，且不带有额外的超参数。

2. Related Work

Anchor Based Object Detectors 在 ${\rm Anchor}$ - ${\rm Based}$ 的方法中， ${\rm Anchor}$ 可被看作是预定义大小和宽高比例的滑动窗口或先验框。在训练过程中 ${\rm Anchor}$ 被划分成正样本和负样本，然后使用偏移量来精细化边界框预测。 ${\rm Anchor}$ 最早出现于两阶段目标检测方法 ${\rm Faster}$ - ${\rm RCNN}$ 中的 ${\rm RPN}$ 。随后，一阶段检测器如 ${\rm SSD}$ 、 ${\rm RetinaNet}$ 、 ${\rm YOLO9000}$ 等都引入 ${\rm Anchor}$ 的概念。引入 ${\rm Anchor}$ 的主要目的是帮助网络更好地进行精细化的回归，同时也可以避免大量冗余的计算(主要是相比于滑动窗口而言)。但是 ${\rm Anchor}$ 的一大缺点是需要人为设置大量的超参数，如每个 ${\rm Anchor}$ 的大小以及宽高比例、正负样本采样的阈值等。

Anchor Free Object Detectors ${\rm Anchor}$ - ${\rm Free}$ 检测器直接预测含目标的概率以及边界框的位置信息， ${\rm DenseBox}$ 是 ${\rm Anchor}$ - ${\rm Free}$ 方法的先驱，但是其存在无法很好地处理重叠目标的情况而没有被广泛使用。在 ${\rm Anchor}$ - ${\rm Free}$ 方法中，有一类借助 ${\rm FPN}$ 实现，如经典的 ${\rm RetinaNet}$ 、 ${\rm FSAF}$ 等；另一类是基于关键点的方法，如 ${\rm CornerNet}$ 、 ${\rm CenterNet}$ 等。

与上面提出的基于关键点的 ${\rm Anchor}$ - ${\rm Free}$ 方法不同，论文的创新点在于：论文方法侧重在中层语义上表征目标，旨在在精确度和特征建模间达到平衡；该方法不需要引入嵌入向量。此外，显然 ${\rm Anchor}$ - ${\rm Free}$ 方法会引入大量低质量的预测框。为了抑制低质量的边界框， ${\rm FCOS}$ 提出 ${\rm centerness}$ 模块； ${\rm FoveaBox}$ 基于人眼原理滤除掉靠近边界的像素。论文基于 ${\rm FCOS}$ 的思想提出了语义一致性模型用于滤除低质量的边界框。

3. Our Approach

${\rm DDBNet}$ 基于 ${\rm FCOS}$ 实现，如下图，其由边界框分解、组合和语义一致性模块组成。
在这里插入图片描述

图4：DDBNet

首先， ${\rm D\&R}$ 模块在回归分支前重组预测边界框并将它们划为边界用以训练。在训练阶段，一旦在每个像素位置产生了预测边界框， ${\rm D\&R}$ 模块将预测的边界框划分成四个方向的边界。然后，在同一方向内的边界框基于相对于真实框的偏移排序。因此，通过重组排序后的预测框，模型能够产生更加精确的预测结果。

其次，通过添加新的语义分支来替换 ${\rm FCOS}$ 中的 ${\rm centerness}$ 分支引入语义一致性模块，并通过分类分支和回归分支的输出来优化该模块。

3.1 Box Decomposition and Recombination

对于实例 $I$ ，实例上的每个像素点 $i$ 对应回归一个边界框 $p_i=\{l_i,t_i,r_i,b_i\}$ 。将这一系列的边界框表示为 $B_I=\{p_0,p_1,...,p_n\}$ ，其中 $l, t, r, b$ 分别表示边界框的左、上、右、下边界。通常，基于 $I o U$ 损失的回归表示如下：
$L_{IoU}=-\frac{1}{N_{pos}}\sum_I\sum_i^n\log(IoU(p_i,p_I^*))\tag{1}$

其中， $N_{pos}$ 表示实例中的正样本像素数、 $p_I^*$ 表示回归目标。简要地说， ${\rm D\&R}$ 模块基于 $I o U$ 损失再产生更加精确的预测 $p_i$ 。如下图， ${\rm D\&R}$ 模块由四个部分组成：
在这里插入图片描述

图5：D&R

Decomposition 将预测的边界框 $p_i$ 划分成四个边界 $l_i$ 、 $t_i$ 、 $r_i$ 、 $b_i$ ， $p_i$ 和 $p_I^*$ 之间的交并比 $s_i$ 作为边界的置信度。如上图 ${\rm (a)}$ ，黑色为真实框，其余三种颜色的框为预测框。 $S_*$ 分别表示对应边界框与真实框的交并比，也即表示该边界框的置信度。对于实例 $I$ ，得到一个表示边界置信度的大小为 $N \times 4$ 的矩阵 $S_I$ 。然后，基于方向将所有边界划分成四个集合： $left_I=\{l_0,l_1,...,l_n\}$ 、 $right_I=\{r_0,r_1,...,r_n\}$ 、 $bottom_I=\{b_0,b_1,...,b_n\}$ 、 $top_I=\{t_0,t_1,...,t_n\}$ 。

Ranking $I o U$ 损失的目标是找到与真实框具有最大交并比的边界框。因此，可能考虑的最佳方案是拟合出目标的每一条最佳边界。但是，如果直接将所有的边界进行组合，这时的时间复杂度是 $O(n^4)$ 。为了避免如此高的时间复杂度，论文采取一种简单有效的排序策略。对于实例 $I$ ，首先计算与真实边界 $p_I^*=\{l_I,r_I,b_I,t_I\}$ 的偏移 $\delta_I^l,\delta_I^r,\delta_I^b,\delta_I^t$ 。然后，基于偏移对每个边界集合进行排序，如上图 ${\rm (b)}$ 。与真实边界更近的预测边界的排序分数更高，实验结果证明该排序策略效果很好且不会影响网络的训练。

Recombination 如上图 ${\rm (c)}$ ，在上一步四个集合中具有相同排序位的边界组合成边界框 $B_I^{'}=\{p_0^{'},p_1^{'},...,p_n^{'}\}$ 。然后 $p^{'}_i$ 和 $p^{*}_i$ 间的交并比 $s_i^{'}$ 作为重组后对应边界的置信度。置信度用 $N \times 4$ 的矩阵 $S_I^{'}$ 表示。简单来说，即首先将边界框拆分成四条边界，然后根据边界与真实边界的交并比挑选出四个最佳的边界，继而将这四个边界组成边界框。

Assignment 现在，我们得到了两组关于边界的得分 $S_I$ 和 $S_I^{'}$ ，最后将二者较高的值作为边界最终的置信度。该分配策略主要基于如下准则：低排序位框的边界离真实框边界较远，而重组后的置信度 $s_i^{'}$ 低于原置信度 $s_i$ 。置信度的变化较大造成了训练过程的不稳定。因此，为了稳定训练过程，每个边界都基于 ${\rm IoU}$ 损失优化。特别地，最后的回归损失由两部分组成： $L_{IoU}^{D\&R}=\frac{1}{N}\sum_I({\bold 1}_{S_I^{'}>S_I}L_{IoU}(B_I^{'},T_I)+{\bold 1}_{S_I≥S_I^{'}}L_{IoU}(B_I,T_I))\tag{2}$

损失函数中引入指示函数，使得在训练模型的过程中选择与真实框具有更高交并比的边框。这里，由于最终边框的边界可能来自不同边界框，所以这种方式实际上是一种实例级的操作。并且，在此过程中不会引入额外参数，而仅仅是改变了梯度更新的方式。

3.2 Semantic Consistency Module

由于 ${\rm D\&R}$ 模块的性能在一定意义上依赖于预测的边界框，所以急需一种高效的使网络集中于正样本而过滤掉负样本和噪声的方法。在以前的方法中，将实例边界框中心部分的样本定位为正样本，如图 $(2)$ 中的红色区域。而论文采取的是另一种不需要额外计算量的方法，在一定程序上加速了模型的运行。语义一致性模块的思想如下：
$\left\{ \begin{aligned} \overline{C_{I\downarrow}}\cap \overline{R_{I\downarrow}}& \leftarrow\ {\rm negative}\\ \overline{C_{I\uparrow}}\cup \overline{R_{I\uparrow}}& \leftarrow\ {\rm positive} \end{aligned} \right. ,\ c_i=\max^{g}_{j=0}(c_j)\in C_I\tag{3}$

其中， $R_I$ 表示在实例 $I$ 内的预测框与真实框的交并比集合， $\overline{R_I}$ 是得分的平均值， $\overline{R_{I\downarrow}}$ 表示低于平均值的部分、 $\overline{R_{I\uparrow}}$ 表示高于平均值的部分。 $c_i\in C_I$ 表示第 $i$ 个像素的所有类别中的最大得分。类似地， $\overline{C_{I\downarrow}}$ 表示低于平均值的部分、 $\overline{C_{I\uparrow}}$ 表示高于平均值的部分。值得注意的是，在这种方法中为了防止在训练过程中过滤掉不正确的类别，采用的是类别不可知的方法。如下图：
在这里插入图片描述

图6：语义一致性模块

如上图， $\overline{R_{I\downarrow}}$ 和 $\overline{C_{I\downarrow}}$ 交集部分的像素定义为负样本， $\overline{R_{I\uparrow}}$ 和 $\overline{C_{I\uparrow}}$ 交集部分的像素定义为正样本。同时，如果像素同时覆盖了多个目标，则该像素表示较大的那个目标。

此外，式 $(3)$ 能够自适应控制正负样本的比例，并通过实验证明该方法比手动控制正负样本比例的方式更佳。然后，像 ${\rm FCOS}$ 一样，使用所有的正样本像素点训练模型。区域一致性模块通过在原始网络中添加分支实现，其通过以下损失函数优化： $L_{con}=\frac{1}{N_{pos}}\sum_{I}\sum_{i\in \overline{C_{I\uparrow}}\cup \overline{R_{I\uparrow}}}CE(r_i,IoU(p_i,p_{I}^*))\tag{4}$

最后， ${\rm DDBNet}$ 的总的损失函数如下：
$L=L_{cls}+L_{reg}^{D\&R}+L_{con}\tag{5}$

4. Experiments

在这里插入图片描述

图7：目标检测实验结果对比

在这里插入图片描述

图8：各创新点的实验结果对比

5. Conclusion

论文提出一种 ${\rm Anchor}$ - ${\rm Free}$ 检测器 ${\rm DDBNet}$ ，首次提出边界框的分解与重组的概念。边界框的分解和重组过程优化了边界框的生成，同时提出语义一致性模块来提取高质量的训练样本。总之，论文中提出的边界框的分解与重组概念还是比较新颖的，提出了一种全新的生成边界框的方法。