【论文解读】Count- and Similarity-aware R-CNN for Pedestrian Detection（基于计数和相似度感知的R-CNN用于行人检测）

本文主要是介绍【论文解读】Count- and Similarity-aware R-CNN for Pedestrian Detection（基于计数和相似度感知的R-CNN用于行人检测），希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

论文题目：Count- and Similarity-aware R-CNN for Pedestrian Detection
论文出处：European Conference on Computer Vision（ECCV）2020
论文链接：文章下载
代码链接：代码

一、创新点

提出了计数和相似性分支网络——count-and-similarity branch（CSB）
提出了计数加权检测损失——count-weighted detection loss（CW-loss）
提出了新的NMS算法——count and similarity-aware NMS（CAS-NMS）

二、基准网络

采用Faster R-CNN作为基础框架，其工作原理为：

第一阶段：使用区域建议网络（region proposal network，RPN）来产生建议框和置信度得分；
第二阶段：也称为Fast R-CNN，从每个建议框中提取感兴趣区域（region of interest，RoI）特征，然后是一个检测分支，生成类别置信度得分和每个建议框的回归坐标。

在RPN和Fast R-CNN模块中，目标检测问题可以表述为分类损失和回归损失的联合最小化： $L_{det} = L_{rpn} + L_{frc}$
$L_{c} = \frac 1{N_{cls}}\sum_iL_{cls}(p_i,p_i^*)$
$L_{r} = \lambda \frac 1{N_{reg}}\sum_iL_{reg}(l_i,l_i^*)$
$p_i$ 表示建议框i为行人的预测概率， $p_i^*$ 是对应的真实标签； $l_i$ 是建议框i的预测位置, $l_i^*$ 是对应的真实位置。 $\lambda$ 是平衡参数。

三、新框架

3.1 动机

以前的遮挡检测算法都是利用行人的全身标注或者额外的可见区域表标注进行训练。
本文提出的框架不依赖于额外的可见区域监督，而是利用RoI内的行人计数信息，这些信息可以通过全身标注获得

3.2 框架分析

在这里插入图片描述

整个网络框架包括一个检测分支，一个计数分支和一个相似度分支。

检测分支
检测分支用来预测行人的概率 $p_i$ 及其位置 $l_i$
计数分支
计数分支在Faster R-CNN的RPN和Fast R-CNN模块中对损失进行加权，用来生成计数加权检测损失
相似度分支
相似度分支用来计算重叠行人之间的相似性

检测分支
- 计数加权检测损失
  为了解决拥挤遮挡情况下，行人之间会高度重叠影响检测效果。在分类损失和回归损失中，引入了与建议框对应的真实标签成比例的权重 $w_i$ ，旨在对高度重叠的行人上发生的检测错误赋予更高的权重。计数加权损失函数 $L_{det}^{'}$ 为：
  $L_c^{'} = \frac 1{N_{cls}}\sum_iw_iL_{cls}(p_i,p_i^*)$
  $L_r^{'} = \lambda \frac 1{N_{reg}}\sum_iw_iL_{reg}(l_i,l_i^*)$
  $w_i$ 是一个损失权重，其将更高的权重分配给大量真实边界框重叠的建议框。每个建议框
  $b_i$ 的权重可以从真实标签的数量 $c_I^*$ 中获得：
  $w_i = 1 + \alpha · max(c_i^*-1,0)$
- 建议框的计数
  一个建议框 $b_i$ 的真实标签数量 $c_i^*$ 取决于全身边界框的重叠数量。
  首先，计算 $b_i$ 与其重叠的所有真实边界框之间的交并比（IoU）；
  然后， $c_i^*$ 被定义为： $I o U \geq t h (设定的阈值)$ 的真实边界框的数量。
计数和相似度分支
- 计数和相似度的结合使用
  - 在存在人群遮挡的情况下，会生成很多高度重叠的建议框并有较高的检测分数，当使用固定的阈值来进行NMS时，会导致错误抑制。在这种情况下，可以使用RoI的计数预测来获得重叠行人的数量并以此来调整阈值，从而降低错误抑制的出现。
  - 但是，在遮挡情况下，计数对于识别不同的建议框可能不是最优的，因为拥有较高置信度的几个建议框可能属于同一个行人实例。因此，理想的结果是能够识别出不同行人的不建议。
  - 利用相似性嵌入将RoI特征映射到低维表示中，获取重叠行人之间的不同表示
- 建议框计数
  建议框 $b_i$ 的行人计数网络由三层全连接层组成，其中最后一层输出计数 $c_i$ ，其损失函数定义为：
  $L_{cp} = \frac 1{N_{cp}}\sum_{i=1}^{N_{cp}}\lVert c_i-c_i^*\rVert_2^2$
  $N_{cp}$ 表示建议框， $c_i$ 和 $c_i^*$ 分别表示预测的计数以及真实的计数。
- 建议框相似度
  为了解决预测的计数来识别不同的建议框是次优的，引入了一种相似性嵌入分支，该分支将建议框 $b_i$ 的RoI特征映射到低维特征 $F_i$ 中，相似性嵌入网络也是由三层全连接组成，最后一层输出嵌入特征 $F_i$ 。
  对于给定的建议框 $b_i$ ，首先选择 $I o U \geq t h$ 的重叠建议框。 $b_j$ 是其中一个真实标签计数 $c_i^*≥1$ 的重叠建议框，其嵌入特征为 $F_j$ 。使用至少有一个真实标签计数的建议框训练相似性嵌入子网络，其损失函数为：
  $L_{se} = \frac {\sum_{ij}(y_{ij}d_{ij}^2+(1-y_{ij})max(\omega-d_{ij},0)^2)}{N_{se}}$
  $d_{ij} = \lVert F_i-F_j \rVert ^2$ 表示嵌入特征 $F_i$ 和 $F_j$ 之间的距离；
  $y_{ij}$ 表示真实标签相似度，同一个真实边界框的建议框被标记为相似，即 $y_{ij}=1$ ；
  $N_{se}$ 是训练相似度嵌入损失时使用的建议框数量。
后处理机制

遮挡情况下，由于建议框之间严重重叠，传统的NMS算法会导致正确的预测框丢失。为了解决这个问题，引入了通过计数和相似度感知进行后处理的NMS算法，称为CAS-NMS，它考虑了建议框之间的计数和相似度：
- 首先，根据预测框的置信度分数进行排序；
- 选择置信度分数最高的预测框 $b_H$ ；
- 假设 $b_j$ 是与 $b_H$ 的 $I o U \geq t h$ 的一个预测框，其与 $b_H$ 对应一个不同行人的情况需要满足：（1） $b_H$ 中有多个行人；（2） $b_j$ 中至少有一个行人；（3） $b_j$ 和 $b_H$ 不相似，即距离较远；
- CAS-NMS利用 $b_H$ 和 $b_j$ 的预测计数和相似度嵌入，将 $b_j$ 归类为一个重复建议框，当不满足上面的三种情况，则 $b_j$ 将被抑制。
- 注意：由于相似度 $d_{jH}$ 仅在第三个条件中被使用，因此只有满足前两个条件的预测框需要进行相似度计算。