《Learning a Unified Sample Weighting Network for Object Detection》论文笔记

本文主要是介绍《Learning a Unified Sample Weighting Network for Object Detection》论文笔记，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

《Learning a Unified Sample Weighting Network for Object Detection》论文笔记

论文翻译
- 摘要
- 介绍
- 正文
- - 现存的采样方法中存在的问题
  - 样本加权的联合学习
  - 设计统一的样本加权网络
- 实验

论文翻译

时间：2020.9.15
论文主题：目标检测
原文：link
代码：code

摘要

区域采样或区域加权对于基于区域的目标检测器的成功非常重要。与以前的一些在优化目标函数时只关注“硬”样本工作不同，作者认为样本加权应该与数据和任务相关。样本对于目标函数优化的重要性由它对于目标分类和BB回归任务的不确定性决定。为此，设计了一个通用的损失函数来覆盖大多数具有不同采样策略的基于区域的目标检测器，并在此基础上提出了一个统一的样本加权网络来预测样本的任务权重。该框架利用样本在分类损失、回归损失、IoU和概率分数上的不确定性分布来预测样本权重。作者认为它有如下几点优点:

它联合学习分类和回归任务的样本权重，这使它不同于大多数以前的工作。
这是一个数据驱动的过程，因此它避免了一些手动参数调整。
它可以毫不费力地插入大多数对象检测器，并在不影响其推理时间的情况下实现显著的性能改进。

介绍

大多数基于区域的目标检测都是包含目标分类及定位多任务问题，其中包括了区域采样、区域分类和回归以及非最大抑制。利用区域采样，它可以将目标检测问题转化为一个分类问题。根据区域搜索的方式，可以将检测器分为one-stage和two-stage两种。一般来说，类如faster-rcnn的two-stage框架可以得到更高的精度，而相比之下，one-stage框架具有更快的检测速度，但相应精度较低，这是因为类别的不平衡问题（即前景和背景区域之间的不平衡）。
two-stage通过区域建议机制和各种有效的采样策略来处理类的不平衡，例如采样固定的前景与背景的比率和硬示例挖掘[13，37，40]。虽然相似的硬示例挖掘可以应用于one-stage中，但是由于大量容易出现的负样本，该方法效率很低[28]。与在线硬样本挖掘(OHEM)明确地选择具有高分类损失的样本到训练循环中[37]不同，聚焦损失（Focal-Loss）[28]提出了软加权策略，该策略修改了分类损失（删减掉简单样本的分类损失）以自动地降低简单样本的权重，从而将训练集中在硬样本上。因此，手动调整损失的重心可以显著提高单级探测器的性能。

前面提到的“硬”样本一般指分类损失较大的样本。然而，“硬”样本不一定重要。如图1 (a)(所有样本都是从我们的训练过程中选取的。)说明，样本分类损失高但权重小(“硬”但不重要)。相反，如果一个“简单”的样本抓住了如图1 (b)所示目标类的要点，那么它可能是有意义的。此外，当分类得分高时，边界框回归准确的假设并不总是成立，如图1 ©所示的例子。分类和回归有时可能不一致[21]。因此，在[21]中提出了一个IoU-Net来预测位置置信度。此外，由于遮挡、不准确的标记和模糊的对象边界，边界框注释中存在模糊性。换句话说，训练数据具有不确定性。因此，[19]提出了同时学习BB回归和位置不确定性的KL-Loss。具有高不确定性(高回归损失)的样本在训练期间被向下加权。
样本加权是一个非常复杂的动态过程。当应用于多任务问题的损失函数时，个体样本中存在各种不确定性。受[23]的启发，我们认为样本加权应该依赖于数据和任务。一方面，与以前的工作不同，一个样本的重要性应该由它相对于基本事实的内在属性和它对损失函数的响应来决定。另一方面，目标检测是一个多任务问题。样本的权重应该在不同的任务之间保持平衡。如果检测器用它的能力来换取精确的分类，并产生较差的定位结果，则定位错误的检测将损害平均精度，尤其是在高IoU标准下，反之亦然。
根据上述思想，我们提出了一个统一的动态样本加权网络用于目标检测。这是一种简单而有效的学习样本权重的方法，也平衡了分类和回归的任务。具体来说，在基本检测网络之外，我们设计了一个样本加权网络来预测样本的分类和回归权重。网络以分类损失、回归损失、IoU、分数为输入。它用作将样本的当前上下文特征转换为样本权重的函数。

正文

在给定一组anchors $a_{i} ∈A$ ，多任务的目标检测训练可以表示为在这里插入图片描述
其中L表示分类或回归损失，A表示分类或回归的采样anchors， $N_{1},N_{2}$ 分别表示训练样本和前景样本的数量，增加 $s_{i}$ 作为权重后，可以将上述公式转化为：

现存的采样方法中存在的问题

目前已有的方法单方面侧重分类（如OHEM和Focal-Loss）或者侧重回归（如KL-Loss），故作者提出了新的方法联合分类与回归损失进行重新加权，同时不仅侧重于’hard’样本，更注重那些’easy’且重要的样本。

样本加权的联合学习

受*Alex Kendall, Yarin Gal, and Roberto Cipolla. Multi-task learning using uncertainty to weigh losses for scene geometry and semantics. In CVPR, 2018.*的启发，作者以概率的形式重新表述了样本加权问题，并通过不确定性的反应来衡量样本的重要性。经过推导，最终将损失函数表示为：
在这里插入图片描述

由于eq(5)允许根据每个样本特征的有效性自动调整样本权重，避免了手动调整的问题。
在这里插入图片描述
简单来说，在回归Loss中是将预测位置的偏移量作为其权重的参考值，在分类Loss是使用softmax(经过蒸馏的logits和GT)，并将其温度作为权重的参考值。

设计统一的样本加权网络

在这里插入图片描述
网络由两层多层感知机(MLP)网络组成，作者设计了四个有区分度的特征（分类损失、回归损失、IoU和可能性）作为输入，它利用了估计和真值之间的相互作用（即IoU和分类分数），因为分类和回归的损失在某种程度上都反应这预测的不确定性。对于负样本，将IoU和可能性设为0，接着引入函数利用MLP将输入转化为密集特征，并从这些特征中学习分类和回归权重。
在实验中，在faster-rcnn的基础上，保留RPN并将样本权重网络插入到其中，步骤是先计算出四个特征，然后预测权重使用eq(9)来计算loss并反向传播到检测网络和样本加权网络中。在Mask R-CNN中由于有一个额外的掩码分支，将额外的分支加入样本加权网络中，以此生成掩码的自适应权重，并在计算loss时加入。由于在实验中发现，预测的分类权重不稳定，故在每个batch中分别对正负样本权重进行平均，这可以看作是对权重的平滑处理。

实验

作者在MS COCO以及Pascal VOC数据集上使用Faster R-CNN、Mask R-CNN、RetinaNet进行了实验，作者认为该方法可用于大多数two-stage和one-stage框架中。通过实验证明，提出的方法在训练阶段只付出了很小的额外成本，而在测试中几乎没有增加成本，而在精度上增加了1.8个点。
在这里插入图片描述

在实验中特别和RetinaNet进行了对比，指出RetinaNet检测时错过了一些‘easy’的物体，而该方法可以成功检测到这些被忽视的’easy’ object。