论文阅读《Sylph: A Hypernetwork Framework for Incremental Few-shot Object Detection》

本文主要是介绍论文阅读《Sylph: A Hypernetwork Framework for Incremental Few-shot Object Detection》，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

论文地址：https://arxiv.org/abs/2203.13903
代码地址：https://github.com/facebookresearch/sylph-few-shot-detection

1、存在的问题
2、算法简介
3、算法细节
- 3.1、基础检测器
- 3.2、小样本超网络
- - 3.2.1、支持集特征提取
  - 3.2.2、代码预测
  - 3.2.3、代码聚合和归一化
- 3.3、基础检测器的训练
- 3.4、超网络的训练
- 3.5、元测试
4、实验
- 4.1、对比实验
- 4.2、消融实验
- 4.3、学习能力测试
5、结论

1、存在的问题

目前的小样本目标检测方法：基于两阶段微调、基于元学习。

基于微调：首先在基类上进行预训练，然后在来自基类和新类的一个小的平衡数据集上进行微调，即采用新类+基类联合训练。但由于计算和内存需求，将很难扩展到许多现实世界的应用。

基于元学习：侧重于检测新类别，而在面对已经学习到的基础类别时，往往无法保持原始检测器的性能，或者说会遗忘掉基础类别的信息。

大多数小样本目标检测方法由backbone和检测头组成，backbone从输入图像中提取特征图并输入到检测头中，检测头中并行执行多元分类分支和回归分支。

对于 N 路分类问题，分类器通常生成 N+1 个 logits，对应于 N 个类别和1个背景。回归器生成与每个类别相关联的边界框预测。通常，为每个类别生成一个权重，共N个权重，预测得分最高的类选择其对应的回归量作为输出。但由于所有参数都来自很少的新类训练样本，这就导致准确的回归和分类很难实现。

2、算法简介

针对增量小样本学习问题，探索一种可以快速从小样本中学习新类别，又不会忘记以前见过的类别的模型Sylph，且不需要对模型参数进行任何额外的优化。
面对新类别会直接训练，不用联合训练（连带着基类和已经学习到的新类别一起训练）

在基础训练的时候训练出一个和类别无关的回归器，在适应新类别时，只需要用这个回归器进行定位操作就可以了；
因此只需要考虑小样本分类问题，只关注分类器的参数；
训练新类别时，生成一组新的分类器参数（新类类代码），再通过元测试阶段将新类类代码和基类类代码合成在一起。

3、算法细节

包含两个部分：
1、一个基础目标检测器，将回归任务与分类任务解耦，对图像中的显著目标进行类别不可知的定位。使用多个二元分类器来代替一个多元分类器。
2、一个小样本超网络，为每个二元分类器提供特定的参数。

在这里插入图片描述

3.1、基础检测器

使用FCOS（Fully Convolutional One-Stage Object Detection）作为基础检测器
FCOS：基于像素级预测一阶段全卷积目标检测网络 anchor-free
FCOS的检测头由两部分组成：
1、与类别无关的回归器 $B_\beta$ （基础训练部分学习得到）
2、多个二元分类器 $C_{\gamma_{c}^*}$ （每个类别都对应一个二元分类器）

FCOS的回归过程：
直接对feature map中每个位置对应原图的边框都进行回归。
假设当前这张输出特征图的shape为：HW（C+1+4），其中，H和W是特征图的尺寸；C是类别数；
那么，在center-ness分支中的1是center-ness数值（当前位置与要预测的物体中心点之间的归一化距离，值在[0, 1]之间）；
在回归分支中的4是4维关于检测框的输出值t、b、r、l（为当前位置与GT框4个顶点间的距离）。
将特征图解码为检测框的过程如下：
确定中心点：对于特征图中的某点(x,y)，可以找到这个点对应原始图像的中心点。如果这个中心点在GT框内，那么为正样本点，它的类别就标记为这个GT框的类别，如果不在任何GT内，则为负样本点。
解码检测框：有了中心点，再加上网络预测值t、b、r、l，就可以得到检测框。

基础检测器完成回归，接下来只需要进行小样本分类即可

3.2、小样本超网络

解决小样本分类问题，为每个二元分类器提供参数

包括三个部分：支持集特征提取、代码预测、代码聚合和归一化

3.2.1、支持集特征提取

输入：支持集图像
输出：支持样本特征
1、超网络和基础网络共享主干，使用共享的主干网络提取支持集图像的特征（提取整张图片的特征）；
2、ROIAlignV2 完成裁剪和映射，为每个目标实例生成一个固定大小的支持样本特征。

在这里插入图片描述

3.2.2、代码预测

输入：支持样本特征
输出：特征的权重和偏置
网络由3 × 3卷积层组成，与组归一化和ReLU激活函数交织在一起，然后是一个用于预测权重和偏置的层。最后使用全局平均池化将预测权重降至最终维度。

在这里插入图片描述

3.2.3、代码聚合和归一化

输入：特征的权重和偏置
输出：聚合和归一化结果
将特征的权重和偏置聚合在一起： $\begin{aligned}w_c=\frac{1}{K}\sum_{i=0}^{k-1}(w_{c,i})\end{aligned}$ ; $b_c=\frac1K\sum_{i=0}^{k-1}(b_{c,i})$
为避免梯度爆炸，聚合完成之后再沿通道轴进行L2归一化： $\frac{w_c}{||w_c||}$
为增加兼容性，归一化完成后对权重进行缩放： $w_c^*=\frac{g}{||w_c||}w_c$
对于偏置，再额外增加一个先验偏置和标量，用于解决方差小的问题： $b_c^*=g_b*b_c+b_p$ ; $b_p=-\log((1-\pi)/\pi),\pi=0.01$