[Retentive R-CNN] Generalized Few-Shot Object Detection without Forgetting(CVPR. 2021)

本文主要是介绍[Retentive R-CNN] Generalized Few-Shot Object Detection without Forgetting(CVPR. 2021),希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

在这里插入图片描述

1. Motivation

本文关注于fine-tune后的FSOD模型会在base classes上性能下降的问题。这篇文章构建了Retentive R-CNN,创新点在于Bias-Balance RPN Re-detector,用来在识别novel classes的同时,不降低原有的base classes的精度

  • However, the majority focus merely on the performance of few-shot categories and ignore the catastrophic forgetting of base classes, which is not realistic.

Meta-learning方法的缺陷:

​ 由于使用support images,那么如果当support category较多的情况下,那么网络训练的时间复杂度也会增加

  • As their computational complexity is proportional to the number of categories, these methods become rather slow or even unavailable when tackling both sets of classes of a dataset

本文还划分了目前FSOD的主要方法,可以分为Meta Learning Based以及 Transfer-learning Baed

  • Meta Learning Based

    FSRW、 Meta R-CNN、 Few-Shot Object Detection with Attention-RPN and Multi-Relation Detector、Repmet、 MetaDet

  • Transfer Learning Based

    LSTD、TFA、MPSR、Context-Transformer

2. Contribution

  • Our contributions can be concluded as follows:
    • We find properties of base class detectors neglected in few-shot detection literature, which can be utilized to improve both base and novel class performance for transfer learning based methods with little overhead.
    • We propose a few-shot detector without forgetting, Retentive R-CNN, with Bias-Balanced RPN and Re-detector to assist novel class adaptation with base class knowledge and ensemble base and novel class detectors.
    • Our method achieves state-of-the-art overall performance on the few-shot detection benchmark[41, 17] across all settings, with leading base class metrics and competitive novel class metrics.

3. Method

在这里插入图片描述

3.1 Analysis on Transfer Learning based Few-Shot Object Detection

作者在TFA的基础上,做了以下3个实验 。

3.1.1 Why cosine classifier works?

图2(a)所示,通过L2正则化可以发现novel classs 和base class 被区分开来,并且novel class 和base class 相关性强的,L2正则化后的得分也会比较高。

  • The results are shown in Figure2(a). A massive variation of norms between base classes and unseen novel classes can be easily observed.
  • Also, the norms of unseen classes with closer relationship with seen classes are relatively higher (blue names annotated in Figure2(a))

3.1.2 Does base detector find novel class salient objects?

答案是否定的,通过图2(c)

the detector is still able to recog- nize it as background.

在这里插入图片描述

3.1.3 Is RPN class-agnostic?

本文认为RPN并不是真的无类别的,而是基于对训练的类别有一种偏置。

  • RPN is not ideally class-agnostic and biased on its seen categories

3.2 Retentive R-CNN

3.2.1 Re-detector

Re-detector 有2个检测头,分别用于检测base classes 以及 all classes, d e t b det_b detb是fixed 使用FC层,而 d e t n det_n detn是fine-tune weights 使用cossine similar scores,

  • Similar to TFA, we finetune merely the last layers of classification and box regression head of d e t n det_n detn
image-20210813111321688 image-20210813111327851

3.2.2 Bias-Balanced RPN

在Bias-Balanced RPN中加入了 unfixed objectness 分支。

  • We try to unfreeze different layers of RPN for finetuning and empirically, unfreeze the final layer that predicts objectness is sufficient to produce a noticeable improvement.
  • 最后将2个objectness的得分值取max, O n H × W = m a x ( O b H × W , O n H × W ) O^{H\times W}_n = max(O^{H \times W}_b, O^{H \times W}_n) OnH×W=max(ObH×W,OnH×W)​。

image-20210813112411832

3.3.3 Training and Inference

本文unfreeze的层包括了以下3个部分,rpn 的objectness部分(rpn的box-regression部分冻结), RoI-Head的分类和回归层。

  • As aforementioned, we only unfreeze three layers: ob- jectness of the finetuned RPN, the last linear layers of clas- sification and box regression of d e t n det^n detn

并且相对于TFA在fine-tune阶段训练的

4. Experiment

4.1 Results on MS-COCO

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-VS9R6MvW-1629258529624)(https://i.loli.net/2021/08/18/wrejNcfxsJtk6DC.png)]

4.2 Results on PASCAL VOC

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-5HCXribP-1629258529625)(https://i.loli.net/2021/08/18/ETzMJ9rNpHtYVSw.png)]

4.3 Ablation Experiments

4.3.1 Bias-Balanced RPN

image-20210813205215172

4.3.2 Re-detector

image-20210813205220157

4.3.3 Inference time

image-20210813205356344

这篇关于[Retentive R-CNN] Generalized Few-Shot Object Detection without Forgetting(CVPR. 2021)的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/230534

相关文章

SAM2POINT:以zero-shot且快速的方式将任何 3D 视频分割为视频

摘要 我们介绍 SAM2POINT,这是一种采用 Segment Anything Model 2 (SAM 2) 进行零样本和快速 3D 分割的初步探索。 SAM2POINT 将任何 3D 数据解释为一系列多向视频,并利用 SAM 2 进行 3D 空间分割,无需进一步训练或 2D-3D 投影。 我们的框架支持各种提示类型,包括 3D 点、框和掩模,并且可以泛化到不同的场景,例如 3D 对象、室

【Python报错已解决】AttributeError: ‘list‘ object has no attribute ‘text‘

🎬 鸽芷咕:个人主页  🔥 个人专栏: 《C++干货基地》《粉丝福利》 ⛺️生活的理想,就是为了理想的生活! 文章目录 前言一、问题描述1.1 报错示例1.2 报错分析1.3 解决思路 二、解决方法2.1 方法一:检查属性名2.2 步骤二:访问列表元素的属性 三、其他解决方法四、总结 前言 在Python编程中,属性错误(At

深度学习实战:如何利用CNN实现人脸识别考勤系统

1. 何为CNN及其在人脸识别中的应用 卷积神经网络(CNN)是深度学习中的核心技术之一,擅长处理图像数据。CNN通过卷积层提取图像的局部特征,在人脸识别领域尤其适用。CNN的多个层次可以逐步提取面部的特征,最终实现精确的身份识别。对于考勤系统而言,CNN可以自动从摄像头捕捉的视频流中检测并识别出员工的面部。 我们在该项目中采用了 RetinaFace 模型,它基于CNN的结构实现高效、精准的

GPU 计算 CMPS224 2021 学习笔记 02

并行类型 (1)任务并行 (2)数据并行 CPU & GPU CPU和GPU拥有相互独立的内存空间,需要在两者之间相互传输数据。 (1)分配GPU内存 (2)将CPU上的数据复制到GPU上 (3)在GPU上对数据进行计算操作 (4)将计算结果从GPU复制到CPU上 (5)释放GPU内存 CUDA内存管理API (1)分配内存 cudaErro

速通GPT-3:Language Models are Few-Shot Learners全文解读

文章目录 论文实验总览1. 任务设置与测试策略2. 任务类别3. 关键实验结果4. 数据污染与实验局限性5. 总结与贡献 Abstract1. 概括2. 具体分析3. 摘要全文翻译4. 为什么不需要梯度更新或微调⭐ Introduction1. 概括2. 具体分析3. 进一步分析 Approach1. 概括2. 具体分析3. 进一步分析 Results1. 概括2. 具体分析2.1 语言模型

2021-8-14 react笔记-2 创建组件 基本用法

1、目录解析 public中的index.html为入口文件 src目录中文件很乱,先整理文件夹。 新建components 放组件 新建assets放资源   ->/images      ->/css 把乱的文件放进去  修改App.js 根组件和index.js入口文件中的引入路径 2、新建组件 在components文件夹中新建[Name].js文件 //组件名首字母大写

2021-08-14 react笔记-1 安装、环境搭建、创建项目

1、环境 1、安装nodejs 2.安装react脚手架工具 //  cnpm install -g create-react-app 全局安装 2、创建项目 create-react-app [项目名称] 3、运行项目 npm strat  //cd到项目文件夹    进入这个页面  代表运行成功  4、打包 npm run build

时间序列|change point detection

change point detection 被称为变点检测,其基本定义是在一个序列或过程中,当某个统计特性(分布类型、分布参数)在某时间点受系统性因素而非偶然因素影响发生变化,我们就称该时间点为变点。变点识别即利用统计量或统计方法或机器学习方法将该变点位置估计出来。 Change Point Detection的类型 online 指连续观察某一随机过程,监测到变点时停止检验,不运用到

[SWPUCTF 2021 新生赛]web方向(一到六题) 解题思路,实操解析,解题软件使用,解题方法教程

题目来源 NSSCTF | 在线CTF平台因为热爱,所以长远!NSSCTF平台秉承着开放、自由、共享的精神,欢迎每一个CTFer使用。https://www.nssctf.cn/problem   [SWPUCTF 2021 新生赛]gift_F12 这个题目简单打开后是一个网页  我们一般按F12或者是右键查看源代码。接着我们点击ctrl+f后快速查找,根据题目给的格式我们搜索c

如何将卷积神经网络(CNN)应用于医学图像分析:从分类到分割和检测的实用指南

引言 在现代医疗领域,医学图像已经成为疾病诊断和治疗规划的重要工具。医学图像的类型繁多,包括但不限于X射线、CT(计算机断层扫描)、MRI(磁共振成像)和超声图像。这些图像提供了对身体内部结构的详细视图,有助于医生在进行准确诊断和制定个性化治疗方案时获取关键的信息。 1. 医学图像分析的挑战 医学图像分析面临诸多挑战,其中包括: 图像数据的复杂性:医学图像通常具有高维度和复杂的结构