[ICCV论文阅读2019]Meta-Learning to Detect Rare Objects

2023-11-27 01:20

本文主要是介绍[ICCV论文阅读2019]Meta-Learning to Detect Rare Objects,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

摘要

小样本学习,即从很少的样本中学习新类的概念,对于实用的视觉识别系统来说是至关重要的。尽管大多数现有工作都集中在小样本的分类上,但我们朝着小样本目标检测迈出了一步,这是一个更具挑战性但尚未充分开发的任务。我们开发了一个概念上简单但功能强大的基于元学习的框架,该框架以统一,连贯的方式同时解决了小样本分类和小样本检测的问题。该框架利用具有丰富数据的基础类中有关“模型参数生成”的元级知识来促进新型类检测器的生成。我们的主要见识在于,在基于CNN的检测模型中解开与类别无关和特定于类别的组件的学习。特别是,我们引入了权重预测元模型。通过几个示例预测类别特定组件的参数。我们在小样本规模制度中系统地对现代探测器的性能进行基准测试。在各种实际场景中进行的实验(包括域内,跨域和长尾设置)证明了我们的有效性和普遍性新类的不同观念下新的类别。

1. 介绍

在本文中,我们向小样本目标检测迈出了一步,这是一个更具有实际意义的具有挑战性的任务,因为只有少数带有标注的边界框的样本可用时,才需要学习对象检测器。与图像分类不同,检测不仅需要分类还需要在一个图像中定位(多个)对象,以及处理分散注意力的背景区域。因此,先前基于图像分类的小样本的学习方法并不适用于我们的任务。虽然在这方面有一些初步尝试,他们只是将一个小样本分类器引入检测器,而没有真正解决小样本定位,导致性能不佳。
为了解决这一局限性,我们提出了一种基于元学习的框架,以一种统一、连贯的方式同时处理小样本的分类和小样本的定位。这个框架利用元级别的知识关于“模型参数产生”从一个基类促进产生只有少类样本的新类别的检测器(如下图),我们的见解是在一个现代的基于CNN的检测模型中,将类别无关和类别特定的组件的学习分离开来,并利用不同的元策略来优化不同的组件。
在这里插入图片描述
我们知道,在一个CNN中,从底层到顶层,模型组件从一般到特殊的转变,并对视觉识别做出不同的贡献。对于底层组件(如底层卷积层),它们的参数由许类共享,因此不确定类别。对于高级组件(例如,顶级全连接层),它们的参数往往是特定于类别的。然而,受到最近元学习工作的启发,这些参数在学习过程中的变化方式(即,它们的一阶动力学)可能被许多类共享。当训练CNN检测器时,当在基类上训练CNN检测器时,可以识别出这些参数或其动态的可共享属性,然后将其用于指导新类检测器的高效采样学习。
基于这一认识,我们设计了一个基于广泛使用的Faster-R-CNN检测方法的小样本检测模型“MetaDet”。Faster- R-CNN依赖于一个区域建议网络(RPN),在卷积特征的基础上生成感兴趣区域(RoIs),最后使用两个区域建议网络分支将这些roi分类到一个对象类或背景中,并返回到改进的边框位置。我们将卷积特性和RPN视为与类别无关的组件,其参数由基类和新类共享。虽然分类器和边界框回归是特定于类别的,但我们认为它们的参数的动态是由基类和新类共享的。具体来说,我们引入了一个参数化权值预测元模型,在模型参数的空间上进行训练,从小样本的参数去预测一个类别的大样本边框检测参数。通过元学习过程,使用Faster-R-CNN对元模型进行端到端的训练。当我们专注于Faster-R-CNN时,我们的框架也可以与YOLO等其他检测器相结合。
我们的贡献是三倍的。(1)我们探讨了一个具有挑战性但尚未得到充分研究的小样本目标检测问题,并在小样本条件下对现代检测模型进行了系统的基准测试。(2)提出了一种新的基于元学习的学习方法,适应在基于CNN的检测器中分类不可知和分类特定的参数。我们的方法简单、通用,以一致的方式联合处理小样本分类和定位问题。(3)我们展示了我们的方法是如何在各种实际场景(包括域内、跨域和长尾设置)的少量样本中显著地促进新类的检测。

2. 相关工作

(1)大部分工作都是简单地将小样本分类器转换为检测器,我们的方法同时处理小样本分类和定位问题。(2)现有的工作要么是从基于大样本集转移知识,要么是从基于少样本检测任务转移元知识,但不是两者同时。相比之下,我们利用了这两种方法,并证明了它们对于小样本检测都是有用的。(3)我们系统地对现代的小样本检测方法进行了基准测试,显著地超出了之前的工作。还有其他一些有限监督的检测设置,如弱监督检测、半监督检测、零炮检等,与我们的设置不同。

3. Meta-Learning based Object Detection

下图展示了我们基于元学习的小样本目标检测方法“元集”的框架。通过学习大量的小样本检测任务,这些任务是在基类中模拟的,基类中有大量的带标注的数据,MetaDet允许我们快速生成一个检测器的新类只使用几个标记的例子。
在这里插入图片描述

3.1. MetaLearning Setup for Few-Shot Detection

我们扩展了广泛使用的小样本的分类设置,建立了小样本的检测。具体来说,我们有一个基本类别集C_base和一个新类别集C_novel。相应地,我们有一个大样本的基本数据集S_base = {(Ii, yi)},其中{Ii}是输入图像,{yi}是基类对象相应的表示标签和检测框的标注。在k-shot检测中,我们有一个新的数据集S_novel = {(Ii, yi)},其中每个新的类都有k个检测框标注。我们的目标是学习一种基于S_base的检测算法,该算法能够泛化到未知的类别。这里,我们关注C_novel上的检测性能,它是在一个剩余的测试集上进行评估的。
通过元学习,我们对训练一个学习过程感兴趣。引导探测器的生成(即用于k-shot检测任务。元学习算法通过显式地模仿小样本学习场景并从中学习来实现这一点,从S_base中采样的k-shot检测任务的集合。每一个采样的任务被称为一个事件。因此,元学习算法有两个阶段:基于S_base的元训练和基于S_novel的元测试。在元训练中,我们在S_base上对每个类随机抽取k个检测框标注,并训练相应的检测器。在不同的检测任务之间,关于学习检测器的元级知识同时被聚合到元学习中。在元测试过程中,基类检测器通过元学习在S_novel上对新类进行调整。

3.2. Basic Detector and MetaStrategies

全局目标是估计检测器所需的C_novel 基于S_base和S_novel的参数.对于现代的基于深度CNN的检测器,由类不可知和类特定的组件组成。因此,我们的框架利用了关于检测模型参数生成的元级别知识,并为这些不同类型的组件利用了专门的元策略。这种面向参数的视角也使我们能够以统一、一致的方式共同解决小样本分类和小样本定位问题。
我们的元学习框架适用于各种基于CNN的检测器。在这里,我们用Faster-R-CNN来实例化这个框架,因为它是一个简单的检测模型,它实现了令人印象深刻的性能,并在此基础上构建了最新的检测器。Faster-R-CNN由一个用于生成区域建议的区域建议网络(RPN)和一个使用这些建议检测对象的检测网络(Fast RCNN)组成。这两个网络共享一个骨干网,并提供卷积特征图。RPN通过预测锚点的概率(即,参考框)为前景或背景,并细化锚点。然后使用RoI池层对这些区域进行重新构造,通过softmax分类器输入检测网络来预测对象类,并通过每个类的边界框回归器生成边界框偏移量。

3.2.1. Meta-strategy for category-agnostic components

我们将卷积网络、RPN和检测网络的底层视为与类别无关的组件,其参数由基类和新类共享。事实上,在设计Faster-R-CNN , RPN是类别无关的:它的分类层只分配一个二进制类标签(是否是对象),每个框没有区分具体的对象类,并且它的边框回归层就回归到附近的一个真实的边框而没有考虑类标签的真实。这种共享属性使我们能够将与类别无关的参数从基类转移到新类的检测器,或者将它们用作微调的初始化。

3.2.2 Meta-strategy for category-specific components

然而,我们仍然面临着从少数例子中学习类别特定组件的参数的困难。在Faster R-CNN中,检测网络的顶层包含特定于类别的参数,用于对每个类执行边界框分类和回归。这些参数不能在基类和新类之间直接转换,但是它们如何从在小数据集上训练的参数转换为在大数据集上训练的参数的动态模式可以用一个通用的、不确定类别的转换来描述。我们引入一个参数化的权重预测元模型T来学习这种通过元训练过程的转变。

3.3. Weight Prediction MetaModel

对于给定的类别c,令w表示从大样本基础数据集S_base中学习到的检测网络最后一层的类特定对象检测权值。令w表示从S_base采样的k-shot数据集中得到的相应权重。权重预测元模型T(·;q)在模型参数空间从w回归到w,其中q是与类别无关的、习得的参数。
注意,边界框检测分支包含两种类型的检测权值:分类权值和边界框回归权值。这里我们使用两种类型的权值的连接。因此,我们同时解决了小样本分类和小样本定位的统一问题,扩展了单一镜头分类。T(·)可以实现为一个小型的全连接神经网络,与检测器联合训练,如图2所示。

3.4. MetaLearning Procedure

3.4.1 Stage-wise meta-training

我们将元训练过程分为两个阶段,分别用于分类不可知和分类特定的组件。在第一阶段,我们训练了一个大样本基类检测器D 。这为我们提供了将被用于新类的基类检测器和大样本类别特定的参数组件。
在第二阶段,我们进行了小样本的检测。在每一个情节里,我们随机抽取k个边界框标注,为每一个类别。我们利用大样本基类检测器在训练第一阶段生成k-shot检测器作为 D*。也就是说,我们冻结那些在大样本中学习到的与类别无关的参数,并从头开始重新训练特定于类别的参数w。我们结合使用w和k-shot示例来训练元模型T。一切都是端到端的训练。

3.4.2 Meta-testing

为了在S_novel上训练k-shot新类的检测器,我们初始化类别不知的参数从基类检测器中作为det,并随机初始化它的类别特定的参数wc。接下来,我们使用元模型T(·) 预测所需的检测器. 偏置值和正规化用于微调检测器。在推理期间,元模型被分离,我们的检测器是标准的(Faster-R-CNN)检测器。

4. 实验评估

5.总结

在这项工作中,我们提出了一种新的类的小样本的检测方法,该方法通过元学习以一种统一、连贯的方式同时处理小样本分类和定位问题。我们提出了专门的元策略来解开分类不知的学习以及基于CNN的检测模型中的分类特定组件。我们的方法在各种现实场景中实现了最先进的检测性能,包括域内、跨域和长尾设置,以及在不同的新的类别的概念下。

这篇关于[ICCV论文阅读2019]Meta-Learning to Detect Rare Objects的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/426699

相关文章

JAVA智听未来一站式有声阅读平台听书系统小程序源码

智听未来,一站式有声阅读平台听书系统 🌟 开篇:遇见未来,从“智听”开始 在这个快节奏的时代,你是否渴望在忙碌的间隙,找到一片属于自己的宁静角落?是否梦想着能随时随地,沉浸在知识的海洋,或是故事的奇幻世界里?今天,就让我带你一起探索“智听未来”——这一站式有声阅读平台听书系统,它正悄悄改变着我们的阅读方式,让未来触手可及! 📚 第一站:海量资源,应有尽有 走进“智听

AI hospital 论文Idea

一、Benchmarking Large Language Models on Communicative Medical Coaching: A Dataset and a Novel System论文地址含代码 大多数现有模型和工具主要迎合以患者为中心的服务。这项工作深入探讨了LLMs在提高医疗专业人员的沟通能力。目标是构建一个模拟实践环境,人类医生(即医学学习者)可以在其中与患者代理进行医学

BUUCTF靶场[web][极客大挑战 2019]Http、[HCTF 2018]admin

目录   [web][极客大挑战 2019]Http 考点:Referer协议、UA协议、X-Forwarded-For协议 [web][HCTF 2018]admin 考点:弱密码字典爆破 四种方法:   [web][极客大挑战 2019]Http 考点:Referer协议、UA协议、X-Forwarded-For协议 访问环境 老规矩,我们先查看源代码

论文翻译:arxiv-2024 Benchmark Data Contamination of Large Language Models: A Survey

Benchmark Data Contamination of Large Language Models: A Survey https://arxiv.org/abs/2406.04244 大规模语言模型的基准数据污染:一项综述 文章目录 大规模语言模型的基准数据污染:一项综述摘要1 引言 摘要 大规模语言模型(LLMs),如GPT-4、Claude-3和Gemini的快

论文阅读笔记: Segment Anything

文章目录 Segment Anything摘要引言任务模型数据引擎数据集负责任的人工智能 Segment Anything Model图像编码器提示编码器mask解码器解决歧义损失和训练 Segment Anything 论文地址: https://arxiv.org/abs/2304.02643 代码地址:https://github.com/facebookresear

论文翻译:ICLR-2024 PROVING TEST SET CONTAMINATION IN BLACK BOX LANGUAGE MODELS

PROVING TEST SET CONTAMINATION IN BLACK BOX LANGUAGE MODELS https://openreview.net/forum?id=KS8mIvetg2 验证测试集污染在黑盒语言模型中 文章目录 验证测试集污染在黑盒语言模型中摘要1 引言 摘要 大型语言模型是在大量互联网数据上训练的,这引发了人们的担忧和猜测,即它们可能已

OmniGlue论文详解(特征匹配)

OmniGlue论文详解(特征匹配) 摘要1. 引言2. 相关工作2.1. 广义局部特征匹配2.2. 稀疏可学习匹配2.3. 半稠密可学习匹配2.4. 与其他图像表示匹配 3. OmniGlue3.1. 模型概述3.2. OmniGlue 细节3.2.1. 特征提取3.2.2. 利用DINOv2构建图形。3.2.3. 信息传播与新的指导3.2.4. 匹配层和损失函数3.2.5. 与Super

软件架构模式:5 分钟阅读

原文: https://orkhanscience.medium.com/software-architecture-patterns-5-mins-read-e9e3c8eb47d2 软件架构模式:5 分钟阅读 当有人潜入软件工程世界时,有一天他需要学习软件架构模式的基础知识。当我刚接触编码时,我不知道从哪里获得简要介绍现有架构模式的资源,这样它就不会太详细和混乱,而是非常抽象和易

BERT 论文逐段精读【论文精读】

BERT: 近 3 年 NLP 最火 CV: 大数据集上的训练好的 NN 模型,提升 CV 任务的性能 —— ImageNet 的 CNN 模型 NLP: BERT 简化了 NLP 任务的训练,提升了 NLP 任务的性能 BERT 如何站在巨人的肩膀上的?使用了哪些 NLP 已有的技术和思想?哪些是 BERT 的创新? 1标题 + 作者 BERT: Pre-trainin

[论文笔记]LLM.int8(): 8-bit Matrix Multiplication for Transformers at Scale

引言 今天带来第一篇量化论文LLM.int8(): 8-bit Matrix Multiplication for Transformers at Scale笔记。 为了简单,下文中以翻译的口吻记录,比如替换"作者"为"我们"。 大语言模型已被广泛采用,但推理时需要大量的GPU内存。我们开发了一种Int8矩阵乘法的过程,用于Transformer中的前馈和注意力投影层,这可以将推理所需