Learning Open-World Object Proposals without Learning to Classify(论文解析)

2023-10-23 18:04

本文主要是介绍Learning Open-World Object Proposals without Learning to Classify(论文解析),希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

Learning Open-World Object Proposals without Learning to Classify

    • 摘要
    • 1 介绍
    • 2 相关工作
    • 3 方法
      • 3.1 基线
      • 3.2 基于纯定位的对象性
      • 3.3. 对象定位网络 (OLN)
    • 4 实验
      • 4.1跨类泛化
      • 4.2.开放世界类不可知检测
      • 4.3更多的跨数据集泛化
        • 4.3.1 Objects365 泛化
        • 4.3.2 EpicKitchens 的泛化
      • 4.4.对长尾目标检测的影响
    • 5 结论

摘要

物体提议已经成为许多视觉流程的重要预处理步骤,包括目标检测、弱监督检测、目标发现、跟踪等。与无需学习的方法相比,基于学习的提议最近变得越来越受欢迎,这主要是因为对目标检测的兴趣日益增长。常见的范式是从带有一组对象区域及其对应类别的标记数据中学习对象提议。然而,这种方法通常难以处理在训练集中不存在的开放世界中的新对象。在本文中,我们发现问题在于现有提议方法中的二元分类器往往对训练类别过拟合。因此,我们提出了一种无需分类的对象定位网络(Object Localization Network,OLN),它纯粹通过区域的位置和形状与标记的真实对象(例如,中心度和IoU)的重叠程度来估计每个区域的对象性。这种简单的策略学习了通用的对象性,并在COCO的跨类别泛化以及RoboNet、Object365和EpicKitchens的跨数据集评估中胜过了现有的提议方法。最后,我们展示了OLN在大词汇数据集LVIS上长尾目标检测方面的优点,其中我们注意到在罕见和常见类别中明显改进。

1 介绍

物体提议是一组包含高概率包含对象的区域或边界框[33, 41, 42, 45, 59-61, 74]。它们已经成为许多计算机视觉系统的重要预处理步骤,包括目标检测[33, 41, 42, 45, 59, 74]、分割[3, 8, 13]、对象发现[12, 16, 47]、弱监督目标检测[5, 21, 53]、视觉跟踪[35, 63]、内容感知重定向[51]等。由于目标检测的成功,物体提议研究的最近趋势已经从对象发现转向了检测。虽然对象发现提议的目标是在图像中提议任何对象,但检测提议的目标是仅为下游分类器提议已标记的类别。由于其简单性和与下游检测的共享计算,基于学习的提议成为受欢迎的检测提议。然而,与其无需学习的对应物[42, 59, 74]不同,这些方法倾向于过度拟合已注释的类别,并难以处理新对象[33, 41, 64]。我们想要探讨的问题是,是否可能将两者的优点结合起来,“学习开放世界(新颖)的对象提议”?这可能会为一些有前途的应用程序提供学习提议,包括开放世界检测[30]/分割[66]、机器人抓取[15]、主观视角视频理解[14]和大词汇检测[24]。

在给定一组物体注释的情况下,我们希望学习一般物体的外观,并从看不见的类别和新数据源中提出高度不同的物体候选项。这与人类在新环境中检测新颖物体而不命名它们的类别的能力相匹配,例如,道路上的障碍物,货架上的新产品。我们的主要洞察力在于,现有对象提议器[33, 41, 60]中的分类器或类别无关的检测器[45, 56]阻碍了这种泛化,因为模型倾向于过度拟合标记的对象并将训练集中的未标记对象视为背景。我们提出了对象定位网络(Object Localization Network,OLN),它通过预测一个区域的定位质量来学习检测对象,而不是进行前景-背景分类。这个简单的想法使模型能够学习更强的对象性线索。据我们所知,我们是第一个证明纯定位为基础的对象性学习对于提出新颖对象的价值的人,尽管在标准的固定类别检测设置中已经有其他人提出了将定位质量估计纳入其中的想法[28, 29, 56, 69]。我们展示了一个不依赖分类器的对象提议器是实现最佳的跨类别和跨数据集泛化的关键,这是与现有提议器或类别无关的检测器的重要设计区别。

我们在COCO交叉类别设置中研究了OLN的有效性,遵循了现有的研究[33, 41, 64]。尽管简单,OLN在新颖类别上的性能优于最先进的方法,AUC提高了+3.3(AR@10提高了+5.0,AR@100提高了+5.1)。我们的消融研究证实前景与背景分类器的使用有害,而定位有助于提高性能。此外,我们研究了从COCO到RoboNet [15]、Objects365 [48]和EpicKitchens [14]的跨数据集泛化。我们选择了RoboNet,因为它包含了机器人抓取应用中常见的各种新颖物体,而垃圾箱环境允许更可靠的详尽注释以进行适当的评估。在RoboNet上,OLN执行详尽的、与类别无关的对象检测,并在AP上优于标准方法+13∼16,而在Objects365上,OLN在AR@10上提高了+4,在AR@100上提高了+8。在EpicKitchens上的定性可视化进一步显示,OLN在检测各种新颖物体方面优于标准方法。最后,我们将OLN作为RPN [45]在LVIS长尾检测 [24]上的替代,并观察到AP提高了+1.4,其中大部分归因于罕见类别的提高(+3.4 APr)和常见类别的提高(+1.8 APc)。这表明OLN能够捕捉大词汇检测中的长尾。

值得注意的是,评估定位质量在标准检测中并不新鲜,但它们总是与分类一起使用,并仅在已知类别上进行验证,例如FCOS [56]。据我们所知,我们是首批独立于分类使用定位线索进行对象提议的研究者。这一发现帮助我们在COCO数据集上取得显著的增益,并在许多不同的数据集上比现有方法更好地进行泛化。

我们的贡献总结如下:
• 据我们所知,我们是首批展示了基于纯定位的对象性学习对于新颖对象提议的价值,并提出了一种简单但有效的无分类器的Object Localization Network(OLN)。
• 我们的方法在COCO的跨类别设置上优于现有方法,并改进了在RoboNet和Object365的跨数据集设置、长尾检测(LVIS)和主观视频

这篇关于Learning Open-World Object Proposals without Learning to Classify(论文解析)的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/269547

相关文章

网页解析 lxml 库--实战

lxml库使用流程 lxml 是 Python 的第三方解析库,完全使用 Python 语言编写,它对 XPath表达式提供了良好的支 持,因此能够了高效地解析 HTML/XML 文档。本节讲解如何通过 lxml 库解析 HTML 文档。 pip install lxml lxm| 库提供了一个 etree 模块,该模块专门用来解析 HTML/XML 文档,下面来介绍一下 lxml 库

【C++】_list常用方法解析及模拟实现

相信自己的力量,只要对自己始终保持信心,尽自己最大努力去完成任何事,就算事情最终结果是失败了,努力了也不留遗憾。💓💓💓 目录   ✨说在前面 🍋知识点一:什么是list? •🌰1.list的定义 •🌰2.list的基本特性 •🌰3.常用接口介绍 🍋知识点二:list常用接口 •🌰1.默认成员函数 🔥构造函数(⭐) 🔥析构函数 •🌰2.list对象

AI hospital 论文Idea

一、Benchmarking Large Language Models on Communicative Medical Coaching: A Dataset and a Novel System论文地址含代码 大多数现有模型和工具主要迎合以患者为中心的服务。这项工作深入探讨了LLMs在提高医疗专业人员的沟通能力。目标是构建一个模拟实践环境,人类医生(即医学学习者)可以在其中与患者代理进行医学

论文翻译:arxiv-2024 Benchmark Data Contamination of Large Language Models: A Survey

Benchmark Data Contamination of Large Language Models: A Survey https://arxiv.org/abs/2406.04244 大规模语言模型的基准数据污染:一项综述 文章目录 大规模语言模型的基准数据污染:一项综述摘要1 引言 摘要 大规模语言模型(LLMs),如GPT-4、Claude-3和Gemini的快

OWASP十大安全漏洞解析

OWASP(开放式Web应用程序安全项目)发布的“十大安全漏洞”列表是Web应用程序安全领域的权威指南,它总结了Web应用程序中最常见、最危险的安全隐患。以下是对OWASP十大安全漏洞的详细解析: 1. 注入漏洞(Injection) 描述:攻击者通过在应用程序的输入数据中插入恶意代码,从而控制应用程序的行为。常见的注入类型包括SQL注入、OS命令注入、LDAP注入等。 影响:可能导致数据泄

从状态管理到性能优化:全面解析 Android Compose

文章目录 引言一、Android Compose基本概念1.1 什么是Android Compose?1.2 Compose的优势1.3 如何在项目中使用Compose 二、Compose中的状态管理2.1 状态管理的重要性2.2 Compose中的状态和数据流2.3 使用State和MutableState处理状态2.4 通过ViewModel进行状态管理 三、Compose中的列表和滚动

论文阅读笔记: Segment Anything

文章目录 Segment Anything摘要引言任务模型数据引擎数据集负责任的人工智能 Segment Anything Model图像编码器提示编码器mask解码器解决歧义损失和训练 Segment Anything 论文地址: https://arxiv.org/abs/2304.02643 代码地址:https://github.com/facebookresear

Spring 源码解读:自定义实现Bean定义的注册与解析

引言 在Spring框架中,Bean的注册与解析是整个依赖注入流程的核心步骤。通过Bean定义,Spring容器知道如何创建、配置和管理每个Bean实例。本篇文章将通过实现一个简化版的Bean定义注册与解析机制,帮助你理解Spring框架背后的设计逻辑。我们还将对比Spring中的BeanDefinition和BeanDefinitionRegistry,以全面掌握Bean注册和解析的核心原理。

CSP 2023 提高级第一轮 CSP-S 2023初试题 完善程序第二题解析 未完

一、题目阅读 (最大值之和)给定整数序列 a0,⋯,an−1,求该序列所有非空连续子序列的最大值之和。上述参数满足 1≤n≤105 和 1≤ai≤108。 一个序列的非空连续子序列可以用两个下标 ll 和 rr(其中0≤l≤r<n0≤l≤r<n)表示,对应的序列为 al,al+1,⋯,ar​。两个非空连续子序列不同,当且仅当下标不同。 例如,当原序列为 [1,2,1,2] 时,要计算子序列 [

多线程解析报表

假如有这样一个需求,当我们需要解析一个Excel里多个sheet的数据时,可以考虑使用多线程,每个线程解析一个sheet里的数据,等到所有的sheet都解析完之后,程序需要提示解析完成。 Way1 join import java.time.LocalTime;public class Main {public static void main(String[] args) thro