目标定位与检测系列(16):FCOS

2023-10-11 03:40
文章标签 16 目标 系列 检测 定位 fcos

本文主要是介绍目标定位与检测系列(16):FCOS,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

文章目录

  • 摘要
  • 动机
  • FCOS检测框架
    • 整体框架
    • FPN用于FCOS
    • Center-ness用于FCOS
  • 实验结果
  • 总结

摘要

我们提出了一个全卷积一阶段目标检测框架,以类似于实例分割的逐像素预测方式来解决目标检测问题。目前几乎所有顶尖的目标检测框架(如RetinaNet,SSD,YOLOv3,Faster R-CNN等)都依赖于预定义的锚框。相反,我们提出的FCOS目标检测框架不需要锚框,当然也不需要候选框。由于移除了大量预定义的锚框,FCOS避免了大量关于锚框的复杂运算,如训练过程中计算框的重叠程度。更重要的是,FCOS也避免了关于锚框的所有超参数,而模型的最终的检测性能往往对这些超参数很敏感。采用 ResNeXt-64x4d-101主干网络,并仅凭借NMS后处理步骤,FCOS在单模型单尺度预测的条件下达到了44.7%的mAP,在保持模型更简洁的同时超过了当前的一阶段检测框架。我们以一种更简洁且灵活性更强的检测框架提升了检测性能。我们希望FCOS可以成为其他实例层面任务的一种更简洁更强大的替代框架。代码开源在:https://tinyurl.com/FCOSv1

动机

  • 基于锚框的目标检测框架在检测性能上取得很大成就,但天然地存在以下缺陷:

    • 检测性能对锚框的大小、比例和数量等参数很敏感,而且这些超参数都需要人工根据经验调节,当参数调节不当的时候,最终的AP波动很大(有实验结果表示在COCO上能达到4%的AP浮动)
    • 目标的大小往往变化幅度很大,即使锚框参数被调节得很好,在处理多变的目标大小,尤其对于小目标检测时依然存在困难。再者,在应用于新的数据集时,由于目标的分布已经完全不同,锚框参数往往需要重新调节,扩展性较差。
    • 为了达到更高的召回率,基于锚框的方法需要在输入图片上密集采样,密集采样的结果往往质量不高,且大多为背景样本,这就导致了另外一个问题,即训练过程中正负样本的严重不平衡。(一阶段检测框架密集采样相比于基于RPN的二阶段检测框架的不平衡更严重)
    • 基于锚框的检测框架会带来更多的计算成本,如计算候选框和标注框之间的IOU
  • 基于全卷积结构的像素级预测的方式已广泛应用于视觉领域的很多应用,如实例分割、关键点检测等,而由于锚框机制的存在,目标检测框架很难移植到其他任务上。如果能够避开锚框,也采用一种像素层面的预测方法,这样也可以很好地拓展到其他视觉任务,从而实现视觉任务方法的统一。

FCOS检测框架

在这里插入图片描述

整体框架

和大多数检测框架相同,FCOS检测框架也分为特征提取主干网络、用于多尺度的特征金字塔和用于预测的分类分支和位置回归分支。FCOS的主要思想体现在以下几个方面:

**定义训练样本和正负样本划分。**对于基于锚框的检测方法,训练样本自然就从一系列不同大小的锚框中选取,对于一阶段检测框架,最常见的做法是根据锚框与标注框的IOU来选取及划分正负样本;对于二阶段检测框架,利用RPN网络来选取质量最好的若干个锚框作为训练样本。而FCOS不再依赖于锚框,直接把特征图上的每个位置当作训练样本(和用于实例分割 全卷积网络相同)。更详细地说,对于特征图上的每个位置,如果映射到原图时该位置落在某个标注框里,那么就把它当作训练的正样本,同时该位置对应的类别也是对应标注框的类别,否则的话就把它当作负样本。

**正样本的回归目标。**前面提到过训练样本的类别标签由落在的标注框确定,对于目标位置的回归,FCOS中采用从该位置到对应标注框四条边的距离作为预测的目标,如下图(左)。但这样做会带来一个问题:当某个位置映射到原图后落在了多个标注框里(下图右),该如何确定对应的训练目标呢?FCOS中采用的标准以面积最小的那个标注框作为回归的目标。此外还需要补充的是,为了保证回归的稳定性,FCOS中也采用了一种常见的映射手段,将回归的距离(始终大于0)通过指数函数 e x p ( x ) exp(x) exp(x)进行映射。

在这里插入图片描述

**网络输出部分设计。**根据样本类别预测和位置回归的设计,对于每个训练样本,FCOS在模型输出时采用两个卷积预测分支,分别是一个输出C维的二值分类预测分支和输出4维的位置预测分支。而对于基于锚框的检测框架,在模型输出部分的维数和每个位置的锚框数量(通常取9)成正比。在这点上,FCOS的输出维数要比基于锚框的方法小很多。

**损失函数设计。**FCOS和其他检测框架一样,损失函数包含类别损失和位置损失。其中,类别损失采用Focal loss,位置损失采用IOU loss,定义如下:

在这里插入图片描述

参数 λ \lambda λ用于权衡类别和位置损失,在FCOS中 λ \lambda λ取1。

FPN用于FCOS

FCOS中也引入了FPN,一是用来提高FCOS的召回率,二是用来缓解样本训练的二义性问题。前面说过FCOS在遇到一个位置落在两个标注框内的情况时,选取面积小的作为训练的目标。在采用FPN后,FCOS将不同大小的训练样本分到不同层的特征图上,让二义性的情况大大减少。

更具体地讲,FCOS中共利用5层特征金字塔,分别表示为 P 3 , P 4 , P 5 , P 6 , P 7 P_3,P_4,P_5,P_6,P_7 P3,P4,P5,P6,P7,其中 P 3 , P 4 , P 5 P_3,P_4,P_5 P3,P4,P5由主干网络输出的特征图 C 3 , C 4 , C 5 C_3,C_4,C_5 C3,C4,C5经过一个1x1的卷积层得到,同时深层与浅层的特征图之间有横向连接。最终5层的特征图下采样的倍数分别为8, 16, 32, 64, 128(对应感受野越来越大)。每层的特征图只负责预测特定的目标,具体预测哪些目标由预测的最大距离来确定。越高层的特征图负责预测的最大距离也越大(高层特征图感受野大,适合预测大目标,而大目标需要回归的距离也往往越大)。为了进一步适应这种预测策略,FCOS将距离的映射函数 e x p ( x ) exp(x) exp(x)修改为 e x p ( s i x ) exp(s_ix) exp(six),通过增加一个可训练的比例项 s s s来更好地适应不同大小的预测范围。

Center-ness用于FCOS

之前提到过,FCOS回归的目标是当前位置到目标框四条边的距离。但这会存在一个问题,候选框种存在大量离目标框中心比较远的低质量候选框。FCOS中引入中心度(Center-ness)的概念来滤除大部分的低质量框。具体定义如下:

在这里插入图片描述

从上式可以看出,中心度大小由当前位置到四条边的距离的比值密切相关,当左右或上下的距离相近时(即当前位置靠近待回归的目标中心),中心度越高,反之中心度越低。通过将每个框的中心度与类别得分相乘,降低低质量候选框的类别得分,使得这些候选框在NMS过程中被抑制,从而提高检测的性能。

实验结果

在这里插入图片描述

这里只列出FCOS和其他主流检测模型的结果对比,从结果中可以看出:

  • FCOS和RetinaNet的整体结构相似,相比较于一阶段有锚框的RetinaNet,无锚框的一阶段框架FCOS在均采用ResNet-101-FPN主干网络时,在AP上从39.1提高到41.5,性能提升十分可观。而相比于经典的二阶段有锚框的Faster R-CNN, 在依然采用ResNet-101-FPN主干网络时,性能提升更加显著。
  • 相比于无锚框的一阶段网络CornerNet,在多种主干网络下,FCOS的性能依然很有竞争力。
  • FCOS在采用当前流行的ResNeXt-64x4d-101-FPN主干网络时,最高AP达到了44.7,已经处于同时期检测网络中state of art的水平。

总结

目标检测发展至今,分别以R-CNN系列和YOLO系列为代表的二阶段网络和一阶段网络,在发展的四五年里都逐渐向锚框靠拢,虽然锚框的引入大幅度地提高了检测模型的性能,但由于锚框中超参数的存在,让模型对不同分布数据的适应能力变差。以FCOS、CenterNet、CornerNet为代表的无锚框检测模型的出现,无疑为解决目标检测任务提供了一种新的思路。

这篇关于目标定位与检测系列(16):FCOS的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/185261

相关文章

怎样通过分析GC日志来定位Java进程的内存问题

《怎样通过分析GC日志来定位Java进程的内存问题》:本文主要介绍怎样通过分析GC日志来定位Java进程的内存问题,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录一、GC 日志基础配置1. 启用详细 GC 日志2. 不同收集器的日志格式二、关键指标与分析维度1.

Java进程异常故障定位及排查过程

《Java进程异常故障定位及排查过程》:本文主要介绍Java进程异常故障定位及排查过程,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录一、故障发现与初步判断1. 监控系统告警2. 日志初步分析二、核心排查工具与步骤1. 进程状态检查2. CPU 飙升问题3. 内存

C++ 检测文件大小和文件传输的方法示例详解

《C++检测文件大小和文件传输的方法示例详解》文章介绍了在C/C++中获取文件大小的三种方法,推荐使用stat()函数,并详细说明了如何设计一次性发送压缩包的结构体及传输流程,包含CRC校验和自动解... 目录检测文件的大小✅ 方法一:使用 stat() 函数(推荐)✅ 用法示例:✅ 方法二:使用 fsee

CSS Anchor Positioning重新定义锚点定位的时代来临(最新推荐)

《CSSAnchorPositioning重新定义锚点定位的时代来临(最新推荐)》CSSAnchorPositioning是一项仍在草案中的新特性,由Chrome125开始提供原生支持需... 目录 css Anchor Positioning:重新定义「锚定定位」的时代来了! 什么是 Anchor Pos

OpenCV实现实时颜色检测的示例

《OpenCV实现实时颜色检测的示例》本文主要介绍了OpenCV实现实时颜色检测的示例,通过HSV色彩空间转换和色调范围判断实现红黄绿蓝颜色检测,包含视频捕捉、区域标记、颜色分析等功能,具有一定的参考... 目录一、引言二、系统概述三、代码解析1. 导入库2. 颜色识别函数3. 主程序循环四、HSV色彩空间

使用Python实现IP地址和端口状态检测与监控

《使用Python实现IP地址和端口状态检测与监控》在网络运维和服务器管理中,IP地址和端口的可用性监控是保障业务连续性的基础需求,本文将带你用Python从零打造一个高可用IP监控系统,感兴趣的小伙... 目录概述:为什么需要IP监控系统使用步骤说明1. 环境准备2. 系统部署3. 核心功能配置系统效果展

python+opencv处理颜色之将目标颜色转换实例代码

《python+opencv处理颜色之将目标颜色转换实例代码》OpenCV是一个的跨平台计算机视觉库,可以运行在Linux、Windows和MacOS操作系统上,:本文主要介绍python+ope... 目录下面是代码+ 效果 + 解释转HSV: 关于颜色总是要转HSV的掩膜再标注总结 目标:将红色的部分滤

Python如何实现PDF隐私信息检测

《Python如何实现PDF隐私信息检测》随着越来越多的个人信息以电子形式存储和传输,确保这些信息的安全至关重要,本文将介绍如何使用Python检测PDF文件中的隐私信息,需要的可以参考下... 目录项目背景技术栈代码解析功能说明运行结php果在当今,数据隐私保护变得尤为重要。随着越来越多的个人信息以电子形

SpringBoot使用Apache Tika检测敏感信息

《SpringBoot使用ApacheTika检测敏感信息》ApacheTika是一个功能强大的内容分析工具,它能够从多种文件格式中提取文本、元数据以及其他结构化信息,下面我们来看看如何使用Ap... 目录Tika 主要特性1. 多格式支持2. 自动文件类型检测3. 文本和元数据提取4. 支持 OCR(光学

如何用Java结合经纬度位置计算目标点的日出日落时间详解

《如何用Java结合经纬度位置计算目标点的日出日落时间详解》这篇文章主详细讲解了如何基于目标点的经纬度计算日出日落时间,提供了在线API和Java库两种计算方法,并通过实际案例展示了其应用,需要的朋友... 目录前言一、应用示例1、天安门升旗时间2、湖南省日出日落信息二、Java日出日落计算1、在线API2