目标定位与检测系列(16):FCOS

2023-10-11 03:40
文章标签 16 目标 系列 检测 定位 fcos

本文主要是介绍目标定位与检测系列(16):FCOS,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

文章目录

  • 摘要
  • 动机
  • FCOS检测框架
    • 整体框架
    • FPN用于FCOS
    • Center-ness用于FCOS
  • 实验结果
  • 总结

摘要

我们提出了一个全卷积一阶段目标检测框架,以类似于实例分割的逐像素预测方式来解决目标检测问题。目前几乎所有顶尖的目标检测框架(如RetinaNet,SSD,YOLOv3,Faster R-CNN等)都依赖于预定义的锚框。相反,我们提出的FCOS目标检测框架不需要锚框,当然也不需要候选框。由于移除了大量预定义的锚框,FCOS避免了大量关于锚框的复杂运算,如训练过程中计算框的重叠程度。更重要的是,FCOS也避免了关于锚框的所有超参数,而模型的最终的检测性能往往对这些超参数很敏感。采用 ResNeXt-64x4d-101主干网络,并仅凭借NMS后处理步骤,FCOS在单模型单尺度预测的条件下达到了44.7%的mAP,在保持模型更简洁的同时超过了当前的一阶段检测框架。我们以一种更简洁且灵活性更强的检测框架提升了检测性能。我们希望FCOS可以成为其他实例层面任务的一种更简洁更强大的替代框架。代码开源在:https://tinyurl.com/FCOSv1

动机

  • 基于锚框的目标检测框架在检测性能上取得很大成就,但天然地存在以下缺陷:

    • 检测性能对锚框的大小、比例和数量等参数很敏感,而且这些超参数都需要人工根据经验调节,当参数调节不当的时候,最终的AP波动很大(有实验结果表示在COCO上能达到4%的AP浮动)
    • 目标的大小往往变化幅度很大,即使锚框参数被调节得很好,在处理多变的目标大小,尤其对于小目标检测时依然存在困难。再者,在应用于新的数据集时,由于目标的分布已经完全不同,锚框参数往往需要重新调节,扩展性较差。
    • 为了达到更高的召回率,基于锚框的方法需要在输入图片上密集采样,密集采样的结果往往质量不高,且大多为背景样本,这就导致了另外一个问题,即训练过程中正负样本的严重不平衡。(一阶段检测框架密集采样相比于基于RPN的二阶段检测框架的不平衡更严重)
    • 基于锚框的检测框架会带来更多的计算成本,如计算候选框和标注框之间的IOU
  • 基于全卷积结构的像素级预测的方式已广泛应用于视觉领域的很多应用,如实例分割、关键点检测等,而由于锚框机制的存在,目标检测框架很难移植到其他任务上。如果能够避开锚框,也采用一种像素层面的预测方法,这样也可以很好地拓展到其他视觉任务,从而实现视觉任务方法的统一。

FCOS检测框架

在这里插入图片描述

整体框架

和大多数检测框架相同,FCOS检测框架也分为特征提取主干网络、用于多尺度的特征金字塔和用于预测的分类分支和位置回归分支。FCOS的主要思想体现在以下几个方面:

**定义训练样本和正负样本划分。**对于基于锚框的检测方法,训练样本自然就从一系列不同大小的锚框中选取,对于一阶段检测框架,最常见的做法是根据锚框与标注框的IOU来选取及划分正负样本;对于二阶段检测框架,利用RPN网络来选取质量最好的若干个锚框作为训练样本。而FCOS不再依赖于锚框,直接把特征图上的每个位置当作训练样本(和用于实例分割 全卷积网络相同)。更详细地说,对于特征图上的每个位置,如果映射到原图时该位置落在某个标注框里,那么就把它当作训练的正样本,同时该位置对应的类别也是对应标注框的类别,否则的话就把它当作负样本。

**正样本的回归目标。**前面提到过训练样本的类别标签由落在的标注框确定,对于目标位置的回归,FCOS中采用从该位置到对应标注框四条边的距离作为预测的目标,如下图(左)。但这样做会带来一个问题:当某个位置映射到原图后落在了多个标注框里(下图右),该如何确定对应的训练目标呢?FCOS中采用的标准以面积最小的那个标注框作为回归的目标。此外还需要补充的是,为了保证回归的稳定性,FCOS中也采用了一种常见的映射手段,将回归的距离(始终大于0)通过指数函数 e x p ( x ) exp(x) exp(x)进行映射。

在这里插入图片描述

**网络输出部分设计。**根据样本类别预测和位置回归的设计,对于每个训练样本,FCOS在模型输出时采用两个卷积预测分支,分别是一个输出C维的二值分类预测分支和输出4维的位置预测分支。而对于基于锚框的检测框架,在模型输出部分的维数和每个位置的锚框数量(通常取9)成正比。在这点上,FCOS的输出维数要比基于锚框的方法小很多。

**损失函数设计。**FCOS和其他检测框架一样,损失函数包含类别损失和位置损失。其中,类别损失采用Focal loss,位置损失采用IOU loss,定义如下:

在这里插入图片描述

参数 λ \lambda λ用于权衡类别和位置损失,在FCOS中 λ \lambda λ取1。

FPN用于FCOS

FCOS中也引入了FPN,一是用来提高FCOS的召回率,二是用来缓解样本训练的二义性问题。前面说过FCOS在遇到一个位置落在两个标注框内的情况时,选取面积小的作为训练的目标。在采用FPN后,FCOS将不同大小的训练样本分到不同层的特征图上,让二义性的情况大大减少。

更具体地讲,FCOS中共利用5层特征金字塔,分别表示为 P 3 , P 4 , P 5 , P 6 , P 7 P_3,P_4,P_5,P_6,P_7 P3,P4,P5,P6,P7,其中 P 3 , P 4 , P 5 P_3,P_4,P_5 P3,P4,P5由主干网络输出的特征图 C 3 , C 4 , C 5 C_3,C_4,C_5 C3,C4,C5经过一个1x1的卷积层得到,同时深层与浅层的特征图之间有横向连接。最终5层的特征图下采样的倍数分别为8, 16, 32, 64, 128(对应感受野越来越大)。每层的特征图只负责预测特定的目标,具体预测哪些目标由预测的最大距离来确定。越高层的特征图负责预测的最大距离也越大(高层特征图感受野大,适合预测大目标,而大目标需要回归的距离也往往越大)。为了进一步适应这种预测策略,FCOS将距离的映射函数 e x p ( x ) exp(x) exp(x)修改为 e x p ( s i x ) exp(s_ix) exp(six),通过增加一个可训练的比例项 s s s来更好地适应不同大小的预测范围。

Center-ness用于FCOS

之前提到过,FCOS回归的目标是当前位置到目标框四条边的距离。但这会存在一个问题,候选框种存在大量离目标框中心比较远的低质量候选框。FCOS中引入中心度(Center-ness)的概念来滤除大部分的低质量框。具体定义如下:

在这里插入图片描述

从上式可以看出,中心度大小由当前位置到四条边的距离的比值密切相关,当左右或上下的距离相近时(即当前位置靠近待回归的目标中心),中心度越高,反之中心度越低。通过将每个框的中心度与类别得分相乘,降低低质量候选框的类别得分,使得这些候选框在NMS过程中被抑制,从而提高检测的性能。

实验结果

在这里插入图片描述

这里只列出FCOS和其他主流检测模型的结果对比,从结果中可以看出:

  • FCOS和RetinaNet的整体结构相似,相比较于一阶段有锚框的RetinaNet,无锚框的一阶段框架FCOS在均采用ResNet-101-FPN主干网络时,在AP上从39.1提高到41.5,性能提升十分可观。而相比于经典的二阶段有锚框的Faster R-CNN, 在依然采用ResNet-101-FPN主干网络时,性能提升更加显著。
  • 相比于无锚框的一阶段网络CornerNet,在多种主干网络下,FCOS的性能依然很有竞争力。
  • FCOS在采用当前流行的ResNeXt-64x4d-101-FPN主干网络时,最高AP达到了44.7,已经处于同时期检测网络中state of art的水平。

总结

目标检测发展至今,分别以R-CNN系列和YOLO系列为代表的二阶段网络和一阶段网络,在发展的四五年里都逐渐向锚框靠拢,虽然锚框的引入大幅度地提高了检测模型的性能,但由于锚框中超参数的存在,让模型对不同分布数据的适应能力变差。以FCOS、CenterNet、CornerNet为代表的无锚框检测模型的出现,无疑为解决目标检测任务提供了一种新的思路。

这篇关于目标定位与检测系列(16):FCOS的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/185261

相关文章

python+opencv处理颜色之将目标颜色转换实例代码

《python+opencv处理颜色之将目标颜色转换实例代码》OpenCV是一个的跨平台计算机视觉库,可以运行在Linux、Windows和MacOS操作系统上,:本文主要介绍python+ope... 目录下面是代码+ 效果 + 解释转HSV: 关于颜色总是要转HSV的掩膜再标注总结 目标:将红色的部分滤

Python如何实现PDF隐私信息检测

《Python如何实现PDF隐私信息检测》随着越来越多的个人信息以电子形式存储和传输,确保这些信息的安全至关重要,本文将介绍如何使用Python检测PDF文件中的隐私信息,需要的可以参考下... 目录项目背景技术栈代码解析功能说明运行结php果在当今,数据隐私保护变得尤为重要。随着越来越多的个人信息以电子形

SpringBoot使用Apache Tika检测敏感信息

《SpringBoot使用ApacheTika检测敏感信息》ApacheTika是一个功能强大的内容分析工具,它能够从多种文件格式中提取文本、元数据以及其他结构化信息,下面我们来看看如何使用Ap... 目录Tika 主要特性1. 多格式支持2. 自动文件类型检测3. 文本和元数据提取4. 支持 OCR(光学

如何用Java结合经纬度位置计算目标点的日出日落时间详解

《如何用Java结合经纬度位置计算目标点的日出日落时间详解》这篇文章主详细讲解了如何基于目标点的经纬度计算日出日落时间,提供了在线API和Java库两种计算方法,并通过实际案例展示了其应用,需要的朋友... 目录前言一、应用示例1、天安门升旗时间2、湖南省日出日落信息二、Java日出日落计算1、在线API2

Spring Security 从入门到进阶系列教程

Spring Security 入门系列 《保护 Web 应用的安全》 《Spring-Security-入门(一):登录与退出》 《Spring-Security-入门(二):基于数据库验证》 《Spring-Security-入门(三):密码加密》 《Spring-Security-入门(四):自定义-Filter》 《Spring-Security-入门(五):在 Sprin

无人叉车3d激光slam多房间建图定位异常处理方案-墙体画线地图切分方案

墙体画线地图切分方案 针对问题:墙体两侧特征混淆误匹配,导致建图和定位偏差,表现为过门跳变、外月台走歪等 ·解决思路:预期的根治方案IGICP需要较长时间完成上线,先使用切分地图的工程化方案,即墙体两侧切分为不同地图,在某一侧只使用该侧地图进行定位 方案思路 切分原理:切分地图基于关键帧位置,而非点云。 理论基础:光照是直线的,一帧点云必定只能照射到墙的一侧,无法同时照到两侧实践考虑:关

综合安防管理平台LntonAIServer视频监控汇聚抖动检测算法优势

LntonAIServer视频质量诊断功能中的抖动检测是一个专门针对视频稳定性进行分析的功能。抖动通常是指视频帧之间的不必要运动,这种运动可能是由于摄像机的移动、传输中的错误或编解码问题导致的。抖动检测对于确保视频内容的平滑性和观看体验至关重要。 优势 1. 提高图像质量 - 清晰度提升:减少抖动,提高图像的清晰度和细节表现力,使得监控画面更加真实可信。 - 细节增强:在低光条件下,抖

科研绘图系列:R语言扩展物种堆积图(Extended Stacked Barplot)

介绍 R语言的扩展物种堆积图是一种数据可视化工具,它不仅展示了物种的堆积结果,还整合了不同样本分组之间的差异性分析结果。这种图形表示方法能够直观地比较不同物种在各个分组中的显著性差异,为研究者提供了一种有效的数据解读方式。 加载R包 knitr::opts_chunk$set(warning = F, message = F)library(tidyverse)library(phyl

烟火目标检测数据集 7800张 烟火检测 带标注 voc yolo

一个包含7800张带标注图像的数据集,专门用于烟火目标检测,是一个非常有价值的资源,尤其对于那些致力于公共安全、事件管理和烟花表演监控等领域的人士而言。下面是对此数据集的一个详细介绍: 数据集名称:烟火目标检测数据集 数据集规模: 图片数量:7800张类别:主要包含烟火类目标,可能还包括其他相关类别,如烟火发射装置、背景等。格式:图像文件通常为JPEG或PNG格式;标注文件可能为X

【生成模型系列(初级)】嵌入(Embedding)方程——自然语言处理的数学灵魂【通俗理解】

【通俗理解】嵌入(Embedding)方程——自然语言处理的数学灵魂 关键词提炼 #嵌入方程 #自然语言处理 #词向量 #机器学习 #神经网络 #向量空间模型 #Siri #Google翻译 #AlexNet 第一节:嵌入方程的类比与核心概念【尽可能通俗】 嵌入方程可以被看作是自然语言处理中的“翻译机”,它将文本中的单词或短语转换成计算机能够理解的数学形式,即向量。 正如翻译机将一种语言