目标定位与检测系列(16):FCOS

2023-10-11 03:40
文章标签 16 目标 系列 检测 定位 fcos

本文主要是介绍目标定位与检测系列(16):FCOS,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

文章目录

  • 摘要
  • 动机
  • FCOS检测框架
    • 整体框架
    • FPN用于FCOS
    • Center-ness用于FCOS
  • 实验结果
  • 总结

摘要

我们提出了一个全卷积一阶段目标检测框架,以类似于实例分割的逐像素预测方式来解决目标检测问题。目前几乎所有顶尖的目标检测框架(如RetinaNet,SSD,YOLOv3,Faster R-CNN等)都依赖于预定义的锚框。相反,我们提出的FCOS目标检测框架不需要锚框,当然也不需要候选框。由于移除了大量预定义的锚框,FCOS避免了大量关于锚框的复杂运算,如训练过程中计算框的重叠程度。更重要的是,FCOS也避免了关于锚框的所有超参数,而模型的最终的检测性能往往对这些超参数很敏感。采用 ResNeXt-64x4d-101主干网络,并仅凭借NMS后处理步骤,FCOS在单模型单尺度预测的条件下达到了44.7%的mAP,在保持模型更简洁的同时超过了当前的一阶段检测框架。我们以一种更简洁且灵活性更强的检测框架提升了检测性能。我们希望FCOS可以成为其他实例层面任务的一种更简洁更强大的替代框架。代码开源在:https://tinyurl.com/FCOSv1

动机

  • 基于锚框的目标检测框架在检测性能上取得很大成就,但天然地存在以下缺陷:

    • 检测性能对锚框的大小、比例和数量等参数很敏感,而且这些超参数都需要人工根据经验调节,当参数调节不当的时候,最终的AP波动很大(有实验结果表示在COCO上能达到4%的AP浮动)
    • 目标的大小往往变化幅度很大,即使锚框参数被调节得很好,在处理多变的目标大小,尤其对于小目标检测时依然存在困难。再者,在应用于新的数据集时,由于目标的分布已经完全不同,锚框参数往往需要重新调节,扩展性较差。
    • 为了达到更高的召回率,基于锚框的方法需要在输入图片上密集采样,密集采样的结果往往质量不高,且大多为背景样本,这就导致了另外一个问题,即训练过程中正负样本的严重不平衡。(一阶段检测框架密集采样相比于基于RPN的二阶段检测框架的不平衡更严重)
    • 基于锚框的检测框架会带来更多的计算成本,如计算候选框和标注框之间的IOU
  • 基于全卷积结构的像素级预测的方式已广泛应用于视觉领域的很多应用,如实例分割、关键点检测等,而由于锚框机制的存在,目标检测框架很难移植到其他任务上。如果能够避开锚框,也采用一种像素层面的预测方法,这样也可以很好地拓展到其他视觉任务,从而实现视觉任务方法的统一。

FCOS检测框架

在这里插入图片描述

整体框架

和大多数检测框架相同,FCOS检测框架也分为特征提取主干网络、用于多尺度的特征金字塔和用于预测的分类分支和位置回归分支。FCOS的主要思想体现在以下几个方面:

**定义训练样本和正负样本划分。**对于基于锚框的检测方法,训练样本自然就从一系列不同大小的锚框中选取,对于一阶段检测框架,最常见的做法是根据锚框与标注框的IOU来选取及划分正负样本;对于二阶段检测框架,利用RPN网络来选取质量最好的若干个锚框作为训练样本。而FCOS不再依赖于锚框,直接把特征图上的每个位置当作训练样本(和用于实例分割 全卷积网络相同)。更详细地说,对于特征图上的每个位置,如果映射到原图时该位置落在某个标注框里,那么就把它当作训练的正样本,同时该位置对应的类别也是对应标注框的类别,否则的话就把它当作负样本。

**正样本的回归目标。**前面提到过训练样本的类别标签由落在的标注框确定,对于目标位置的回归,FCOS中采用从该位置到对应标注框四条边的距离作为预测的目标,如下图(左)。但这样做会带来一个问题:当某个位置映射到原图后落在了多个标注框里(下图右),该如何确定对应的训练目标呢?FCOS中采用的标准以面积最小的那个标注框作为回归的目标。此外还需要补充的是,为了保证回归的稳定性,FCOS中也采用了一种常见的映射手段,将回归的距离(始终大于0)通过指数函数 e x p ( x ) exp(x) exp(x)进行映射。

在这里插入图片描述

**网络输出部分设计。**根据样本类别预测和位置回归的设计,对于每个训练样本,FCOS在模型输出时采用两个卷积预测分支,分别是一个输出C维的二值分类预测分支和输出4维的位置预测分支。而对于基于锚框的检测框架,在模型输出部分的维数和每个位置的锚框数量(通常取9)成正比。在这点上,FCOS的输出维数要比基于锚框的方法小很多。

**损失函数设计。**FCOS和其他检测框架一样,损失函数包含类别损失和位置损失。其中,类别损失采用Focal loss,位置损失采用IOU loss,定义如下:

在这里插入图片描述

参数 λ \lambda λ用于权衡类别和位置损失,在FCOS中 λ \lambda λ取1。

FPN用于FCOS

FCOS中也引入了FPN,一是用来提高FCOS的召回率,二是用来缓解样本训练的二义性问题。前面说过FCOS在遇到一个位置落在两个标注框内的情况时,选取面积小的作为训练的目标。在采用FPN后,FCOS将不同大小的训练样本分到不同层的特征图上,让二义性的情况大大减少。

更具体地讲,FCOS中共利用5层特征金字塔,分别表示为 P 3 , P 4 , P 5 , P 6 , P 7 P_3,P_4,P_5,P_6,P_7 P3,P4,P5,P6,P7,其中 P 3 , P 4 , P 5 P_3,P_4,P_5 P3,P4,P5由主干网络输出的特征图 C 3 , C 4 , C 5 C_3,C_4,C_5 C3,C4,C5经过一个1x1的卷积层得到,同时深层与浅层的特征图之间有横向连接。最终5层的特征图下采样的倍数分别为8, 16, 32, 64, 128(对应感受野越来越大)。每层的特征图只负责预测特定的目标,具体预测哪些目标由预测的最大距离来确定。越高层的特征图负责预测的最大距离也越大(高层特征图感受野大,适合预测大目标,而大目标需要回归的距离也往往越大)。为了进一步适应这种预测策略,FCOS将距离的映射函数 e x p ( x ) exp(x) exp(x)修改为 e x p ( s i x ) exp(s_ix) exp(six),通过增加一个可训练的比例项 s s s来更好地适应不同大小的预测范围。

Center-ness用于FCOS

之前提到过,FCOS回归的目标是当前位置到目标框四条边的距离。但这会存在一个问题,候选框种存在大量离目标框中心比较远的低质量候选框。FCOS中引入中心度(Center-ness)的概念来滤除大部分的低质量框。具体定义如下:

在这里插入图片描述

从上式可以看出,中心度大小由当前位置到四条边的距离的比值密切相关,当左右或上下的距离相近时(即当前位置靠近待回归的目标中心),中心度越高,反之中心度越低。通过将每个框的中心度与类别得分相乘,降低低质量候选框的类别得分,使得这些候选框在NMS过程中被抑制,从而提高检测的性能。

实验结果

在这里插入图片描述

这里只列出FCOS和其他主流检测模型的结果对比,从结果中可以看出:

  • FCOS和RetinaNet的整体结构相似,相比较于一阶段有锚框的RetinaNet,无锚框的一阶段框架FCOS在均采用ResNet-101-FPN主干网络时,在AP上从39.1提高到41.5,性能提升十分可观。而相比于经典的二阶段有锚框的Faster R-CNN, 在依然采用ResNet-101-FPN主干网络时,性能提升更加显著。
  • 相比于无锚框的一阶段网络CornerNet,在多种主干网络下,FCOS的性能依然很有竞争力。
  • FCOS在采用当前流行的ResNeXt-64x4d-101-FPN主干网络时,最高AP达到了44.7,已经处于同时期检测网络中state of art的水平。

总结

目标检测发展至今,分别以R-CNN系列和YOLO系列为代表的二阶段网络和一阶段网络,在发展的四五年里都逐渐向锚框靠拢,虽然锚框的引入大幅度地提高了检测模型的性能,但由于锚框中超参数的存在,让模型对不同分布数据的适应能力变差。以FCOS、CenterNet、CornerNet为代表的无锚框检测模型的出现,无疑为解决目标检测任务提供了一种新的思路。

这篇关于目标定位与检测系列(16):FCOS的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/185261

相关文章

16.Spring前世今生与Spring编程思想

1.1.课程目标 1、通过对本章内容的学习,可以掌握Spring的基本架构及各子模块之间的依赖关系。 2、 了解Spring的发展历史,启发思维。 3、 对 Spring形成一个整体的认识,为之后的深入学习做铺垫。 4、 通过对本章内容的学习,可以了解Spring版本升级的规律,从而应用到自己的系统升级版本命名。 5、Spring编程思想总结。 1.2.内容定位 Spring使用经验

时间服务器中,适用于国内的 NTP 服务器地址,可用于时间同步或 Android 加速 GPS 定位

NTP 是什么?   NTP 是网络时间协议(Network Time Protocol),它用来同步网络设备【如计算机、手机】的时间的协议。 NTP 实现什么目的?   目的很简单,就是为了提供准确时间。因为我们的手表、设备等,经常会时间跑着跑着就有误差,或快或慢的少几秒,时间长了甚至误差过分钟。 NTP 服务器列表 最常见、熟知的就是 www.pool.ntp.org/zo

JavaWeb系列二十: jQuery的DOM操作 下

jQuery的DOM操作 CSS-DOM操作多选框案例页面加载完毕触发方法作业布置jQuery获取选中复选框的值jQuery控制checkbox被选中jQuery控制(全选/全不选/反选)jQuery动态添加删除用户 CSS-DOM操作 获取和设置元素的样式属性: css()获取和设置元素透明度: opacity属性获取和设置元素高度, 宽度: height(), widt

基于CTPN(tensorflow)+CRNN(pytorch)+CTC的不定长文本检测和识别

转发来源:https://swift.ctolib.com/ooooverflow-chinese-ocr.html chinese-ocr 基于CTPN(tensorflow)+CRNN(pytorch)+CTC的不定长文本检测和识别 环境部署 sh setup.sh 使用环境: python 3.6 + tensorflow 1.10 +pytorch 0.4.1 注:CPU环境

C语言入门系列:探秘二级指针与多级指针的奇妙世界

文章目录 一,指针的回忆杀1,指针的概念2,指针的声明和赋值3,指针的使用3.1 直接给指针变量赋值3.2 通过*运算符读写指针指向的内存3.2.1 读3.2.2 写 二,二级指针详解1,定义2,示例说明3,二级指针与一级指针、普通变量的关系3.1,与一级指针的关系3.2,与普通变量的关系,示例说明 4,二级指针的常见用途5,二级指针扩展到多级指针 小结 C语言的学习之旅中,二级

3月份目标——刷完乙级真题

https://www.patest.cn/contests/pat-b-practisePAT (Basic Level) Practice (中文) 标号标题通过提交通过率1001害死人不偿命的(3n+1)猜想 (15)31858792260.41002写出这个数 (20)21702664840.331003我要通过!(20)11071447060.251004成绩排名 (20)159644

JavaWeb系列六: 动态WEB开发核心(Servlet) 上

韩老师学生 官网文档为什么会出现Servlet什么是ServletServlet在JavaWeb项目位置Servlet基本使用Servlet开发方式说明快速入门- 手动开发 servlet浏览器请求Servlet UML分析Servlet生命周期GET和POST请求分发处理通过继承HttpServlet开发ServletIDEA配置ServletServlet注意事项和细节 Servlet注

【Qt6.3 基础教程 16】 掌握Qt中的时间和日期:QTimer和QDateTime的高效应用

文章目录 前言QTimer:定时任务的强大工具QTimer的基本用法高级特性:单次定时器 QDateTime:处理日期和时间获取当前日期和时间日期和时间的格式化输出日期和时间计算 用例:创建一个倒计时应用结论 前言 在开发桌面应用程序时,处理时间和日期是一个常见且重要的任务。Qt框架提供了强大的工具来处理与时间相关的功能,其中QTimer和QDateTime是最核心的类。本

C语言入门系列:初识函数

文章目录 一,C语言函数与数学函数的区别1,回忆杀-初中数学2,C语言中的函数 二, 函数的声明1,函数头1.1,函数名称1.2,返回值类型1.3,参数列表 2,函数体2.1,函数体2.2,return语句 三,main函数四,函数的参数与传递方式1,实参和形参1.1,函数定义(含形参)1.2,函数调用(使用实参) 2,参数传递方式2.1,值传递2.2,引用传递 五,函数原型与预声明1,

基于深度学习的轮廓检测

基于深度学习的轮廓检测 轮廓检测是计算机视觉中的一项关键任务,旨在识别图像中物体的边界或轮廓。传统的轮廓检测方法如Canny边缘检测和Sobel算子依赖于梯度计算和阈值分割。而基于深度学习的方法通过训练神经网络来自动学习图像中的轮廓特征,能够在复杂背景和噪声条件下实现更精确和鲁棒的检测效果。 深度学习在轮廓检测中的优势 自动特征提取:深度学习模型能够自动从数据中学习多层次的特征表示,而不需要