OpenImage冠军方案:在物体检测中为分类和回归任务使用各自独立的特征图

本文主要是介绍OpenImage冠军方案:在物体检测中为分类和回归任务使用各自独立的特征图,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

点击上方“AI公园”,关注公众号,选择加“星标“或“置顶”


导读

这篇文章来自商汤科技,是OpenImage竞赛的冠军方案,本文对物体检测中的分类和回归任务的冲突问题进行了重新的审视,并给出了一个为不同任务分别生成特征图的方案,取得了很好的效果。

摘要

自从Fast RCNN以来,物体检测中的分类和回归都是共享的一个head,但是,分类和回归实际上是两个不一样的任务,在空间中所关注的内容也是不一样的,所以,共享一个检测头会对性能有伤害。本文提出了一个方法,叫做task-aware spatial disentanglement(TSD),从一个共享的proposal中生成两个解耦的proposal,在COCO和Open Image上都有3个点的提升,效果非常好。这个方法也是OpenImage 2019比赛的第一名。

1. 介绍

IoUNet首先发现了分类和回归共享一个头会有冲突这个问题,他们发现了有些分类分数特别高的bbox反而在回归上不够准确。为了解决这个问题,他们引入了一个额外的head用来预测IOU,用作位置的置信度,然后把位置置信度和分类得分结合起来作为最终的分数。这在一定程度上缓解了这个问题,在空间上的不对齐的问题依然存在。Double-Head RCNN分别用两个分支来进行分类和回归,这在检测头的方面解决了不对齐的问题,但是由于送到这两个检测头中的是来自同一个RPN的给出的ROI,所以,依然存在特征层面的不对齐的问题。

我们对常用的全连接head进行了空间敏感特征图的可视化,如图1,可以明显看出来,分类和回归关注的区域是不一样的。

因此,我们提出了task-aware spatial disentanglement(TSD),目的就是在空间上将分类和回归的梯度流解耦。TSD在原来的proposal的基础上,生成了两个解耦的proposal,分别用于分类和回归任务。这个改动在使用原来的backbone的基础上提升了3个点,更进一步,我们提出了progressive constraint (PC)来增大TSD和原始的head之间的margin,这又带来1个点的提升。

总结一下,我们的贡献如下:

  • 深入研究了基于ROI的检测器的性能壁垒,发现了制约其性能的原因。

  • 我们提出了一个简单的操作,叫做task-aware spatial disentanglement (TSD),用来解决任务间的冲突问题,通过这个操作,可以为不同的任务产生和任务相关的特征表示,从而解决任务间的冲突问题。

  • 进一步提出了一个progressive constraint (PC)来增加TSD和传统的head之间的performance margin。

  • 在COCO和OpenImage数据集上验证了方法的有效性。

2. 方法

2.1 TSD

如图2所示,我们把矩形的proposal表示为P,groundtruth包围框表示为B,类别为y,传统的Faster RCNN在共享的P上进行分类和回归的优化:

其中,,其中,f(·)是特征提取器,C(·)和R(·)分别是将特征转化为分类和回归结果的函数,有些工作认为共享的f对于分类和回归不是最优的,于是把f分成了两个,fc和fr,虽然有了一定的提升,但是在特征空间维度上的冲突还是存在的。

我们的目的是在空间维度对不同的任务进行解耦,在TSD中,上面的式子可以写成:

其中,Pc和Pr是从同一个P中预测得到的。具体来说,TSD以P为输入,分别生成Pc和Pr用来做分类和回归,用于分类的特征图Fc和用于回归的特征图Fr通过两个并列的分支生成。

2.2 任务感知的空间解耦学习

我们的目的是从共享的P中学习到Pc和Pr,对于定位任务,我们设计了一个3层的全连接网络Fr,用来将P生成一个新的Pr,这个过程可以写成:

这个式子的意思是对于P中的每个位置,生成对应这个位置的偏移量,△R=(△x, △y),然后生成Pr:

这个式子的意思是对原始的proposal P中的每个像素的位置加一个偏移,得到新的像素点坐标,然后,在做ROI Pooling的时候,用插值的方法来做。

对于分类来说,也是类似的:

其中,Fc也是一个3层全连接,其中,Fr和Fc的第一层是共享的,为了减少参数量。在使用不规则的ROI Pc来生成特征图的时候,我们还可以使用deformable RoI pooling来实现:

这里,G(x,y)是位于(x,y)的网格,|G(x,y)|是这个网格中样本点的数量。

2.3 逐步约束

在训练的时候,TSD和双检测头可以联合训练,此外,我们还设计了一个progressive constraint(PC)来提升性能。PC的公式如下:

看起来很复杂,其实就是对加了偏移和不加偏移的两个特征图预测出来的类别置信度的差别加上一个margin。当置信度的提升大于这个margin的时候,这个值就是0,否则就是一个大于0的数。

对于位置的分支也是一样:

如果P是一个负样本的proposal,那么Mloc可以忽略。所以,总的loss可以写成:

3. 实验

3.1 消融实验

我们尝试了不同的解耦方式,如图3。

得到的结果如表1:

使用联合训练的效果:

PC的效果:

不同的生成衍生proposal的方法的效果:

超参数的设置,不同的m值的效果:

3.2 不同的backbone的效果

3.3 应用到Mask-RCNN上的效果

3.4 在OpenImage上的效果

3.5 对比其他的SOTA

3.6 分析与讨论

不同的IOU要求下的表现

不同的尺度下的表现

TSD到底学到了什么?我们可以看看对比与双head,我们的可视化结果:

—END—

论文链接:https://arxiv.org/pdf/2003.07540.pdf

请长按或扫描二维码关注本公众号

喜欢的话,请给我个在看吧

这篇关于OpenImage冠军方案:在物体检测中为分类和回归任务使用各自独立的特征图的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1080739

相关文章

中文分词jieba库的使用与实景应用(一)

知识星球:https://articles.zsxq.com/id_fxvgc803qmr2.html 目录 一.定义: 精确模式(默认模式): 全模式: 搜索引擎模式: paddle 模式(基于深度学习的分词模式): 二 自定义词典 三.文本解析   调整词出现的频率 四. 关键词提取 A. 基于TF-IDF算法的关键词提取 B. 基于TextRank算法的关键词提取

基于人工智能的图像分类系统

目录 引言项目背景环境准备 硬件要求软件安装与配置系统设计 系统架构关键技术代码示例 数据预处理模型训练模型预测应用场景结论 1. 引言 图像分类是计算机视觉中的一个重要任务,目标是自动识别图像中的对象类别。通过卷积神经网络(CNN)等深度学习技术,我们可以构建高效的图像分类系统,广泛应用于自动驾驶、医疗影像诊断、监控分析等领域。本文将介绍如何构建一个基于人工智能的图像分类系统,包括环境

无人叉车3d激光slam多房间建图定位异常处理方案-墙体画线地图切分方案

墙体画线地图切分方案 针对问题:墙体两侧特征混淆误匹配,导致建图和定位偏差,表现为过门跳变、外月台走歪等 ·解决思路:预期的根治方案IGICP需要较长时间完成上线,先使用切分地图的工程化方案,即墙体两侧切分为不同地图,在某一侧只使用该侧地图进行定位 方案思路 切分原理:切分地图基于关键帧位置,而非点云。 理论基础:光照是直线的,一帧点云必定只能照射到墙的一侧,无法同时照到两侧实践考虑:关

使用SecondaryNameNode恢复NameNode的数据

1)需求: NameNode进程挂了并且存储的数据也丢失了,如何恢复NameNode 此种方式恢复的数据可能存在小部分数据的丢失。 2)故障模拟 (1)kill -9 NameNode进程 [lytfly@hadoop102 current]$ kill -9 19886 (2)删除NameNode存储的数据(/opt/module/hadoop-3.1.4/data/tmp/dfs/na

Hadoop数据压缩使用介绍

一、压缩原则 (1)运算密集型的Job,少用压缩 (2)IO密集型的Job,多用压缩 二、压缩算法比较 三、压缩位置选择 四、压缩参数配置 1)为了支持多种压缩/解压缩算法,Hadoop引入了编码/解码器 2)要在Hadoop中启用压缩,可以配置如下参数

Makefile简明使用教程

文章目录 规则makefile文件的基本语法:加在命令前的特殊符号:.PHONY伪目标: Makefilev1 直观写法v2 加上中间过程v3 伪目标v4 变量 make 选项-f-n-C Make 是一种流行的构建工具,常用于将源代码转换成可执行文件或者其他形式的输出文件(如库文件、文档等)。Make 可以自动化地执行编译、链接等一系列操作。 规则 makefile文件

认识、理解、分类——acm之搜索

普通搜索方法有两种:1、广度优先搜索;2、深度优先搜索; 更多搜索方法: 3、双向广度优先搜索; 4、启发式搜索(包括A*算法等); 搜索通常会用到的知识点:状态压缩(位压缩,利用hash思想压缩)。

使用opencv优化图片(画面变清晰)

文章目录 需求影响照片清晰度的因素 实现降噪测试代码 锐化空间锐化Unsharp Masking频率域锐化对比测试 对比度增强常用算法对比测试 需求 对图像进行优化,使其看起来更清晰,同时保持尺寸不变,通常涉及到图像处理技术如锐化、降噪、对比度增强等 影响照片清晰度的因素 影响照片清晰度的因素有很多,主要可以从以下几个方面来分析 1. 拍摄设备 相机传感器:相机传

高效+灵活,万博智云全球发布AWS无代理跨云容灾方案!

摘要 近日,万博智云推出了基于AWS的无代理跨云容灾解决方案,并与拉丁美洲,中东,亚洲的合作伙伴面向全球开展了联合发布。这一方案以AWS应用环境为基础,将HyperBDR平台的高效、灵活和成本效益优势与无代理功能相结合,为全球企业带来实现了更便捷、经济的数据保护。 一、全球联合发布 9月2日,万博智云CEO Michael Wong在线上平台发布AWS无代理跨云容灾解决方案的阐述视频,介绍了

综合安防管理平台LntonAIServer视频监控汇聚抖动检测算法优势

LntonAIServer视频质量诊断功能中的抖动检测是一个专门针对视频稳定性进行分析的功能。抖动通常是指视频帧之间的不必要运动,这种运动可能是由于摄像机的移动、传输中的错误或编解码问题导致的。抖动检测对于确保视频内容的平滑性和观看体验至关重要。 优势 1. 提高图像质量 - 清晰度提升:减少抖动,提高图像的清晰度和细节表现力,使得监控画面更加真实可信。 - 细节增强:在低光条件下,抖