目标检测排行榜_CVPR2020 | 阿里结构感知3D目标检测,KITTI BEV 排行榜第一!

2023-10-25 01:10

本文主要是介绍目标检测排行榜_CVPR2020 | 阿里结构感知3D目标检测,KITTI BEV 排行榜第一!,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

cbda543ddd9577cdb914a31271cc2d55.gif

本文转载自机器之心。

阿里巴巴达摩院在自动驾驶 3D 物体检测方面又有新成果发布。近日,计算机视觉顶会 CVPR 2020 接收论文结果发布,达摩院一篇名为《Structure Aware Single-Stage 3D Object Detection from Point Cloud》的论文入选。

该论文提出了一个通用、高性能的检测器,首次实现 3D 物体检测精度与速度的兼得,有效提升自动驾驶 系统安全性能。 目前,该检测器在 KITTI BEV 排行榜上排名第一。

991eafdada86673af6b53e18d707ed84.png

3D 目标检测需输出物体类别及在三维空间中的长宽高、旋转角等信息 和普通 2D 图像识别应用不同,自动驾驶系统对精度和速度的要求更高,不仅需要快速识别周围环境的物体,还要对物体在三维空间中的位置做精准定位,但仅靠传感器和传统算法模型无法平衡视觉识别的精度和速度,因此,全新的检测器成为提升自动驾驶系统安全性的关键因素。 虽然,业界主流的单阶段检测器在检测速度上有不俗的表现,但其检测精度却差强人意。为此,达摩院提出了全新的思路,即将两阶段检测器中对特征进行细粒度刻画的思想移植到单阶段检测中。具体来说,达摩院在训练中利用一个辅助网络将单阶段检测器中的体素特征转化为点级特征,并施加一定的监督信号,同时在模型推理过程中辅助网络无需参与计算,因此,在保障速度的同时又提高了检测精度。 该论文团队表示,「检测器是自动驾驶系统的核心组件之一,但这一领域一直以来缺少创新和突破,此次我们提出的检测器融合了单阶段检测器和两阶段检测器的优势,因此同时实现了 3D 检测精读和速度的提升,未来检测器的创新研究还可以解决自动驾驶产业的更多难题。」 研究结果显示,该检测器在 KITTI BEV(bird`s eye view)排行榜上排名第一, 检测速度达到 25FPS,同时精度也超过其他的单阶段检测器。

508f85ef0a9097a71650535490614158.png

KITTI BEV 排行榜,达摩院位居第一 据了解,该论文共有 5 位作者,第一作者为达摩院研究实习生 Chenhang He,另外四位作者也为达摩院科学家,包括达摩院高级研究员、IEEE Fellow 华先胜,达摩院高级研究员、香港理工大学电子计算学系讲座教授、IEEE Fellow 张磊,达摩院资深算法专家黄建强。 以下是论文一作对该论文做出的解读: 1. 背景 目标检测是计算机视觉领域的传统任务,与图像识别不同,目标检测不仅需要识别出图像上存在的物体,给出对应的类别,还需要将该物体通过 Bounding box 进行定位。根据目标检测需要输出结果的不同,一般将使用 RGB 图像进行目标检测,输出物体类别和在图像上 2D bounding box 的方式称为 2D 目标检测。而将使用 RGB 图像、RGB-D 深度图像和激光点云,输出物体类别及在三维空间中的长宽高、旋转角等信息的检测称为 3D 目标检测。

2cf41f133a40944c478c3db9f6a2f904.png

从点云数据进行 3D 目标检测是自动驾驶(AV)系统中的的关键组件。 与仅从图像平面估计 2D 边界框的普通 2D 目标检测不同,AV 需要从现实世界估计更具信息量的 3D 边界框,以完成诸如路径规划和避免碰撞之类的高级任务。 这激发了最近出现的 3D 目标检测方法,该方法应用卷积神经网络(CNN)处理来自高端 LiDAR 传感器的点云数据。 目前基于点云的 3D 物体检测主要有两种架构:  1) 单阶段检测器 (single-stage): 将点云编码成体素特征 (voxel feature), 并用 3D CNN 直接预测物体框, 速度快但是由于点云在 CNN 中被解构, 对物体的结构感知能力差, 所以精度略低. 2) 两阶段检测器 (two-stage): 首先用 PointNet 提取点级特征, 并利用候选区域池化点云 (Pooling from point cloud) 以获得精细特征. 通常能达到很高的精度但速度很慢.

094eb5c675d0c4e1f2b7367302775641.png

2. 方法 目前业界主要以单阶段检测器为主,这样能保证检测器能高效地在实时系统上进行。我们提出的方案将两阶段检测器中对特征进行细粒度刻画的思想移植到单阶段检测中,通过在训练中利用一个辅助网络将单阶段检测器中的体素特征转化为点级特征,并施加一定的监督信号,从而使得卷积特征也具有结构感知能力,进而提高检测精度。而在做模型推断时,辅助网络并不参与计算(detached), 进而保证了单阶段检测器的检测效率。另外我们提出一个工程上的改进,Part-sensitive Warping (PSWarp), 用于处理单阶段检测器中存在的「框-置信度-不匹配」问题。

094eb5c675d0c4e1f2b7367302775641.png

主体网络 用于部署的检测器,即推断网络,由一个骨干网络和检测头组成。骨干网络用 3D 的稀疏网络实现,用于提取含有高语义的体素特征。检测头将体素特征压缩成鸟瞰图表示,并在上面运行 2D 全卷积网络来预测 3D 物体框。 辅助网络 在训练阶段,我们提出一个辅助网络来抽取骨干网络中间层的卷积特征,并将这些特征转化成点级特征 (point-wise feature)。在实现上,我们将卷积特征中的非零信号映射到原始的点云空间中,然后在每个点上进行插值,这样我们就能获取卷积特征的点级表示。令 {():j=0,…,M} 为卷积特征在空间中的表示, {:i=0,…,N} 为原始点云, 则卷积特征在原始点上的表示等于

3fdd6cd9c7bbed4e0ce7501568b0c3cf.png

辅助任务

我们提出两种基于点级特征的监督策略来帮助卷积特征获得很好的结构感知力,一个前景分割任务,一个中心点回归任务。

e8b3202955d4a46f564086740a131060.png

具体来说,相比于 PointNet 特征提取器 (a),卷积网络中的卷积操作和下采样会造成点云结构的破坏(b)使得特征对物体的边界与内部结构不敏感。我们利用分割任务来保证部分卷积特征在下采样时不会被背景特征影响 (c),从而加强对边界的感知。我们利用中心点回归任务来加强卷积特征对物体内部结构的感知能力 (d),使得在少量点的情况下也能合理的推断出物体的潜在大小,形状。我们使用 focal loss 和 smooth-l1 对分割任务与中心回归任务分辨进行优化。 3. 工程上的改进

0d80f4062a138867b6319898ce32c76f.png

在单阶段检测中,feature map 和 anchor 的对齐问题是普遍存在的问题,这样会导致预测出来的边界框的定位质量与置信度不匹配,这会影响在后处理阶段(NMS)时,高置信度但低定位质量的框被保留,而定位质量高却置信度低的框被丢弃。在 two-stage 的目标检测算法中,RPN 提取 proposal,然后会在 feature map 上对应的的位置提取特征(roi-pooling 或者 roi-align),这个时候新的特征和对应的 proposal 是对齐的。我们提出了一个基于 PSRoIAlign 的改进,Part-sensitive Warping (PSWarp), 用来对预测框进行重打分。 如上图,我们首先修改最后的分类层以生成 K 个部分敏感的特征图,用 {X_k:k = 1,2,...,K} 表示,每个图都编码对象的特定部分的信息。例如,在 K = 4 的情况下,会生成 {左上,右上,左下,右下} 四个局部敏感的特征图。同时,我们将每个预测边界框划分为 K 个子窗口,然后选择每个子窗口的中心位置作为采样点。这样,我们可以生成 K 个采样网格 {S^k:k = 1,2,...,K},每个采样网格都与该局部对应的特征图相关联。如图所示,我们利用采样器,用生成的采样网格在对应的局部敏感特征图上进行采样,生成对齐好的特征图。最终能反映置信度的特征图则是 K 个对齐好特征图的平均。 4. 效果

77f7ec1be0f9267aa5168ba3c72df88b.png

我们提出的方法 (黑色) 在 KITTI 数据库上的 PR Curve,其中实线为两阶段方法,虚线为单阶段方法。可以看到我们作为单阶段方法能够达到两阶段方法才能达到的精度。 在 KITTI 鸟瞰 (BEV) 和 3D 测试集的效果。优点是在保持精度的同时,不增加额外的计算量,能达到 25FPS 的检测速度。

END

7e89f225889df983bf44f5c72ace62af.png

备注:目标检测

c6f68a725b9b400a2155c954f97a7a52.png

目标检测交流群

2D、3D目标检测等最新资讯,若已为CV君其他账号好友请直接私信。

我爱计算机视觉

微信号:aicvml

QQ群:805388940

微博知乎:@我爱计算机视觉

投稿:amos@52cv.net

网站:www.52cv.net

2c29f4cf218a931abdbcb73a5d96d92e.png

在看,让更多人看到  11c6b6f8018f933d8c3eef0ae681792f.gif

这篇关于目标检测排行榜_CVPR2020 | 阿里结构感知3D目标检测,KITTI BEV 排行榜第一!的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/279007

相关文章

Python如何实现PDF隐私信息检测

《Python如何实现PDF隐私信息检测》随着越来越多的个人信息以电子形式存储和传输,确保这些信息的安全至关重要,本文将介绍如何使用Python检测PDF文件中的隐私信息,需要的可以参考下... 目录项目背景技术栈代码解析功能说明运行结php果在当今,数据隐私保护变得尤为重要。随着越来越多的个人信息以电子形

Python中顺序结构和循环结构示例代码

《Python中顺序结构和循环结构示例代码》:本文主要介绍Python中的条件语句和循环语句,条件语句用于根据条件执行不同的代码块,循环语句用于重复执行一段代码,文章还详细说明了range函数的使... 目录一、条件语句(1)条件语句的定义(2)条件语句的语法(a)单分支 if(b)双分支 if-else(

使用Navicat工具比对两个数据库所有表结构的差异案例详解

《使用Navicat工具比对两个数据库所有表结构的差异案例详解》:本文主要介绍如何使用Navicat工具对比两个数据库test_old和test_new,并生成相应的DDLSQL语句,以便将te... 目录概要案例一、如图两个数据库test_old和test_new进行比较:二、开始比较总结概要公司存在多

Redis如何使用zset处理排行榜和计数问题

《Redis如何使用zset处理排行榜和计数问题》Redis的ZSET数据结构非常适合处理排行榜和计数问题,它可以在高并发的点赞业务中高效地管理点赞的排名,并且由于ZSET的排序特性,可以轻松实现根据... 目录Redis使用zset处理排行榜和计数业务逻辑ZSET 数据结构优化高并发的点赞操作ZSET 结

SpringBoot使用Apache Tika检测敏感信息

《SpringBoot使用ApacheTika检测敏感信息》ApacheTika是一个功能强大的内容分析工具,它能够从多种文件格式中提取文本、元数据以及其他结构化信息,下面我们来看看如何使用Ap... 目录Tika 主要特性1. 多格式支持2. 自动文件类型检测3. 文本和元数据提取4. 支持 OCR(光学

Java中switch-case结构的使用方法举例详解

《Java中switch-case结构的使用方法举例详解》:本文主要介绍Java中switch-case结构使用的相关资料,switch-case结构是Java中处理多个分支条件的一种有效方式,它... 目录前言一、switch-case结构的基本语法二、使用示例三、注意事项四、总结前言对于Java初学者

结构体和联合体的区别及说明

《结构体和联合体的区别及说明》文章主要介绍了C语言中的结构体和联合体,结构体是一种自定义的复合数据类型,可以包含多个成员,每个成员可以是不同的数据类型,联合体是一种特殊的数据结构,可以在内存中共享同一... 目录结构体和联合体的区别1. 结构体(Struct)2. 联合体(Union)3. 联合体与结构体的

如何用Java结合经纬度位置计算目标点的日出日落时间详解

《如何用Java结合经纬度位置计算目标点的日出日落时间详解》这篇文章主详细讲解了如何基于目标点的经纬度计算日出日落时间,提供了在线API和Java库两种计算方法,并通过实际案例展示了其应用,需要的朋友... 目录前言一、应用示例1、天安门升旗时间2、湖南省日出日落信息二、Java日出日落计算1、在线API2

基于Qt实现系统主题感知功能

《基于Qt实现系统主题感知功能》在现代桌面应用程序开发中,系统主题感知是一项重要的功能,它使得应用程序能够根据用户的系统主题设置(如深色模式或浅色模式)自动调整其外观,Qt作为一个跨平台的C++图形用... 目录【正文开始】一、使用效果二、系统主题感知助手类(SystemThemeHelper)三、实现细节

PostgreSQL如何查询表结构和索引信息

《PostgreSQL如何查询表结构和索引信息》文章介绍了在PostgreSQL中查询表结构和索引信息的几种方法,包括使用`d`元命令、系统数据字典查询以及使用可视化工具DBeaver... 目录前言使用\d元命令查看表字段信息和索引信息通过系统数据字典查询表结构通过系统数据字典查询索引信息查询所有的表名可