【2024 目标检测】CascadeV-Det:探究基于点的 3D 目标检测中心点定位的对模型精度影响

本文主要是介绍【2024 目标检测】CascadeV-Det:探究基于点的 3D 目标检测中心点定位的对模型精度影响,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

【2024 目标检测】CascadeV-Det:探究基于点的 3D 目标检测中心点定位的对模型精度影响

  • 摘要:
  • 观察:
  • 方法:
    • Instance-Aware Voting:
    • Cascade Positive Assignment:
  • 实验结果:

来源:Arxiv 2024
机构:北京理工大学
论文题目:CascadeV-Det: Cascade Point Voting for 3D Object Detection

论文链接:https://github.com/Sharpiless/CascadeV-Det/blob/main/paper.pdf

开源代码:https://github.com/Sharpiless/CascadeV-Det

摘要:

基于点的 3D 目标检测器在执行预测时是高效的,而不需要额外的后处理。然而,与二维网格不同的是,由于点云的稀疏性,3D 点往往远离目标的真实中心,这使得精确回归边界框具有挑战性。

举例来说,2D 图像可以通过遍历网格点来获取到准确的中心点:
在这里插入图片描述
但是,点云获取的大多是物体表面,导致无法遍历到物体中心:
在这里插入图片描述

为了解决这个问题,我们首先分析了中心点定位对于模型精度的影响,并进一步提出了一种级联投票(Cascade Voting)策略,该策略不断地在联级的检测头中,优化基于点的预测的中心点位置,并提供了基于点的预测的高质量三维目标检测。

具体来说,CascadeV 使用一种新的级联投票解码器来执行级联检测,该解码器结合了两个新的组件:实例感知投票(IA-Voting)和级联点分配(CPA)模块:

  • IA-Voting 模块使用条件逆距离加权更新边界框内更新的建议点的对象特征。这种方法可以防止特征在实例之外被聚合,并有助于提高目标检测的准确性。
  • 此外,由于模型训练可能会缺乏高中心度的建议点,我们开发了CPA模块,通过级联阶段缩小正分配阈值。这种方法在早期阶段放松了对提案中心的依赖,同时确保在后期阶段有大量的高中心度的正样本。

实验表明,配备了 CascadeV 的 FCAF3D 模型在SUN RGB-D上以70.4% mAP@0.25,这是首次实现 70% 以上的 mAP@0.25。

观察:

我们定义中心度为从该位置所负责的位置到对象中心的标准化距离。然后我们可视化提议点的中心度,及其对应预测框跟 GT 的 IoU:
在这里插入图片描述

上图表示,具有较高中心度的提议点,会期望生成具有更高 IoU 的预测边界框,即预测的更加准确。

我们还注意到,由于我们预测框是由提议点到六个面的距离生成(如下图所示):

在这里插入图片描述
左边显示了来自单个提议点(浅蓝色点)的边界框。而如右图所示,我们可以利用预测框的中心,生成一个新的坐标(即深蓝色点),作为下一个阶段的提议点,实现联级检测。

由此我们重新观察提议点(浅蓝色点)和生成的新中心点(也就是下一阶段的提议点)的中心度变化:
在这里插入图片描述
可以看到,预测框的中心往往比原本的提议点具有更高的中心度,即离真正的物体中心点更近。

结合之前的观测:具有较高中心度的提议点,会期望生成具有更高 IoU 的预测边界框,即预测的更加准确。

这样不断更新提议点,获取更高的中心度,进而会提高预测框的准确性。

方法:

在这里插入图片描述
基于上述观察,我们提出了我们的方法:带有点编码器和带CascadeV-Det的新型级联投票解码器的框架,其中也包含了一个额外的 CPA 策略被用于训练。

提议点点首先从点编码器中选择,然后通过 IA-Voting 模块对对象特征进行更新,并输入带有注意模块的变压器层,通过检测头的每阶段预测进行特征细化。CPA 策略中正样本的阈值逐步降低,在更深的阶段提供更严格的正样本监督,并由此保证提供丰富的高质量的正样本。

Instance-Aware Voting:

由于我们更新了解码器中建议点的位置,因此对象特征需要相应地更新。为此,我们提出了 Instance-Aware Voting(IA-Voting)模块,它直接从预测的边界框中聚合对象特征,以便于进一步的特征更新。我们使用条件逆距离加权来聚合从这些相邻点回归的特征,在更新的提议点得到一个更新的特征。

Cascade Positive Assignment:

为了保证具有高中心度的阳性对象的数量,我们实施了 CPA 训练策略,该策略包括对每个检测头的进行不同的正样本分配策略,如图:
在这里插入图片描述
上图展示了训练过程中匹配的正样本,其中不匹配的建议点用灰色表示。星星表示去噪点(查询),距离真值的最小距离进行去噪训练。箭头方向表示建议点的更新位置。虚线框表示正样本所选择的阈值范围,随着联级预测不断缩小,以提供高质量的正样本。

请注意,与 IA-Voting 不同的是,这种匹配策略只在训练期间生效,并用于为提议点分配用于训练的真值框。

在这里插入图片描述
上图(a)表明,当正样本的阈值 µ 直接从 0.5(蓝色)降低到 0.4(金色)时,匹配到真值框的提议点点的数量会急剧下降,这表明由于缺乏积极的训练阈值,直接降低阈值来去除噪声提议点是不可行的。(b)显示,在我们提出的 CPA 策略的第一阶段,由于µ> 0.5,比(a)有更多的分数匹配为阳性,并在第二和第三阶段,这些正样本的中心度进一步提高。

因此,我们可以通过在联级的后续阶段,降低 µ 来建立更严格的分配,并有足够数量的高中心度的正样本。

实验结果:

在这里插入图片描述
在这里插入图片描述
上图展示了在 SUN RGB-D 数据集上,从多个阶段得到的提议点点和预测的边界盒的可视化结果。

这篇关于【2024 目标检测】CascadeV-Det:探究基于点的 3D 目标检测中心点定位的对模型精度影响的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/609424

相关文章

SpringBoot使用Apache Tika检测敏感信息

《SpringBoot使用ApacheTika检测敏感信息》ApacheTika是一个功能强大的内容分析工具,它能够从多种文件格式中提取文本、元数据以及其他结构化信息,下面我们来看看如何使用Ap... 目录Tika 主要特性1. 多格式支持2. 自动文件类型检测3. 文本和元数据提取4. 支持 OCR(光学

如何用Java结合经纬度位置计算目标点的日出日落时间详解

《如何用Java结合经纬度位置计算目标点的日出日落时间详解》这篇文章主详细讲解了如何基于目标点的经纬度计算日出日落时间,提供了在线API和Java库两种计算方法,并通过实际案例展示了其应用,需要的朋友... 目录前言一、应用示例1、天安门升旗时间2、湖南省日出日落信息二、Java日出日落计算1、在线API2

Python基于火山引擎豆包大模型搭建QQ机器人详细教程(2024年最新)

《Python基于火山引擎豆包大模型搭建QQ机器人详细教程(2024年最新)》:本文主要介绍Python基于火山引擎豆包大模型搭建QQ机器人详细的相关资料,包括开通模型、配置APIKEY鉴权和SD... 目录豆包大模型概述开通模型付费安装 SDK 环境配置 API KEY 鉴权Ark 模型接口Prompt

无人叉车3d激光slam多房间建图定位异常处理方案-墙体画线地图切分方案

墙体画线地图切分方案 针对问题:墙体两侧特征混淆误匹配,导致建图和定位偏差,表现为过门跳变、外月台走歪等 ·解决思路:预期的根治方案IGICP需要较长时间完成上线,先使用切分地图的工程化方案,即墙体两侧切分为不同地图,在某一侧只使用该侧地图进行定位 方案思路 切分原理:切分地图基于关键帧位置,而非点云。 理论基础:光照是直线的,一帧点云必定只能照射到墙的一侧,无法同时照到两侧实践考虑:关

综合安防管理平台LntonAIServer视频监控汇聚抖动检测算法优势

LntonAIServer视频质量诊断功能中的抖动检测是一个专门针对视频稳定性进行分析的功能。抖动通常是指视频帧之间的不必要运动,这种运动可能是由于摄像机的移动、传输中的错误或编解码问题导致的。抖动检测对于确保视频内容的平滑性和观看体验至关重要。 优势 1. 提高图像质量 - 清晰度提升:减少抖动,提高图像的清晰度和细节表现力,使得监控画面更加真实可信。 - 细节增强:在低光条件下,抖

2024年流动式起重机司机证模拟考试题库及流动式起重机司机理论考试试题

题库来源:安全生产模拟考试一点通公众号小程序 2024年流动式起重机司机证模拟考试题库及流动式起重机司机理论考试试题是由安全生产模拟考试一点通提供,流动式起重机司机证模拟考试题库是根据流动式起重机司机最新版教材,流动式起重机司机大纲整理而成(含2024年流动式起重机司机证模拟考试题库及流动式起重机司机理论考试试题参考答案和部分工种参考解析),掌握本资料和学校方法,考试容易。流动式起重机司机考试技

【专题】2024飞行汽车技术全景报告合集PDF分享(附原数据表)

原文链接: https://tecdat.cn/?p=37628 6月16日,小鹏汇天旅航者X2在北京大兴国际机场临空经济区完成首飞,这也是小鹏汇天的产品在京津冀地区进行的首次飞行。小鹏汇天方面还表示,公司准备量产,并计划今年四季度开启预售小鹏汇天分体式飞行汽车,探索分体式飞行汽车城际通勤。阅读原文,获取专题报告合集全文,解锁文末271份飞行汽车相关行业研究报告。 据悉,业内人士对飞行汽车行业

高效录音转文字:2024年四大工具精选!

在快节奏的工作生活中,能够快速将录音转换成文字是一项非常实用的能力。特别是在需要记录会议纪要、讲座内容或者是采访素材的时候,一款优秀的在线录音转文字工具能派上大用场。以下推荐几个好用的录音转文字工具! 365在线转文字 直达链接:https://www.pdf365.cn/ 365在线转文字是一款提供在线录音转文字服务的工具,它以其高效、便捷的特点受到用户的青睐。用户无需下载安装任何软件,只

Android平台播放RTSP流的几种方案探究(VLC VS ExoPlayer VS SmartPlayer)

技术背景 好多开发者需要遴选Android平台RTSP直播播放器的时候,不知道如何选的好,本文针对常用的方案,做个大概的说明: 1. 使用VLC for Android VLC Media Player(VLC多媒体播放器),最初命名为VideoLAN客户端,是VideoLAN品牌产品,是VideoLAN计划的多媒体播放器。它支持众多音频与视频解码器及文件格式,并支持DVD影音光盘,VCD影

烟火目标检测数据集 7800张 烟火检测 带标注 voc yolo

一个包含7800张带标注图像的数据集,专门用于烟火目标检测,是一个非常有价值的资源,尤其对于那些致力于公共安全、事件管理和烟花表演监控等领域的人士而言。下面是对此数据集的一个详细介绍: 数据集名称:烟火目标检测数据集 数据集规模: 图片数量:7800张类别:主要包含烟火类目标,可能还包括其他相关类别,如烟火发射装置、背景等。格式:图像文件通常为JPEG或PNG格式;标注文件可能为X