Not All Points Are Equal Learning Highly Efficient Point-based Detectors for 3D LiDAR Point

2023-12-20 22:59

本文主要是介绍Not All Points Are Equal Learning Highly Efficient Point-based Detectors for 3D LiDAR Point,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

一 核心思想
为了降低内存和计算成本,现有的基于point的pipeline通常采用随机采样或FPS采样来逐步下采样输入点云,尽管并非所有的点对目标检测任务都同等重要。特别是,前景点在本质上比背景点对目标探测器更重要。基于此,本文提出了一种高效的single-stage point-based 3D detection——IA-SSD。

该方法的关键是利用两种可学习的、面向任务的、实例感知的down sample strategy来分层次地选择属于object的foreground point。此外,我们还引入了contextual centroid perception module来进一步估计精确的object center。最后,为了提高效率,我们按照只使用encoder-only的体系结构构建IA-SSD。

本文的方法中借鉴了3DSSD的框架,主要的贡献在于将每一层的采样策略进行了调整,让每次down sample采样中,前景点都占大多数。

具体框架如下图所示:
在这里插入图片描述

二 核心步骤
现有的point-based的检测器在其框架中通常采用与任务无关的采样方法,如随机采样或最远点采样。尽管对于降低内存/计算成本有效,但在渐进式下采样中,最重要的foreground point也会减少。此外,由于不同物体的大小和几何形状存在很大差异,现有的探测器通常针对不同类型的物体训练具有各种精心调整的超参数的单独模型。然而,这不可避免地会影响这些模型在实践中的部署。因此,本文的目标是:能否训练出一种基于单点的模型,这种模型能够高效地一次检测出多类目标。

基于此,本文提出了一种高效的单级检测器,通过引入instance-aware downsampling和contextual centroid perception module。如上图所示, IA-SSD采用了3DSSD中的特征提取架构。首先将输入的LiDAR点云输入到网络中提取point features,然后提出instance-aware downsampling,以逐步降低计算成本,同时保留信息丰富的foreground point。学习到的潜在特征进一步输入到contextual centroid perception module,生成proposal并回归最终的边界框。

由此本文主要有两个重点: instance-aware downsampling和contextual centroid perception module。

2.1 Instance-aware Downsampling Strategy
在这里插入图片描述
如上图所示,为了尽可能地保留foreground point,我们转向利用每个点的潜在语义,因为随着分层聚合在每个层中操作,学习到的点特征可能包含更丰富的语义信息。基于这一思想,我们提出了class-aware sampling和centroid-aware sampling两种面向任务的采样方法,将前景语义先验整合到网络训练pipeline中。

Class-aware sampling:就是在采样中,加入前景点的预测head,具体公式如下:

在这里插入图片描述
Centroid-aware sampling(只在training过程中被用到):这里就是在进行class-aware sampling时,考虑到距离object中心的点应该更被考虑到,因此使用了预测距离中心的权重head,具体公式如下:

在这里插入图片描述
这个也是本人想的一种预测距离中心的方法。

这样子就可以将得分的损失函数改为:
在这里插入图片描述
将soft point mask与foreground point的损失项相乘,使靠近中心的点具有更高的概率。注意,在inference过程中不再需要边界框,如果模型训练良好,我们只需保留下采样后得分最高的k个点。

经过上面的策略详解,我们的采样策略与其他策略对比如下所示:
在这里插入图片描述
2.2 Contextual Instance Centroid Perception

在这里插入图片描述
我们试图利用bounding box周围的上下文线索进行例如质心预测。具体来说,我们遵循VoteNet来显式预测到object中心的偏移量。(也就是进行聚集操作,如下图的VoteNet所示,就是用FPS选择出k个点然后对周围的点进行聚集操作。)
在这里插入图片描述
在这里插入图片描述
值得注意的是,在本文中,我们并不是仅仅使用边界框内的点或移位点来进行中心预测,我们手动扩展ground truth bounding box,或者按比例放大该框,以覆盖物体附近更多相关的上下文。利用落在扩展包围框内的采样点估计偏移量,然后进行偏移。

2.3 Centroid-based Instance Aggregation
在这里插入图片描述
2.4 End-to-End Learning
在这里插入图片描述

文中提出的方法主要在速度上存在优势,在检测精度上还是没有达到SOTA。

这篇关于Not All Points Are Equal Learning Highly Efficient Point-based Detectors for 3D LiDAR Point的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/517828

相关文章

无人叉车3d激光slam多房间建图定位异常处理方案-墙体画线地图切分方案

墙体画线地图切分方案 针对问题:墙体两侧特征混淆误匹配,导致建图和定位偏差,表现为过门跳变、外月台走歪等 ·解决思路:预期的根治方案IGICP需要较长时间完成上线,先使用切分地图的工程化方案,即墙体两侧切分为不同地图,在某一侧只使用该侧地图进行定位 方案思路 切分原理:切分地图基于关键帧位置,而非点云。 理论基础:光照是直线的,一帧点云必定只能照射到墙的一侧,无法同时照到两侧实践考虑:关

Retrieval-based-Voice-Conversion-WebUI模型构建指南

一、模型介绍 Retrieval-based-Voice-Conversion-WebUI(简称 RVC)模型是一个基于 VITS(Variational Inference with adversarial learning for end-to-end Text-to-Speech)的简单易用的语音转换框架。 具有以下特点 简单易用:RVC 模型通过简单易用的网页界面,使得用户无需深入了

MiniGPT-3D, 首个高效的3D点云大语言模型,仅需一张RTX3090显卡,训练一天时间,已开源

项目主页:https://tangyuan96.github.io/minigpt_3d_project_page/ 代码:https://github.com/TangYuan96/MiniGPT-3D 论文:https://arxiv.org/pdf/2405.01413 MiniGPT-3D在多个任务上取得了SoTA,被ACM MM2024接收,只拥有47.8M的可训练参数,在一张RTX

SAM2POINT:以zero-shot且快速的方式将任何 3D 视频分割为视频

摘要 我们介绍 SAM2POINT,这是一种采用 Segment Anything Model 2 (SAM 2) 进行零样本和快速 3D 分割的初步探索。 SAM2POINT 将任何 3D 数据解释为一系列多向视频,并利用 SAM 2 进行 3D 空间分割,无需进一步训练或 2D-3D 投影。 我们的框架支持各种提示类型,包括 3D 点、框和掩模,并且可以泛化到不同的场景,例如 3D 对象、室

时间序列|change point detection

change point detection 被称为变点检测,其基本定义是在一个序列或过程中,当某个统计特性(分布类型、分布参数)在某时间点受系统性因素而非偶然因素影响发生变化,我们就称该时间点为变点。变点识别即利用统计量或统计方法或机器学习方法将该变点位置估计出来。 Change Point Detection的类型 online 指连续观察某一随机过程,监测到变点时停止检验,不运用到

简单的Q-learning|小明的一维世界(3)

简单的Q-learning|小明的一维世界(1) 简单的Q-learning|小明的一维世界(2) 一维的加速度世界 这个世界,小明只能控制自己的加速度,并且只能对加速度进行如下三种操作:增加1、减少1、或者不变。所以行动空间为: { u 1 = − 1 , u 2 = 0 , u 3 = 1 } \{u_1=-1, u_2=0, u_3=1\} {u1​=−1,u2​=0,u3​=1}

简单的Q-learning|小明的一维世界(2)

上篇介绍了小明的一维世界模型 、Q-learning的状态空间、行动空间、奖励函数、Q-table、Q table更新公式、以及从Q值导出策略的公式等。最后给出最简单的一维位置世界的Q-learning例子,从给出其状态空间、行动空间、以及稠密与稀疏两种奖励函数的设置方式。下面将继续深入,GO! 一维的速度世界 这个世界,小明只能控制自己的速度,并且只能对速度进行如下三种操作:增加1、减

模具要不要建设3D打印中心

随着3D打印技术的日益成熟与广泛应用,模具企业迎来了自建3D打印中心的热潮。这一举措不仅为企业带来了前所未有的发展机遇,同时也伴随着一系列需要克服的挑战,如何看待企业引进增材制造,小编为您全面分析。 机遇篇: 加速产品创新:3D打印技术如同一把钥匙,为模具企业解锁了快速迭代产品设计的可能。企业能够迅速将创意转化为实体模型,缩短产品从设计到市场的周期,抢占市场先机。 强化定制化服务:面

[论文笔记]QLoRA: Efficient Finetuning of Quantized LLMs

引言 今天带来LoRA的量化版论文笔记——QLoRA: Efficient Finetuning of Quantized LLMs 为了简单,下文中以翻译的口吻记录,比如替换"作者"为"我们"。 我们提出了QLoRA,一种高效的微调方法,它在减少内存使用的同时,能够在单个48GB GPU上对65B参数的模型进行微调,同时保持16位微调任务的完整性能。QLoRA通过一个冻结的4位量化预

WPF入门到跪下 第十三章 3D绘图 - 3D绘图基础

3D绘图基础 四大要点 WPF中的3D绘图涉及4个要点: 视口,用来驻留3D内容3D对象照亮部分或整个3D场景的光源摄像机,提供在3D场景中进行观察的视点 一、视口 要展示3D内容,首先需要一个容器来装载3D内容。在WPF中,这个容器就是Viewport3D(3D视口),它继承自FrameworkElement,因此可以像其他元素那样在XAML中使用。 Viewport3D与其他元素相