解读:PV-RCNN: Point-Voxel Feature Set Abstraction for 3D Object Detection

2023-11-03 10:20

本文主要是介绍解读:PV-RCNN: Point-Voxel Feature Set Abstraction for 3D Object Detection,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

文章目录

  • 1.摘要
  • 2.Introduction
  • 3.网络结构
    • 3.1用于有效特征编码和建议生成的3D Voxel CNN
    • 3.2.通过voxel set abstraction进行voxel到关键点场景编码
    • 3.3.扩展的VSA模块
    • 3.4.预测关键点权重
    • 3.5.key point-to-grid RoI特征抽象用于proposal refinement
  • 4.损失


1.摘要

提出了一种新颖的高性能3D对象检测框架,名为Point Voxel-RCNN(PV-RCNN),用于从点云中进行精确的3D对象检测。提出的方法将3D体素卷积神经网络(CNN)和基于PointNet的集合抽象进行了深度融合,以学习更多判别性点云特征。它利用了3D体素CNN的高质量建议以及基于PointNet的网络的灵活感受野的优势。
第一阶段用3D voxel CNN生成高质量的建议,然后在第二阶段利用RoI-grid对上下文信息进行编码,以准确估计对象的置信度和位置。

2.Introduction

基于体素的方法在计算上更有效,但不可避免的信息丢失会降低精确的定位精度,而基于点的方法具有较高的计算成本,但可以通过Set Abstraction获得较大的感受野。本文提出一个统一的框架可以集成两种方法中的最佳方法,并以可观的幅度超越现有的最新3D检测方法。

3.网络结构

如图所示,PV-RCNN由3D体素CNN组成,其稀疏卷积作为有效特征编码和建议生成的主干。 给定每个3D对象建议,为了有效地从场景中合并其相应的特征,我们提出了两种新颖的操作:体素到关键点场景编码,该编码将整个场景特征量的所有体素汇总为少量的特征关键点, 点到网格RoI特征抽象可有效地将场景关键点特征汇总到RoI网格,以进行提案置信度预测和位置调整。
在这里插入图片描述

3.1用于有效特征编码和建议生成的3D Voxel CNN

3D体素CNN。 首先将输入点云P分为空间分辨率为L×W×H的小体素,其中,非空体素的特征将直接计算为所有内部点的点特征的平均值。 常用的特征是3D坐标和反射强度。 该网络利用一系列3×3×3 3D稀疏卷积将点云逐渐转换为具有1×,2×,4×,8×下采样大小的特征量。

3D提案生成。 通过将编码的8×下采样3D特征量转换为2D鸟瞰feature,遵循基于anchor的方法会生成高质量的3D建议。 具体来说,我们沿Z轴(高度变为通道)堆叠3D特征量以获得L/8×W/8鸟瞰特征图。 每个类别都有2×L/8×W/8 3D锚框(每个cell每个类别设置两个anchor),这些框采用此类的平均3D对象大小,并对鸟瞰特征图的每个像素评估两个0°,90°方向的锚。与基于PointNet的方法相比,采用基于锚的方案的3D体素CNN主干实现了更高的召回性能。(voxel CNN网络结构如下图)
在这里插入图片描述

3.2.通过voxel set abstraction进行voxel到关键点场景编码

本文提出的框架首先将代表整个场景的多个神经层的体素聚合为少量的关键点,这些关键点充当3D体素CNN特征编码器和proposal修饰网络之间的桥梁。

关键点采样采用最远点采样(FPS)算法从点云P中采样少量的n个关键点K = {p1,···,pn}
体素集抽象模块从3D CNN特征量到关键点的多尺度语义特征进行编码。
在这里插入图片描述
表示在3D voxel CNN的k层所表示的基于voxel的特征向量。
在这里插入图片描述
代表体素的坐标,由k层体素的索引和真实体素大小表示。对于每一个关键点Pi,首先找到k层rk半径邻域内的非空像素,并且把这些非空体素的特征向量写成:
在这里插入图片描述
其中,是将体素的语义特征和局部相对坐标相连接在这里插入图片描述
然后,通过PointNet变换关键点的相邻体素集合的体素特征,以生成关键点的特征:
在这里插入图片描述
其中M(.)表示在近邻集合中随机抽取最多Tk个voxel进行计算,G(.)表示用于编码体素特征和相对位置的多层感知器网络。尽管相邻体素的数量在不同的关键点上有所不同,但沿通道最大池化操作max(·)将关键点pi的不同数量的相邻体素特征向量映射得到特征向量。

通常,我们还将在k层设计不同的半径范围为聚合具有不同receptive fields的局部体素特征,以捕获更丰富的多尺度上下文信息。

上述的voxel set abstraction在3D voxel CNN的不同层执行,可以将来自不同级的聚合特征进行级联以生成关键点pi的多尺度语义特征。
在这里插入图片描述
For i=1,….n,特征fi(pv)是结合了从三维voxel特征f(lk)进行的基于三维像素CNN学习到的特征和从等式2的三维voxel特征学习中获得的基于pointnet的特征,除此之外,pi的3D坐标还保留了精确的位置信息。

3.3.扩展的VSA模块

通过进一步丰富原始点云P和8×下采样二维鸟瞰图的关键点特征,扩展了VSA模块,其中原始点云部分弥补了初始点云体素化的量化损失,而二维鸟瞰图沿Z轴有更大的感受野。
原始点云特征fi(raw)也如公式(2)所示进行聚合。利用二维投影点坐标系对特征点进行插值,得到鸟瞰图的特征map。因此,pi的特征通过连接其所有相关特性而进一步丰富。
在这里插入图片描述它具有保留整个场景的3D结构信息的强大功能,并且还可以大大提高最终的检测性能。

3.4.预测关键点权重

关键点中有的是前景点、有的是背景点,前景点的权重应该大,背景点应该小。所以对每个关键点的特征进行权重预测
在这里插入图片描述
其中A(·)是一个三层MLP网络,其sigmoid函数用于预测[0,1]之间的前景置信度。PKW模块通过focus loss进行训练。
在这里插入图片描述
通过这n个点的feature,可以计算n个weight,weight由真实的mask做监督训练,然后用这weight乘以点的feature,得到每个点的最终的feature。

3.5.key point-to-grid RoI特征抽象用于proposal refinement

RoI-grid Pooling via Set Abstraction
提出了一种基于集合抽象操作的关键点到网格RoI特征抽象,用于多尺度RoI特征编码。

在每个3D提案中统一采样6×6×6网格点,表示为G = {g1,…,g216}。首先将半径为r的网格点gi的相邻关键点标识为在这里插入图片描述
然后应用一个PointNet block来聚合邻域关键点的特征集合产生grid point:gi的特征:
在这里插入图片描述
其中M(.)和G(.)与公式2中的定义相同。设置具有不同感受野的多重半径和关键点特征,将它们组合在一起以捕获更丰富的多尺度上下文信息。

在从其周围的关键点获取每个网格的聚合特征后,可以通过具有256个特征维的两层MLP对相同RoI的所有RoI网格特征进行矢量化和转换,以代表总体建议。
3D Proposal Refinement and Confidence Prediction

给定每个proposal的RoI特征,proposal优化网络将学习预测3D proposal的大小和位置(即中心,大小和方向)残差。 refinement网络采用2层MLP,分别具有两个分支,分别用于置信度预测和proposal refinement。

对于置信度预测分支,将3D RoI和它们对应的ground truth之间的3D IoU用作训练目标。 对于第k个3D RoI,其置信度训练目标yk归一化为[0,1]
在这里插入图片描述
其中IoUk是是第k个RoI与其地面真实度框的IoU。 以最小化预测置信度目标时的交叉熵损失:
在这里插入图片描述

4.损失

在这里插入图片描述

这篇关于解读:PV-RCNN: Point-Voxel Feature Set Abstraction for 3D Object Detection的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/337514

相关文章

无人叉车3d激光slam多房间建图定位异常处理方案-墙体画线地图切分方案

墙体画线地图切分方案 针对问题:墙体两侧特征混淆误匹配,导致建图和定位偏差,表现为过门跳变、外月台走歪等 ·解决思路:预期的根治方案IGICP需要较长时间完成上线,先使用切分地图的工程化方案,即墙体两侧切分为不同地图,在某一侧只使用该侧地图进行定位 方案思路 切分原理:切分地图基于关键帧位置,而非点云。 理论基础:光照是直线的,一帧点云必定只能照射到墙的一侧,无法同时照到两侧实践考虑:关

MCU7.keil中build产生的hex文件解读

1.hex文件大致解读 闲来无事,查看了MCU6.用keil新建项目的hex文件 用FlexHex打开 给我的第一印象是:经过软件的解释之后,发现这些数据排列地十分整齐 :02000F0080FE71:03000000020003F8:0C000300787FE4F6D8FD75810702000F3D:00000001FF 把解释后的数据当作十六进制来观察 1.每一行数据

Java ArrayList扩容机制 (源码解读)

结论:初始长度为10,若所需长度小于1.5倍原长度,则按照1.5倍扩容。若不够用则按照所需长度扩容。 一. 明确类内部重要变量含义         1:数组默认长度         2:这是一个共享的空数组实例,用于明确创建长度为0时的ArrayList ,比如通过 new ArrayList<>(0),ArrayList 内部的数组 elementData 会指向这个 EMPTY_EL

poj 3050 dfs + set的妙用

题意: 给一个5x5的矩阵,求由多少个由连续6个元素组成的不一样的字符的个数。 解析: dfs + set去重搞定。 代码: #include <iostream>#include <cstdio>#include <set>#include <cstdlib>#include <algorithm>#include <cstring>#include <cm

Spring 源码解读:自定义实现Bean定义的注册与解析

引言 在Spring框架中,Bean的注册与解析是整个依赖注入流程的核心步骤。通过Bean定义,Spring容器知道如何创建、配置和管理每个Bean实例。本篇文章将通过实现一个简化版的Bean定义注册与解析机制,帮助你理解Spring框架背后的设计逻辑。我们还将对比Spring中的BeanDefinition和BeanDefinitionRegistry,以全面掌握Bean注册和解析的核心原理。

MiniGPT-3D, 首个高效的3D点云大语言模型,仅需一张RTX3090显卡,训练一天时间,已开源

项目主页:https://tangyuan96.github.io/minigpt_3d_project_page/ 代码:https://github.com/TangYuan96/MiniGPT-3D 论文:https://arxiv.org/pdf/2405.01413 MiniGPT-3D在多个任务上取得了SoTA,被ACM MM2024接收,只拥有47.8M的可训练参数,在一张RTX

Collection List Set Map的区别和联系

Collection List Set Map的区别和联系 这些都代表了Java中的集合,这里主要从其元素是否有序,是否可重复来进行区别记忆,以便恰当地使用,当然还存在同步方面的差异,见上一篇相关文章。 有序否 允许元素重复否 Collection 否 是 List 是 是 Set AbstractSet 否

GPT系列之:GPT-1,GPT-2,GPT-3详细解读

一、GPT1 论文:Improving Language Understanding by Generative Pre-Training 链接:https://cdn.openai.com/research-covers/languageunsupervised/language_understanding_paper.pdf 启发点:生成loss和微调loss同时作用,让下游任务来适应预训

论文翻译:ICLR-2024 PROVING TEST SET CONTAMINATION IN BLACK BOX LANGUAGE MODELS

PROVING TEST SET CONTAMINATION IN BLACK BOX LANGUAGE MODELS https://openreview.net/forum?id=KS8mIvetg2 验证测试集污染在黑盒语言模型中 文章目录 验证测试集污染在黑盒语言模型中摘要1 引言 摘要 大型语言模型是在大量互联网数据上训练的,这引发了人们的担忧和猜测,即它们可能已

多路转接之select(fd_set介绍,参数详细介绍),实现非阻塞式网络通信

目录 多路转接之select 引入 介绍 fd_set 函数原型 nfds readfds / writefds / exceptfds readfds  总结  fd_set操作接口  timeout timevalue 结构体 传入值 返回值 代码 注意点 -- 调用函数 select的参数填充  获取新连接 注意点 -- 通信时的调用函数 添加新fd到