BEVDepth: Acquisition of Reliable Depth for Multi-view 3D Object Detection

2023-11-02 05:10

本文主要是介绍BEVDepth: Acquisition of Reliable Depth for Multi-view 3D Object Detection,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

BEVDepth: Acquisition of Reliable Depth for Multi-view 3D Object Detection

    • 相关论文
    • 摘要
    • 简介

AAAI2023 - BEVDepth: Acquisition of Reliable Depth for Multi-view 3D Object Detection

相关论文

DETR3D:DETR3D: 3D Object Detection from Multi-view Images via 3D-to-2D Queries

摘要

在这项研究中,文章提出了一种新的具有可靠深度估计的3D物体检测器,称为BEVDepth,用于基于相机的鸟瞰图 (BEV) 3D物体检测。文章的工作基于一个关键观察——鉴于深度对于相机 3D 检测至关重要这一事实,最近的方法中的深度估计出人意料地不足。BEVDepth通过利用显式深度监督解决了这个问题。 还引入了相机感知深度估计模块以促进深度预测能力。 此外,文章设计了一种新颖的深度细化模块来应对不精确的特征反投影带来的副作用。借助定制的 Efficient Voxel Pooling 和多帧机制,BEVDepth 在具有挑战性的 nuScenes 测试集上实现了最新的 60.9% NDS,同时保持了高效率。

简介

LiDAR 和摄像头是当前自主系统用于检测 3D 物体和感知环境的两个主要传感器。 虽然基于 LiDAR 的方法已经证明了它们能够提供值得信赖的 3D 检测结果,但基于多视图相机的方法最近因其成本较低而受到越来越多的关注。
LSS 中很好地解决了使用多视角相机进行 3D 感知的可行性。 他们首先使用估计的深度将多视图特征“提升”到 3D 截锥体,然后将截锥体“splat”到参考平面上,通常是鸟瞰图 (BEV) 中的平面。 BEV 表示非常重要,因为它不仅支持多输入摄像头系统的端到端训练方案,而且还为 BEV 分割、对象检测等各种下游任务提供了统一的空间和运动规划。 然而,尽管基于 LSS 的感知算法取得了成功,但几乎没有研究此管道中的学习深度。 我们问——这些检测器中学习深度的质量是否真的满足精确 3D 对象检测的要求? 我们首先尝试通过可视化基于 Lift-splat 的检测器中的估计深度来定性地回答这个问题。 尽管检测器在 nuScenes基准测试中达到了 30 mAP,但它的深度出奇地差。只有少数特征区域预测合理的深度并有助于后续任务,而大多数其他区域则没有。 基于这一观察,我们指出现有 Lift-splat 中的深度学习机制带来了三个不足:
• Inaccurate Depth。由于深度预测模块间接受到最终检测损失的监督,绝对深度质量远不能令人满意;
• Depth Module Over-fitting。大多数像素无法预测合理的深度,这意味着它们在学习阶段没有得到适当的训练。 这让我们怀疑深度模块的泛化能力。
• Imprecise BEV Semantics。Lift-splat 中学习的深度将图像特征取消投影到 3D 平截头体特征中,这些特征将进一步汇集到 BEV 特征中。 像 Lift-splat 那样深度较差的情况下,只有部分特征未投影到正确的 BEV 位置,导致 BEV 语义不精确。
Lift-splat 检测器和 BEVDepth 中的深度估计结果。 虚线框突出了 Lift-splat 检测器做出“相对”准确的深度预测的区域,通常是物体和地面之间的附着区域。

此外,我们揭示了通过将 Lift-splat 中学习的深度替换为从点云数据生成的地面实况来提高深度的巨大潜力。 结果,mAP 和 NDS 都提高了近 20%,mATE也从 0.768 下降到 0.393。 这种现象清楚地表明,增强深度是高性能相机 3D 检测的关键。
BEVDepth 的框架。 Image backbone 从多视图图像中提取图像特征。 深度网络以图像特征为输入,生成上下文和深度,得到最终的点特征。 Voxel Pooling 将所有点特征统一到一个坐标系中,并池化到 BEV 特征图上

因此,在这项工作中,我们介绍了 BEVDepth,这是一种新的多视图 3D 检测器,它利用源自点云的深度监督来指导深度学习。 我们是第一个对深度质量如何影响整个系统进行全面分析的团队。 同时,我们创新性地提出将相机内参和外参编码到深度学习模块中,使检测器对各种相机设置具有鲁棒性。 最后,进一步引入深度细化模块来细化学习到的深度。 为了验证 BEVDepth 的强大功能,我们在 nuScenes 数据集(3D 检测领域的一个著名基准)上对其进行了测试。 在我们定制的高效体素池和多帧融合技术的帮助下,BEVDepth 在 nuScenes 测试集上实现了 60.9% NDS,成为这一具有挑战性的基准测试的最新技术水平,同时仍保持高效率。

这篇关于BEVDepth: Acquisition of Reliable Depth for Multi-view 3D Object Detection的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/328339

相关文章

mysqld_multi在Linux服务器上运行多个MySQL实例

《mysqld_multi在Linux服务器上运行多个MySQL实例》在Linux系统上使用mysqld_multi来启动和管理多个MySQL实例是一种常见的做法,这种方式允许你在同一台机器上运行多个... 目录1. 安装mysql2. 配置文件示例配置文件3. 创建数据目录4. 启动和管理实例启动所有实例

Java中Object类的常用方法小结

《Java中Object类的常用方法小结》JavaObject类是所有类的父类,位于java.lang包中,本文为大家整理了一些Object类的常用方法,感兴趣的小伙伴可以跟随小编一起学习一下... 目录1. public boolean equals(Object obj)2. public int ha

深入探讨Java 中的 Object 类详解(一切类的根基)

《深入探讨Java中的Object类详解(一切类的根基)》本文详细介绍了Java中的Object类,作为所有类的根类,其重要性不言而喻,文章涵盖了Object类的主要方法,如toString()... 目录1. Object 类的基本概念1.1 Object 类的定义2. Object 类的主要方法3. O

无人叉车3d激光slam多房间建图定位异常处理方案-墙体画线地图切分方案

墙体画线地图切分方案 针对问题:墙体两侧特征混淆误匹配,导致建图和定位偏差,表现为过门跳变、外月台走歪等 ·解决思路:预期的根治方案IGICP需要较长时间完成上线,先使用切分地图的工程化方案,即墙体两侧切分为不同地图,在某一侧只使用该侧地图进行定位 方案思路 切分原理:切分地图基于关键帧位置,而非点云。 理论基础:光照是直线的,一帧点云必定只能照射到墙的一侧,无法同时照到两侧实践考虑:关

2014 Multi-University Training Contest 8小记

1002 计算几何 最大的速度才可能拥有无限的面积。 最大的速度的点 求凸包, 凸包上的点( 注意不是端点 ) 才拥有无限的面积 注意 :  凸包上如果有重点则不满足。 另外最大的速度为0也不行的。 int cmp(double x){if(fabs(x) < 1e-8) return 0 ;if(x > 0) return 1 ;return -1 ;}struct poin

2014 Multi-University Training Contest 7小记

1003   数学 , 先暴力再解方程。 在b进制下是个2 , 3 位数的 大概是10000进制以上 。这部分解方程 2-10000 直接暴力 typedef long long LL ;LL n ;int ok(int b){LL m = n ;int c ;while(m){c = m % b ;if(c == 3 || c == 4 || c == 5 ||

2014 Multi-University Training Contest 6小记

1003  贪心 对于111...10....000 这样的序列,  a 为1的个数,b为0的个数,易得当 x= a / (a + b) 时 f最小。 讲串分成若干段  1..10..0   ,  1..10..0 ,  要满足x非递减 。  对于 xi > xi+1  这样的合并 即可。 const int maxn = 100008 ;struct Node{int

MiniGPT-3D, 首个高效的3D点云大语言模型,仅需一张RTX3090显卡,训练一天时间,已开源

项目主页:https://tangyuan96.github.io/minigpt_3d_project_page/ 代码:https://github.com/TangYuan96/MiniGPT-3D 论文:https://arxiv.org/pdf/2405.01413 MiniGPT-3D在多个任务上取得了SoTA,被ACM MM2024接收,只拥有47.8M的可训练参数,在一张RTX

SAM2POINT:以zero-shot且快速的方式将任何 3D 视频分割为视频

摘要 我们介绍 SAM2POINT,这是一种采用 Segment Anything Model 2 (SAM 2) 进行零样本和快速 3D 分割的初步探索。 SAM2POINT 将任何 3D 数据解释为一系列多向视频,并利用 SAM 2 进行 3D 空间分割,无需进一步训练或 2D-3D 投影。 我们的框架支持各种提示类型,包括 3D 点、框和掩模,并且可以泛化到不同的场景,例如 3D 对象、室

【Python报错已解决】AttributeError: ‘list‘ object has no attribute ‘text‘

🎬 鸽芷咕:个人主页  🔥 个人专栏: 《C++干货基地》《粉丝福利》 ⛺️生活的理想,就是为了理想的生活! 文章目录 前言一、问题描述1.1 报错示例1.2 报错分析1.3 解决思路 二、解决方法2.1 方法一:检查属性名2.2 步骤二:访问列表元素的属性 三、其他解决方法四、总结 前言 在Python编程中,属性错误(At