Lift-Attend-Splat

2024-01-14 14:10
文章标签 lift splat attend

本文主要是介绍Lift-Attend-Splat,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

此文转载于大佬哦~~ 感谢

最新BEV LV融合方案

论文:Lift-Attend-Splat: Bird’s-eye-view camera-lidar fusion using transformers

链接:https://arxiv.org/pdf/2312.14919.pdf

结合互补的传感器模态对于为自动驾驶等安全关键应用提供强大的感知至关重要。最近最先进的自动驾驶相机-激光雷达融合方法依赖于单目深度估计,与直接使用激光雷达的深度信息相比,这是一项困难任务。在这里,我们发现这种方法并没有像预期的那样利用深度,并表明天真地改进深度估计并不能提高目标检测性能,而且令人惊讶的是,完全消除深度估计并不会降低目标检测性能。

这表明,在相机-激光雷达融合过程中,依赖单目深度可能是一个不必要的架构瓶颈。本文介绍了一种新的融合方法,该方法完全绕过单目深度估计,而是使用简单的注意力机制在BEV网格中选择和融合相机和激光雷达的特征。论文表明,提出的模型可以根据激光雷达特征的可用性调整其对相机特征的使用,并且它在nuScenes数据集上比依赖于单目深度估计的基线产生更好的3D检测性能。

本文介绍了一种新的相机-激光雷达融合方法,称为“Lift Attented Splat”,该方法完全绕过单目深度估计,而是使用简单的transformer在BEV中选择和融合相机和激光雷达特征。证据表明,与基于Monocular深度估计的方法相比,本文的方法显示出更好的相机利用率,并提高了物体检测性能。贡献如下:

  1. 基于Lift Splat范式的相机-激光雷达融合方法并没有像预期的那样利用深度。特别地,我们表明,如果完全去除单目深度预测,它们的性能相当或更好。

  2. 本文介绍了一种新的相机-激光雷达融合方法,该方法使用简单的注意力机制融合纯BEV中的相机和激光雷达特征。论文证明,与基于Lift Splat范式的模型相比,它可以更好地利用相机,并提高3D检测性能。

主要结构介绍

Lift Splat深度预测通常较差,通过使用绝对相对误差(Abs.Rel.)和均方根误差(RMSE)将其与激光雷达深度图进行定性和定量比较,来分析BEVFusion预测的深度质量。如图1所示,深度预测不能准确反映场景的结构,并且与激光雷达深度图明显不同,后者表明单目深度没有如预期的那样得到利用。论文还进行了研究,改进深度预测并不能提高检测性能!完全取消深度预测不会影响物体检测性能。

我们提出了一种相机-激光雷达融合方法,该方法完全绕过单目深度估计,而是使用简单的transformer在鸟瞰图中融合相机和激光雷达特征。然而,由于大量的相机和激光雷达特征以及注意力的二次性,transformer架构很难简单地应用于相机-激光雷达融合问题。在BEV中投影相机特征时,可以使用问题的几何形状来大幅限制注意力的范围,因为相机特征应该只对沿其相应光线的位置有贡献。我们将这一想法应用于相机-激光雷达融合的情况,并介绍了一种简单的融合方法,该方法使用相机平面中的柱和激光雷达BEV网格中的极射线之间的交叉注意力!交叉注意力不是预测单目深度,而是在激光雷达特征沿着其光线提供的背景下,学习哪些相机特征是最显著的。

除了在BEV中投影相机特征外,我们的模型与基于Lift Splat范式的方法具有相似的总体架构,如下图所示。它由以下模块组成:相机和激光雷达主干,独立生成每个模态的特征;投影和融合模块,将相机特征嵌入BEV并与激光雷达融合;最后是检测头。当考虑目标检测时,模型的最终输出是场景中目标的属性,表示为具有位置、维度、方向、速度和分类信息的3D边界框。

Lift Attented Splat相机激光雷达融合架构如下所示。(左)总体架构:相机和激光雷达主干的特征在传递到检测头之前融合在一起。(inset)我们的3D投影的几何结构:“Lift”步骤通过使用双线性采样沿z方向提升激光雷达特征,将激光雷达BEV特征嵌入投影地平线。“splat”步骤对应于逆变换,因为它使用双线性采样将特征从投影的地平线投影回BEV网格,再次沿着z方向!右边是project模块的细节部分。        whaosoft aiot http://143ai.com

实验结果

这篇关于Lift-Attend-Splat的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/605439

相关文章

Show,Attend and Tell: Neural Image Caption Generation with Visual Attention

简单的翻译阅读了一下 Abstract 受机器翻译和对象检测领域最新工作的启发,我们引入了一种基于注意力的模型,该模型可以自动学习描述图像的内容。我们描述了如何使用标准的反向传播技术,以确定性的方式训练模型,并通过最大化变分下界随机地训练模型。我们还通过可视化展示了模型如何能够自动学习将注视固定在显着对象上,同时在输出序列中生成相应的单词。我们通过三个基准数据集(Flickr9k,Flickr

hdu a strang lift

按得最短路做的,DP 搜索也能搞 #include <cstdio>#include <cstring>#include <algorithm>#include <vector>#include <queue>using namespace std;#define MAX_N 10000#define INF 0xfffftypedef pair<int, int> P;in

Codeforces 479E Riding in a Lift(dp)

题目链接:Codeforces 479E Riding in a Lift 题目大意:有一栋高N层的楼,有个无聊的人在A层,他喜欢玩电梯,每次会做电梯到另外一层。但是这栋楼里有个秘 密实验室在B层,所以每次他移动的时候就有了一个限制,x为当前所在层,y为目标层,|x - y| < |x - b|。问说移动K次 后,有多少不同的路径。 解题思路:dp[i][j]表示在第i步到达j层

LSS (Lift, Splat, Shoot)代码解析

文章目录 论文研究背景算法实现过程梳理一、相关参数设置二、模型相关参数三、算法前向过程 论文研究背景 LSS是一篇发表在ECCV 2020上有关自动驾驶感知方向的论文,具体子任务为object segmentation and map segmentation。论文和官方repo如下: 论文:https://link.zhihu.com/?target=https%3A//ar

论文复现《SplaTAM: Splat, Track Map 3D Gaussians for Dense RGB-D SLAM》

前言 SplaTAM算法是首个开源的基于RGB-D数据,生成高质量密集3D重建的SLAM技术。 通过结合3DGS技术和SLAM框架,在保持高效性的同时,提供精确的相机定位和场景重建。 代码仓库:spla-tam/SplaTAM: SplaTAM: Splat, Track & Map 3D Gaussians for Dense RGB-D SLAM (CVPR 2024) (githu

2017.05.25回顾 lift转roc 不会出现前期发力模型

1、上午连续写了两篇小结 2、继续上一篇小结中的第一个问题,定性上觉得可以loss来判断,但是觉得定量上证明比较复杂,我就曲线救国,研究了下这些lift画出roc是什么样子 蓝线是我正常模型的lift曲线,红线是根据boss的描述画出来的,因为E(lift) = 1(这里有错,是当每个decile接近于等分的时候有这个性质),所以红线后面只能越来越平缓,直线是我自己构造出来的,每个dec

【论文笔记】Lift-Attend-Splat: Bird’s-eye-view camera-lidar fusion using transformers

原文链接:https://arxiv.org/abs/2312.14919 1. 引言 多模态融合时,由于不同模态有不同的过拟合和泛化能力,联合训练不同模态可能会导致弱模态的不充分利用,甚至会导致比单一模态方法性能更低。 目前的相机-激光雷达融合方法多基于Lift-Splat,即基于深度估计投影图像特征到BEV,再与激光雷达特征融合。这高度依赖深度估计的质量。本文发现深度估计不能为这些

A strange lift

题目: There is a strange lift.The lift can stop can at every floor as you want, and there is a number Ki(0 <= Ki <= N) on every floor.The lift have just two buttons: up and down.When you at floor i,if

UVa10801 - Lift Hopping

题意:一栋摩天楼(0~99层)有n个电梯。每个电梯的速度是不一样的,第i个电梯运行(上下)一层要花Ti秒,每个电梯只在某些楼层停,换电梯需要等1分钟。你现在在0层,去往k层,问最少要花多少时间。         思路:SPFA求最短路。         不过这个题建图不是那么好建,索性不建图了。我联想到了平行宇宙。。。假设这个楼在5个世界里都存在。。“穿越”到另一个世界需要花一