ICRA2024重磅!首个融合LiDAR的NeRF-based SLAM系统

2024-05-09 17:52

本文主要是介绍ICRA2024重磅!首个融合LiDAR的NeRF-based SLAM系统,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

论文标题:

SiLVR: Scalable Lidar-Visual Reconstruction with Neural Radiance
Fields for Robotic Inspection

论文作者:

Yifu Tao1, Yash Bhalgat2, Lanke Frank Tarimo Fu1, Matias Mattamala1, Nived Chebrolu1, and Maurice Fallon1

导读:

NeRF的崛起为视觉SLAM后端建图引入了新技术,使基于NeRF的稠密视觉SLAM成为2023年SLAM研究领域的热点。引入NeRF的稠密SLAM在建图质量上一度无人匹敌,直到最新的3DGS技术出现。然而,多传感融合SLAM在此前也曾是研究的热门,主要因其显著提升了SLAM前端的精度。这两种技术各自针对SLAM的前端和后端,理论上可以互不干涉,甚至结合创造新的SOTA。本文作者便探索了这一可能性,并成功实现了多传感融合与NeRF的结合,一举超越了当前最先进的NeRF-based
SLAM方法,堪称用“魔法”打败“魔法”。接下来,笔者将详细介绍这一SLAM技术组合的强大之处。©️【深蓝AI】编译

1. 研究背景

密集的3D重建是支撑一系列机器人应用的任务,如工业检测和自主导航。
常见的传感器包括摄像头和激光雷达。摄像头重建系统使用SfM和MVS等技术来生成密集的纹理重建。然而,这些系统对良好的光照条件和多视角约束依赖很大,并且在无纹理区域表现不佳。相比之下,激光雷达提供了在长距离上准确的几何信息,因为它直接测量到表面的距离。但是,激光雷达的测量通常比相机图像更稀疏,也不捕捉颜色信息,这在某些应用场景下可能不够用。

传统的重建系统使用点云、占据地图和符号距离场(SDF)等作为内部3D表示。而近期,NeRF因其在视觉重建方面的优异表现而备受关注。NeRF通过可微分渲染技术,优化连续的3D表示,以最小化渲染图像与参考摄像头图像之间的差异。与传统视觉重建方法一样,NeRF在观察到的多视图输入有限且纹理较少的位置难以估计准确的几何形状。

自主系统常常会遇到这样的情况,例如,在直接朝向一堵颜色统一的墙壁时进行重建。在这种情况下,使用激光雷达进行几何测量可以帮助解决这个问题,因为激光雷达可以在无纹理区域测量深度,并提供更准确的信息。此外,激光雷达的使用可以减少捕捉多个相机视图的需求,从而提高工作效率。

为了解决这些问题,SiLVR提出了一种基于NeRF的重建系统,它整合了激光雷达和视觉信息,生成准确的、带纹理的3D重建,同时提供了逼真的新视角合成。SiLVR方法建立在NeRF实现的基础上,其利用哈希编码,仅需几分钟即可实现逼真的渲染。通过从激光雷达获取几何约束,SiLVR扩展了这一方法以提高重建质量。使用激光雷达可以在无特征区域测量深度,表面法线也可以从激光雷达扫描中计算出来,这比基于学习的先验更加稳健,后者在实际部署中可能受到输入数据分布变化的影响。

本作创新点如下:

●提出了一个密集纹理的3D重建系统,能够实现与激光雷达相媲美的准确几何关系重建,并具有逼真的新视角合成(图片级)。

●实现了将NeRF与激光+视觉的多传感融合SLAM集成,使NeRF模型能够利用激光雷达数据获取深度和表面法线,并利用度量尺度轨迹进行训练,相比当前的SOTA方法中常用的按比例缩放的离线结构运动方法,计算时间减少了50%。

●提出了一个子地图系统,通过维护这个仔细图系统并用于合成大型地图,使算法能够适用于大型户外环境——轨迹超过600米。

在这里插入图片描述
图1|牛津数学研究所和H-B艾伦中心的8个子地图组成的大规模重建地图。底部一行显示从三个不同位置的模型和表面法线合成的新视图,每个子地图的轨迹可视化用不同的颜色表示©️【深蓝AI】编译

2. 方法

由于本文的创新点在于LiDAR-Camera SLAM与NeRF的融合,因此笔者首先介绍LiDAR-Camera SLAM,最后再介绍NeRF建图,与文章的顺序稍微有点差别。同时在本文的方法部分,作者首先介绍了和NeRF建图有关的内容,接着在最后一节中介绍了如何基于NeRF建立子图,笔者为了各位阅读的便利,将这两个部分合并一起作为NeRF建图的内容来阐述。

在这里插入图片描述
图2|算法前端构架©️【深蓝AI】编译

2.1 LiDAR数据处理

在具有均匀纹理和有限多视图约束的表面上,使用NeRF进行3D重建变得具有挑战性。激光雷达的测量是互补的,因为它可以在这种情况下提供准确的测量。在SiLVR的工作中,他们将激光雷达测量数据纳入NeRF优化中。具体来说,他们通过添加深度损失来实现基于激光雷达的深度正则化,该损失定义为激光雷达深度测量值 D D D和NeRF模型生成的射线分布 h ( t ) h(t) h(t)之间的 K L KL KL散度。公式如下:

L depth = ∑ r ∈ R KL ( N ( D , σ ) ∥ h ( t ) ) L_{\text{depth}} = \sum_{r \in R} \text{KL}(N(D, \sigma) \| h(t)) Ldepth=rRKL(N(D,σ)h(t))

此外,他们还运行语义分割网络来获取天空掩膜,并最小化这些射线的权重。

尽管深度损失可以改善3D重建,但他们发现表面在预期为光滑的区域存在波状伪影。为了减轻这种情况,他们计算了表面法线,作为NeRF密度场的负梯度,并施加了进一步的表面法线正则化损失,这部分的损失函数如下公式所示:

L normal = ∑ r ∈ R ∥ N ( r ) − N ^ ( r ) ∥ 1 + ∣ 1 − N ( r ) T N ^ ( r ) ∣ 1 L_{\text{normal}} = \sum_{r \in R} \left\| N(r) - \hat{N}(r) \right\|_1 + \left| 1 - N(r)^T \hat{N}(r) \right|_1 Lnormal=rR N(r)N^(r) 1+ 1N(r)TN^(r) 1

这部分就是对于LiDAR数据的处理,可见主要是利用了LiDAR带来的精确深度测量,构建了对应的Loss函数,优化整个系统的位姿精度。

2.2 Camera数据处理

SiLVR世界中,我们普遍认为获取精确的相机姿态对于模型重构的质量至关重要。

通常情况下,许多NeRF研究使用离线的结构从运动技术(比如COLMAP),来确定相机的位置。但使用COLMAP在大型图像集处理上耗时较长,并且在图像间视觉重叠有限的情况下,难以将所有图像整合到一个全局地图中。

为了解决这些问题,SiLVR采用了自己的激光雷达-惯性测量单元和SLAM系统,名为VILENS。尽管VILENS在实时跟踪方面表现优异,但SiLVR发现通过它获得的相机姿态不如COLMAP精确,这会在NeRF模型的渲染中产生模糊的视觉效果。有些研究尝试通过在NeRF优化过程中同时细化姿态来处理带有噪声的姿态输入,虽然这种方法有时可以稍微提高图像质量,但最终渲染的图像仍然不够清晰,而且这个训练过程通常比较不稳定。

为了克服这些挑战,SiLVR使用了一种新的方法:他们采用视觉SLAM系统确定的姿态作为基准,并通过COLMAP进行进一步的轨迹精炼。具体来说,SiLVR主要通过将Camera数据中应用于视觉SLAM,首先获得这部分的视觉SLAM结果,随后通过全局优化,将这部分的姿态与LiDAR数据中维护的姿态一起进行优化,而不是只使用Camera的数据在局部进行优化,这种全局优化的方式能够大大的提升姿态的进度,同时能够融合多传感器的信息,可以看到LiDAR和Camera的信息在Camera数据处理中实现了第一次融合。

2.3 NeRF-based后端建图

SiLVR的NeRF-based后端建图部分的实现是建立在Nerfstudio的Nerfacto方法之上的。Nerfacto的渲染质量能与如MipNeRF-360等顶尖方法相媲美,同时由于引入了Instant-NGP的高效哈希编码,其在重建速度上也取得了显著的提升。SiLVR还采用了场景压缩技术,以提高内存效率并处理靠近相机位置的高分辨率场景。这种技术将空间中的任何点映射到一个边长为2的立方体内,使场景可以在这个压缩的空间内表示。由于曝光和照明条件差异较大,他们采用了针对每张图像的独立外观编码方法来处理这些变化。在大规模场景中训练NeRF面临诸多挑战,这是因为单个NeRF模型的表示能力有限,且处理数千张图像时会遇到硬件限制,如内存使用问题。SiLVR采用了一种子映射方法,通过谱聚类技术将COLMAP精细化的SLAM轨迹分割成不同的群组。这种方法的运行速度比多层感知机快很多。这些子图在它们的本地坐标框架中进行训练,而最终的重建则通过它们的度量姿势转换到世界坐标框架。

为了从NeRF生成3D重建物,SiLVR团队采样了用于训练每个模型的光线,并渲染颜色和深度来创建3D点。在评估3D重建时,他们发现子图中存在一些伪影,尤其是在边界区域,这通常是因为边界区域的观测相对稀疏。为了解决这个问题,SiLVR识别了表面密度较低的区域,并试图将子图云合并,使得在最终重建时成功移除这些区域。NeRF中需要的相机姿态信息(包括几何法线信息)均来自于前端LiDAR-Camera的联合SLAM数据(在2.1中,深度和法线通过LiDAR数据进行了处理和获取;在2.2中,NeRF需要的图像输入以及相机姿态通过视觉SLAM进行了获取)。由于这部分的数据都是通过一个十分精确的环节得到的(多传感融合SLAM在还原相机姿态精度上当属目前在线方法的第一,而激光雷达提供的深度和基于此计算的法线都是所有传感器中最好最精确的一档),因此NeRF的重建效果会显著由于使用COLMAP进行粗略估计的方法,这也是文章产生SOTA结果的原因所在。

3. 实验

实验部分比较常规,因为ICRA的paper有严格的页码限制,因此作者没有进行太多的实验,但是文中的实验也足够提供有力的支撑,这里笔者将所有实验都进行简单概述。

3.1 评估指标

为了评估重建的几何形状,SiLVR遵循DTU数据集的标准,给出了重建的准确性和完整性。准确性是通过测量重建物与参考3D模型(即真实模型)之间的距离来定义的,这可以体现重建的质量。完整性则通过计算从参考点到重建物的距离来衡量,这表示了重建捕获了多少表面。

为了获取真实数据,SiLVR使用了测量级的Leica BLK360激光扫描仪捕获的厘米级精确点云,并利用ICP得到的变换来配准这些点云,同样的方法也用于配准NeRF的重建。

此外,SiLVR还评估了重建的视觉质量。他们通过报告峰值信噪比(PSNR)和结构相似性指数(SSIM)来衡量图像质量。需要注意的是,由于原始图像有不同的曝光时间,即使重建的图像看起来非常逼真,PSNR的测试结果也可能会偏低。

3.2 数值实验

在这里插入图片描述
图3|实验定量数据©️【深蓝AI】编译

图3总结了实验的定量结果,并在图4中展示了3D重建可视化。与Nerfacto相比,SiLVR的方法加入了激光雷达测量,从而在准确性和完整性方面显著改善了几何形状。Nerfacto在重建数学研究所的均匀颜色地面以及HBAC的四边形区域时遇到困难,后者是机器人仅向前行走的区域。与激光雷达-SLAM相比,SiLVR方法通常能够实现更完整的重建,因为它使用了密集的视觉信息,而在准确性方面(8-11厘米)几乎与激光雷达-SLAM(6-8厘米)相当,并且比Nerfacto(14-76厘米)好得多。

在这里插入图片描述
图4|3D重建可视化结果对比©️【深蓝AI】编译

3.3 分离试验

SiLVR团队在图5中展示了其多摄像头传感器设置的优势。与三摄像头设置相比,仅使用前置摄像头不仅导致重建不完整,而且几何质量也更差。使用光度损失的视觉重建倾向于只在输入视角处生成良好的渲染效果。图5中仅使用前置摄像头的重建是通过拍摄场景浅角度的图像进行训练的,从未见过的角度渲染时,几何重建的效果很差。

在这里插入图片描述
图5|使用不同相机建立的稠密地图可视化©️【深蓝AI】编译

3.4 姿态精度对比实验

SiLVR团队比较了几种计算姿态的策略的性能:在线SLAM姿态、与NeRF姿态精炼结合的SLAM姿态、与COLMAP结合的SLAM姿态,在不同配置下的表现,以及没有任何先验姿态的COLMAP。其中针对COLMAP,团队测试了不同数量的图像特征提取,并使用了两种不同的特征匹配算法:顺序匹配与循环闭合和词汇树匹配器。

对于所有COLMAP配置,提供SLAM先验姿态不仅加速了姿态计算,而且与离线COLMAP相比,也改善了测试渲染效果。SLAM先验姿态还能配准轨迹中的所有图像,而没有提供这些姿态时,COLMAP只能配准55%-95%的图像。增加每张图像提取的视觉特征数量(从1024到8192)不仅提高了图像配准的比例,还提高了视觉重建的质量(PSNR和SSIM),但这也增加了计算时间,尤其是使用词汇树匹配器时。使用COLMAP的顺序匹配器通常比词汇树匹配器更快。

在这里插入图片描述
图6|姿态进度对比实验结果©️【深蓝AI】编译

团队在图1中展示了使用手持Frontier设备和子图映射技术进行的HBAC-Maths的大规模重建,以及每个子图的轨迹。为了展示子图映射的优势,团队比较了使用单一NeRF模型与使用多个子图构建的NeRF模型进行整个序列的3D重建和渲染质量。在图7中呈现了定性结果。只使用单一NeRF地图时,由于其有限的表示能力不能存储大面积的所有对象,数学研究所的自行车架的重建显得模糊。而仅使用该局部区域的专用子图时,重建质量明显提高,如图7(右)所示。

在这里插入图片描述
图7|不同尺寸子图建图可视化©️【深蓝AI】编译

4. 总结

本文介绍了一款融合了LiDAR与Camera的NeRF-based SLAM方法,简而言之就是采用多传感融合SLAM提供的高精度作为NeRF渲染的先验,最终取得了十分SOTA的效果。

在为这篇文章的结果惊叹的同时,笔者也注意到作者这种研究思路十分值得我们借鉴,作为科研工作者大家或多或少会遇到一些“创新点”方面的难题,或者难以取得“打败”SOTA的效果。作者的思路就是将两个SOTA进行融合,用“魔法”打败“魔法”,这个思路一方面解决了创新点方面的问题,一方面也能够产生十分先进的效果,一次性满足了两个愿望!

希望大家读完本文后能够对多传感融合与NeRF-based SLAM的前沿进展有更深刻的了解,同时也能够收获一些科研方面的小技巧!

编译|阿豹

审核|Los

移步公众号【深蓝AI】,第一时间获取自动驾驶、人工智能与机器人行业最新最前沿论文和科技动态。

这篇关于ICRA2024重磅!首个融合LiDAR的NeRF-based SLAM系统的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/974083

相关文章

通信系统网络架构_2.广域网网络架构

1.概述          通俗来讲,广域网是将分布于相比局域网络更广区域的计算机设备联接起来的网络。广域网由通信子网于资源子网组成。通信子网可以利用公用分组交换网、卫星通信网和无线分组交换网构建,将分布在不同地区的局域网或计算机系统互连起来,实现资源子网的共享。 2.网络组成          广域网属于多级网络,通常由骨干网、分布网、接入网组成。在网络规模较小时,可仅由骨干网和接入网组成

Linux系统稳定性的奥秘:探究其背后的机制与哲学

在计算机操作系统的世界里,Linux以其卓越的稳定性和可靠性著称,成为服务器、嵌入式系统乃至个人电脑用户的首选。那么,是什么造就了Linux如此之高的稳定性呢?本文将深入解析Linux系统稳定性的几个关键因素,揭示其背后的技术哲学与实践。 1. 开源协作的力量Linux是一个开源项目,意味着任何人都可以查看、修改和贡献其源代码。这种开放性吸引了全球成千上万的开发者参与到内核的维护与优化中,形成了

AI赋能天气:微软研究院发布首个大规模大气基础模型Aurora

编者按:气候变化日益加剧,高温、洪水、干旱,频率和强度不断增加的全球极端天气给整个人类社会都带来了难以估计的影响。这给现有的天气预测模型提出了更高的要求——这些模型要更准确地预测极端天气变化,为政府、企业和公众提供更可靠的信息,以便做出及时的准备和响应。为了应对这一挑战,微软研究院开发了首个大规模大气基础模型 Aurora,其超高的预测准确率、效率及计算速度,实现了目前最先进天气预测系统性能的显著

PS系统教程25

介绍软件 BR(bridge) PS 配套软件,方便素材整理、管理素材 作用:起到桥梁作用 注意:PS和BR尽量保持版本一致 下载和安装可通过CSDN社区搜索,有免费安装指导。 安装之后,我们打开照片只需双击照片,就自动在Ps软件中打开。 前提:电脑上有PS软件 三种预览格式 全屏预览 评星级 直接按数字键就可以 方向键可以更换图片 esc退出 幻灯片放

风水研究会官网源码系统-可展示自己的领域内容-商品售卖等

一款用于展示风水行业,周易测算行业,玄学行业的系统,并支持售卖自己的商品。 整洁大气,非常漂亮,前端内容均可通过后台修改。 大致功能: 支持前端内容通过后端自定义支持开启关闭会员功能,会员等级设置支持对接官方支付支持添加商品类支持添加虚拟下载类支持自定义其他类型字段支持生成虚拟激活卡支持采集其他站点文章支持对接收益广告支持文章评论支持积分功能支持推广功能更多功能,搭建完成自行体验吧! 原文

Django 路由系统详解

Django 路由系统详解 引言 Django 是一个高级 Python Web 框架,它鼓励快速开发和干净、实用的设计。在 Django 中,路由系统是其核心组件之一,负责将用户的请求映射到相应的视图函数或类。本文将深入探讨 Django 的路由系统,包括其工作原理、配置方式以及高级功能。 目录 路由基础URL 映射路由参数命名空间URL 反向解析路由分发include 路由路由修饰符自

【图像识别系统】昆虫识别Python+卷积神经网络算法+人工智能+深度学习+机器学习+TensorFlow+ResNet50

一、介绍 昆虫识别系统,使用Python作为主要开发语言。通过TensorFlow搭建ResNet50卷积神经网络算法(CNN)模型。通过对10种常见的昆虫图片数据集(‘蜜蜂’, ‘甲虫’, ‘蝴蝶’, ‘蝉’, ‘蜻蜓’, ‘蚱蜢’, ‘蛾’, ‘蝎子’, ‘蜗牛’, ‘蜘蛛’)进行训练,得到一个识别精度较高的H5格式模型文件,然后使用Django搭建Web网页端可视化操作界面,实现用户上传一

OSG数学基础:坐标系统

坐标系是一个精确定位对象位置的框架,所有的图形变换都是基于一定的坐标系进行的。三维坐标系总体上可以分为两大类:左手坐标系和右手坐标系。常用的坐标系:世界坐标系、物体坐标系和摄像机坐标系。 世界坐标系 世界坐标系是一个特殊的坐标系,它建立了描述其他坐标系所需要的参考框架。从另一方面说,能够用世界坐标系来描述其他坐标系的位置,而不能用更大的、外部的坐标系来描述世界坐标系。世界坐标系也被广泛地

LoRaWAN在嵌入式网络通信中的应用:打造高效远程监控系统(附代码示例)

引言 随着物联网(IoT)技术的发展,远程监控系统在各个领域的应用越来越广泛。LoRaWAN(Long Range Wide Area Network)作为一种低功耗广域网通信协议,因其长距离传输、低功耗和高可靠性等特点,成为实现远程监控的理想选择。本文将详细介绍LoRaWAN的基本原理、应用场景,并通过一个具体的项目展示如何使用LoRaWAN实现远程监控系统。希望通过图文并茂的讲解,帮助读

获取Windows系统版本号(转)

https://blog.csdn.net/sunflover454/article/details/51525179