本文主要是介绍slam相关观点,欢迎补充,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
多模态slam 多模态包括:视觉、激光、文本、声音等等
深度学习与slam融合:特征提取、重定位、神经网络辐射场等。
神经辐射场引入了importance Sampling(重要性采样)和Positional Encoding(位置编码),使得三维重建的质量有了显著提升;同时NeRF神经渲染算法减少了传统三维重建中生成的伪影,在大多数情况下效果都比传统算法好。目前重建图像质量最好的是Mip-NeRF360。
将slam技术融合到深度学习中,更加容易使得所有算法能够统一到一个框架中,方便不同算法之间的数据传输和通信。比如建好的地图可以用于语义标注,从而接入BEV感知中训练,又或者可以生成Occupancy网格去做路径规划和智能体控制。
rgbd相机的量程一般几米;lidar量程一般几十米至几百米。
具身智能
slam与大模型的结合
3dgs(3D高斯辐射场),基于图像的三维重建方法,直白的就是:对现实物体或者场景拍照片,可以给你训练成一个场景模型;并做渲染。 基于3dgs的slam 的优势:
(1)快速渲染和丰富的优化。Gaussian Splatting 可以以高达400fps的速度渲染,使其比隐式表达更快地可视化和优化。
(2)有明确空间的建图。现有地图的空间边界可以通过在之前观察到的部分场景中添加高斯函数来控制。给定一个新的图像帧,可以通过渲染剪影识别场景的哪些部分是新内容(在地图的边界感之外)。这对于Tracking 任务很重要,因为只想将已经建好图的部分与新图像帧进行比较。隐式表达就不行,因为在对未知区域建图优化的时候,全局的优化会影响到神经网络。
(3)显示地图。可以通过添加更多的Gaussian 函数来任意地增加地图容量,而且这种显式的表达让我们可以编辑场景中的某些部分,同时仍允许真实的渲染。隐式方法不能轻易地增加其容量或编辑其所表示的场景。
视觉语义slam
lidar+rtk融合用的较多,纯视觉slam效果不佳。
集群、无人机协同、多机协同搜索。
基于Nerf的slam算法采用全局地图和图像重建损失函数,通过可微分渲染捕获稠密的光度信息,具有高保真度。但是用Implicit Neural Representation(隐式神经表达)对场景建模存在一些问题:
(1)query过程(可以理解为射线渲染)需要大量的采样,渲染方法成本高,
(2)用了大型多层MLP,运算量大,占用内存高,
(3)不容易编辑,不能显式地对空间几何建模,
(4)导致“遗忘”问题。
这篇关于slam相关观点,欢迎补充的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!