AVM-SLAM：用于代客泊车的多传感器融合的语义视觉SLAM

本文主要是介绍AVM-SLAM：用于代客泊车的多传感器融合的语义视觉SLAM，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

文章：AVM-SLAM: Semantic Visual SLAM with Multi-Sensor Fusion in a Bird’s Eye View for Automated Valet Parking

作者：Ye Li, Wenchao Yang , Ju Tao , Qianlei Wang , Zhe Cui , and Xiaolin Qin

编辑：点云PCL

欢迎各位加入知识星球，获取PDF论文，欢迎转发朋友圈。文章仅做学术分享，如有侵权联系删文。

公众号致力于点云处理，SLAM，三维视觉，高精地图等领域相关内容的干货分享，欢迎各位加入，有兴趣的可联系dianyunpcl@163.com。侵权或转载联系微信cloudpoint9527。

摘要

代客泊车（AVP）要求在具有挑战性的车库环境中进行精确的定位，包括光线不足、纹理稀疏、结构重复、动态场景以及缺乏GPS信号，这些常常对传统的定位方法造成困难。为了解决这些难题，我们提出了AVM-SLAM，这是一个具有多传感器融合的语义视觉SLAM框架，采用了鸟瞰图（BEV）。我们的框架集成了四个鱼眼摄像头、四个车轮编码器和一个惯性测量单元（IMU），鱼眼摄像头形成了一个环视图监视（AVM）系统，生成了BEV图像。卷积神经网络（CNNs）从这些图像中提取语义特征，有助于地图绘制和定位任务。这些语义特征提供了长期的稳定性和透视不变性，有效地减轻了环境挑战。此外来自车轮编码器和IMU的数据融合通过改善运动估计和减少漂移来增强了系统的稳健性。为了验证AVM-SLAM的效果和稳健性，我们提供了一个大规模、高分辨率的地下停车场数据集，可以在https://github.com/yale-cv/avm-slam上获取。这个数据集使研究人员能够在类似的环境中进一步探索和评估AVM-SLAM。

图1：由AVM-SLAM系统构建的车库的语义视觉地图，它在鸟瞰图中融合了环视相机、车轮编码器和IMU的数据。

主要贡献

本文创建并发布了一个大规模且高分辨率的数据集，其中包括在地下停车场收集的同步多传感器数据。该数据集用于验证上述方法的有效性和稳健性。总之，本文的主要贡献可以总结如下：

开发了一个实用和创新的语义视觉SLAM框架，称为AVM-SLAM。它集成了多个传感器，并采用了鸟瞰视图透视，使其能够在地下停车场内稳健高效地运行。
开发了一种多传感器混合融合策略，旨在提高稳健性和效率，与松散和紧密方法都不同。该策略旨在最大化多传感器融合的优势。
创建了一个典型地下停车场数据的大规模高分辨率数据集，包括四个环绕摄像机的图像、一个合成的鸟瞰图、四个车轮编码器的测量数据和一个IMU的测量数据。这个数据集将有助于进一步研究SLAM，特别是在地下停车场中的自动驾驶车辆定位。

内容概述

概述

本文介绍了AVM-SLAM系统，包括两个核心模块：VIWFusion和Mapping，如图2所示。我们的设计采用了一种独特的多传感器混合融合策略，与传统方法不同，确保这些模块之间的无缝协作，以实现最大的多传感器融合效益。

图2：所提出的AVM-SLAM系统的框架包括两个核心模块：VIWFusion和Mapping，VIWFusion是一个松散的多传感器加权融合前端，而Mapping模块则作为一个紧密集成的语义地图后端。w1和w2分别是IMU和车轮编码器的融合权重。

VIWFusion是一个松散耦合的多传感器加权融合前端，包括AVM子系统、语义提取器和匹配器、IMU跟踪器、车轮编码器、姿态预测器和关键帧过滤器。它基于扩展卡尔曼滤波器（EKF）理论，对来自环视相机、车轮编码器和IMU传感器的数据应用加权融合，为视觉语义匹配提供初始值，并通过在相邻语义关键帧之间预集成（IMU和车轮）值提供运动学约束，以进行后端优化。
Mapping模块是一个紧耦合的语义地图后端，包括Loop Detector、Global Optimizer、Sub Mapper和Global Mapper。我们利用语义ICP配准进行回环检测，还加入了语义预先验证（SPQ）机制，以简化回环检测并减少不匹配。额外的多传感器运动学约束，如相邻关键帧之间IMU和Wheel的预集成值，加快了全局优化的收敛速度并提高了地图的准确性。

AVM图生成

AVM对于生成鸟瞰图像以及增强SLAM系统的感知范围和稳健性至关重要。它对来自四个周围摄像头的鱼眼图像进行去畸变处理，并应用逆透视变换（IPM），将它们合并成综合的鸟瞰图像（见图3）。四个环视摄像头被放置在车辆周围，具有离线校准的内参和外参。虚拟的鸟瞰视角摄像头精确地位于车辆中心正上方，其光学轴垂直向下对齐，通过IPM过程获得了这个虚拟摄像头的相关内参和外参。

图3，由环视相机生成的鸟瞰图

语义信息提取与匹配

消除光晕：地面的光反射会在鸟瞰图中产生分散的光晕，干扰了道路标线的提取（图4a）。为了解决这个问题，我们提出了一种基于U-Net架构的光晕去除模型，结合了感知[28]和L1损失以提高性能。我们通过使用镜面高光检测算法[29]生成了用于模型训练的去光晕数据，以创建高光掩码（图4b）。然后，通过将其与手动注释的前景信息合并来细化此掩码以消除错误检测（图4c）。最后，我们应用图像修补算法有效去除了高光（图4d）。这种方法简化了标注去光晕数据的费力过程。

图4：光晕去除和语义分割

语义信息提取：车库的道路标线，包括车道线、停车位、斑马线和指示箭头，具有持久的稳定性，保持透视不变性。这些特点使它们非常适合用于语义视觉建图和车辆定位。我们对语义分割网络进行了比较分析，最终选择了DDRnet，它在效率和准确性之间取得了平衡，用于从鸟瞰图像中提取道路标线。图4e展示了语义标签，图4f展示了分割结果。

语义匹配器：在这个任务中，我们采用迭代最近点（ICP）算法来匹配3D语义特征。通过实现帧对地图的匹配来减轻帧对帧匹配中固有的累积误差问题，这种方法在配备可靠的初始姿态估计时，具有高效性和鲁棒性，初始姿态估计由一个融合来自IMU和轮编码器的数据的姿态预测器实现。

位姿预测

系统初始化：所提出的AVM-SLAM系统以BEV语义特征为中心。因此，位姿预测器始终将BEV语义帧数据队列deqBevCam中的第一帧的时间t0视为初始化的初始候选时间。为了确定是否可能进行系统初始化，我们评估融合模式设置，并检查在时间t0之前选择的传感器数据队列中是否有数据。仅当时间t0和之前在所有选择的传感器数据队列中都有数据时，系统才会进行初始化。如果不满足这些条件，我们将从deqBevCam中移除第一帧，并继续评估下一个语义帧的时间t1。当满足指定条件时，系统初始化成功。在这一点上，车辆坐标系统既用作全局地图的初始坐标系统，也用作第一个子地图的初始坐标系统。为了提高初始化的准确性，我们对选择的传感器数据队列中的数据进行线性插值，以获得与相关语义帧的时间相对应的数据。

位姿预测：有证据表明当车辆做直线运动时，轮编码器的线速度精度较高，当车辆做旋转运动时，IMU的角速度精度较高，而这两者明显是互补的。为了提高姿态预测的准确性和鲁棒性，本文采用了EKF方法来对多传感器数据进行加权融合，融合过程分为预测步骤和更新步骤。除了多传感器加权融合的位姿预测，我们还在连续两个关键帧之间预先集成了IMU和轮编码器的数据，以进一步优化全局位姿图。

子地图和全局地图

为了增强帧与地图之间语义特征的ICP匹配效率，我们采用了关键帧-子地图-全局地图结构来构建语义地图（见图5）。语义帧经过关键帧过滤器进行筛选，如果它们与前一关键帧的差异超过50％，则将其插入到子地图中。每个子地图包含固定数量的关键帧，通常为10帧，但根据需要可以进行调整。子地图中的语义点数量明显低于全局地图，从而在帧到子地图语义特征ICP匹配过程中提高了效率，并减少了帧到帧匹配中的误差积累。

在建图模块内，我们维护两个子地图：当前子地图和即将到来的子地图，确保相邻子地图之间有足够的共视区域。关键帧同时插入到两个子地图中。一旦当前子地图中达到了最大数量的关键帧，我们执行点云校正和局部优化。然后，当前子地图被合并到全局地图中，下一个子地图取而代之，开始创建新的后续子地图。

图5：青色子地图和灰色全局地图。全局地图由子地图组成，子地图由关键帧组成。

回环检测

回环检测对于全局优化至关重要，影响着地图尺度和SLAM速度。在复杂环境中，如具有重复结构的地下车库，不是所有关键帧和子地图都适用于回环检测。为了解决这个问题，我们开发了SPQ（Semantic Prequalification）机制，以过滤潜在的环路帧和子地图，减少检测并防止不匹配。SPQ根据关键帧和子地图中语义特征的类别数和权重来评估候选帧。超过预设阈值的候选帧和子地图将符合环路帧和子地图的资格，并随后加入到回环序列中，以进行后续的ICP语义匹配。

全局优化

采用了一种位姿图方法进行全局优化。如图6所示，位姿图的节点包括关键帧和子地图，而边代表了涉及关键帧到关键帧和关键帧到子地图的约束。关键帧到关键帧的约束包括相邻关键帧之间的语义视觉约束，以及从预积分值（IMU和轮胎）导出的额外运动学约束。关键帧到子地图的约束涉及关键帧和子地图之间的语义视觉约束，以及从语义环路检测中获取的语义回环约束。全局优化器周期性地对收集到的节点和边执行优化操作，随后更新每个关键帧和子地图的结果。

图6: 运动学约束的姿态图的示意图

实验

A. 基准数据集

为验证所提出的AVM-SLAM系统，我们在一个面积为220m×110m的地下车库中进行了测试，该车库拥有超过430个停车位，并使用了一辆装备有四个环视鱼眼摄像头、四个轮速编码器和一个IMU的测试车辆，所有这些设备都在离线情况下进行了同步和校准。四个鱼眼摄像头形成了一个AVM子系统，以30Hz的实时速度生成鸟瞰图。所提出的基准数据集将公开包含四个鱼眼图像序列、一个鸟瞰图像序列、四个轮速编码器数据和一个IMU数据。

B. 地图的稳健性和精确性

众所周知，地下车库没有GPS信号，无法使用基于GPS的实时差分测量（RTK）构建地面真值，而且它们的重复结构和多变的环境不允许使用基于结构的激光雷达构建地面真值。因此，我们设计了以下方法来验证所提出的方法的稳健性和精确性。

稳健性：我们使用前置鱼眼摄像头的图像作为输入，尝试运行基于特征的ORB-SLAM3、基于光流的SVO和DSO，以及基于视觉惯性融合的VINS-Mono。令人意外的是，以上最先进的（SOTA）传统视觉SLAM都因照明不足、纹理稀疏和场景变化等地下车库的困境而遭受初始化失败、频繁跟踪丢失和运行时失败。另一方面，本文中的方法非常稳定，因为它采用了视觉惯性轮融合方法进行姿态跟踪，并使用从鸟瞰图中提取的道路标线的语义特征来构建地图。在不同条件下使用数据，跟踪和地图构建都是稳定的，这证实了我们算法的稳健性和可靠性。

图7：从VIWFusion模块的姿态构建的语义地图

精度：首先基于基准数据集进行了一项比较实验。从VIWFusion模块输出的姿势构建的地图如图7所示。很明显，前端存在无法避免的积累误差。Mapping的后端使用了回环检测和全局优化技术，有效消除了长期漂移并提高了地图的精度。图8a显示了通过常规循环检测进行的姿态图优化的结果，没有额外的运动学约束。图8b显示了通过SPQ循环检测进行的姿态图优化的结果，附带了额外的运动学约束。可以看出，使用SPQ循环检测和额外的运动学约束的姿态图优化可以构建更加逼真的地图。

图8：位姿图优化结果

其次进行了定性分析，使用车库平面结构的示意图（如图9a所示）与我们构建的语义地图进行比较。通过缩放，使两者具有相同的大小，并进行叠加比较，如图9b所示。显然系统构建的语义地图与车库示意图完美对齐，地图精度非常高。

图9：重叠比较的定性结果

最后进行了定量分析，比较了图9a中标记为ABCDEF的六个点之间的世界距离与相应的地图距离。世界距离是使用高精度激光测距仪测量的，而地图距离是从各自的三维点坐标计算的。

表I列出了世界距离和地图距离的多次测量的均值。表II显示了这些地图距离和世界距离之间的平均绝对误差、最大误差和均方根误差（RMSE），从表II中可以明显看出，我们的多传感器融合AVM-SLAM系统具有更高的地图精度。

总结

本文提出了一种用于AVP任务的AVM-SLAM框架，配备了四个环视鱼眼摄像头、四个轮速编码器和一个IMU。系统使用AVM子系统生成BEV图像，卷积神经网络提取车库的道路标线以进行地图绘制和定位。我们采用了一种松耦合加权融合的前端和一个紧密耦合的后端优化，通过融合轮速编码器和IMU数据来增强系统的稳健性和准确性。此外，我们提供了一个大规模高分辨率的车库定位和地图开发和评估的基准数据集。实验结果验证了我们的方法在车库AVP任务中的有效性。未来的工作包括完善AVM-SLAM，优化多传感器融合，改进光晕去除和语义分割模型。

资源

自动驾驶及定位相关分享

【点云论文速读】基于激光雷达的里程计及3D点云地图中的定位方法

自动驾驶中基于光流的运动物体检测

基于语义分割的相机外参标定

综述：用于自动驾驶的全景鱼眼相机的理论模型和感知介绍

高速场景下自动驾驶车辆定位方法综述

Patchwork++：基于点云的快速、稳健的地面分割方法

PaGO-LOAM:基于地面优化的激光雷达里程计

多模态路沿检测与滤波方法

多个激光雷达同时校准、定位和建图的框架

动态的城市环境中杆状物的提取建图与长期定位