浙大最新开源:MGMap-掩码引导学习的在线矢量化高精地图构建方法

本文主要是介绍浙大最新开源:MGMap-掩码引导学习的在线矢量化高精地图构建方法,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

论文标题:

MGMap: Mask-Guided Learning for Online Vectorized HD Map Construction

论文作者:

Xiaolu Liu, Song Wang, Wentong Li, Ruizi Yang, Junbo Chen, Jianke Zhu

作者单位:浙江大学,有鹿科技

开源地址:

https://github.com/xiaolul2/MGMap

导读:

本作提出了一种名为MGMap的新方法,旨在改进高精地图的在线构建过程,特别是解决当前技术在定位地图要素和保留细节结构方面的不足。©️【深蓝AI】编译

1. 摘要

MGMap利用学习到的掩码,通过一种mask-guided策略,在不同尺度的鸟瞰特征图上实现更精确的地图要素定位。该方法包含两个核心部件:一是Mask-activated instance (MAI)解码器,它整合全局实例与结构信息来增强实例级别的特征识别;二是位置引导的掩码补丁细化(PG-MPR,Position-guided mask patch refinement)模块,从点级别细化信息,提高定位精度。实验结果显示,与现有基线方法相比,MGMap能显著提升约10个mAP,彰显出更好的鲁棒性和泛化性。

2. 介绍

高精地图在自动驾驶中扮演着关键角色,它为自我定位、路径规划及其他下游任务提供厘米级的路面信息。如VectorMapNet和MapTR等高效直接的方法被提出以构建矢量地图,这些方法用稀疏点集表示地图元素,并直接采用基于Transformer的架构更新实例查询和回归点位置。尽管已取得可喜的成果,但仍受内在问题限制。

在这里插入图片描述
图1|展示了对于某些精细结构,本文提出的MGMap方法能够通过学习到的掩码突出信息丰富的区域,从而实现地图要素的有效定位©️【深蓝AI】编译

如图1所示,道路边缘、分隔线及人行横道等地图要素具有强烈的形状先验。模糊的特征和粗略的位置易导致预测中丢失详细信息,特别是不规则边界和转角的突然变化。

针对上述问题,本文提出了一种细粒度方法MGMap,旨在通过融合学习到的地图掩码来改进定位并突出特定特征。MGMap在nuScenes和Argoverse2数据集上的广泛实验表明,它达到了最先进的性能。不同设置下的实验结果彰显了所提模型的鲁棒性和泛化能力。本工作的主要贡献总结如下:

●提出了一种有效的在线HD地图矢量化方法,借助学习到的掩码实现精确定位,有效提取实例掩码和二进制掩码特征以学习独特的车道线和形状。

●设计了掩码激活实例解码器和创新的位置引导掩码补丁细化模块,充分利用掩码特征从实例和点层面解码地图要素。

●在两大测试平台上展现的优异结果证明,本文的MGMap大幅超越先前方法,具有强大的鲁棒性和泛化能力。

3. 相关工作

3.1 在线高精地图构建

包括将地图构建视为图像分割任务、使用自回归解码器连接顶点的两阶段框架、通过实例点间连接构建地图,以及采用Transformer架构同时预测固定数量点位等。相关工作有:VectorMapNet,MapTR,BeMapNet,PivotMap。

3.2 基于相机的BEV感知

高精地图构建依赖于高质量的BEV特征,这些特征也是大多数三维感知任务的基础。通常,BEV特征是从透视视角图像中提取并转换而来。相关工作有:BEVFormer,BEVFusion。

3.3 分割的掩码细化

掩码细化技术被用于改善分割任务中的实例或语义特征质量,通过各种策略如边界增强、实例特征互动和基于Transformer的注意力机制来优化掩码质量。

4. MGMap

在这里插入图片描述
图2|MGMap框架概述©️【深蓝AI】编译

4.1 BEV特征提取

首先,使用共享的卷积神经网络(CNN)骨干网络从透视视图图像中抽取2D特征。然后,通过透视图与周围视图图像特征的交互,运用可变形注意力机制,将这些特征转换为BEV表示。

增强型多层次颈部。为了获得富含语义和位置信息的BEV特征,在BEV空间,本文设计了一个包含三层的增强型多层次(EML)颈部,它利用融合注意力来构建统一的BEV特征。通过这一设计,本文可以得到具有更大感受野的多尺度BEV特征,以便更好地理解整体结构。可学习注意力图的计算可形式化表示如下:

F i + 1 = ( C A ( F i ) × F i ) × S A ( F i ) F_{i+1}=(CA(F_i) \times F_i) \times SA(F_i) Fi+1=(CA(Fi)×Fi)×SA(Fi)

之后就可以获得多层BEV特征 ( F i ) i = 1 3 (F_i)^3_{i=1} (Fi)i=13,最后,通过拼接后的一个3×3卷积层来聚合多级特征,从而获得增强的BEV特征 F c F_c Fc

4.2 基于掩码激活的实例解码器

针对每个车道实例,需要带有实例和结构信息的特定查询嵌入,以便对车道形状和位置进行回归。在丰富了BEV特征的基础上,本节重点讨论了掩码激活车道查询的设计,以及随后的更新过程。

掩码激活查询: 为了实现更详细且特定的表示,MGMap采用了一种混合方法,该方法结合了车道查询Qlane和点查询Qpoint来对单个地图实例进行编码。

在这里插入图片描述
图3|展示了不同阶段掩码构建的示意图©️【深蓝AI】编译

可变形解码器: 通过增强后的多尺度BEV特征,使用级联可形变Transformer解码器更新这些掩码激活的实例查询。这有助于根据全局上下文和局部细节逐步优化查询嵌入,从而提高对车道线等复杂结构的理解和定位能力。

4.3 位置引导的掩码块细化

尽管在实例级别上可以大致回归地图元素的形状和结构,但某些细节信息仍然难以精确构建。因此,本节提出了一种细化模块,旨在从更精细的点级别上利用二进制掩码特征进行优化。

掩码特征构建:

●首先,通过在摄像机特征(Fc)上应用基本卷积和sigmoid函数,获得二进制掩码Mb,它能突出显示与车道线相关的特征,而背景特征则相对减弱。训练阶段辅以栅格化监督的辅助损失来优化掩码学习。

●接着,基于二进制掩码Mb构建掩码特征Fm。具体操作包括:首先通过D(·)操作将掩码的维度从2扩展到32,然后将扩展后的二进制掩码、摄像机特征Fc及包含空间局部信息的二维归一化位置网格Gbev进行拼接,最后通过卷积操作融合这些特征,以强调车道线周围的具体位置和语义信息。

块提取和细化:

●该模块设计用于从局部块特征中提取更精确的点位置。通过上述构建的掩码特征,模型能够在更小的局部范围内精炼点的位置信息,从而提高预测的精度。

●利用掩码特征的指引,模型能够关注到车道线上的细微变化,对于复杂环境下的车道线检测尤为重要,它帮助模型在点级别上区分和精确定位车道结构,尤其是在实例级别处理难以捕获的细节时。

在这里插入图片描述
图4|(a) 传统的可变形注意力从采样点提取稀疏特征,可能会选择不相关的特征;(b) 本文提出的掩码区块精细化从可靠区块的区域中提取更多相关特征©️【深蓝AI】编译

4.4 训练损失

MGMap采用端到端的方式进行训练。为了将预测的地图实例与其真实标注配对,采用了二分匹配法。在点的回归和类别标签预测之外,还需要辅助损失来指导掩码分割任务。具体而言,总损失是检测损失和掩码分割损失之和,即 L = L d e t + L m a s k L = L_{det} + L_{mask} L=Ldet+Lmask

检测损失: 车道检测旨在回归车道坐标和分类标签。

L lane = ∑ i = 0 M ∑ j = 0 N λ dis ⋅ Dis ( p ^ i j , p i j ) + λ dir ⋅ CosSim ( e ^ i j , e i j ) L_{\text{lane}} = \sum_{i=0}^{M} \sum_{j=0}^{N} \lambda_{\text{dis}} \cdot \text{Dis}(\hat{p}_{ij}, p_{ij}) + \lambda_{\text{dir}} \cdot \text{CosSim}(\hat{e}_{ij}, e_{ij}) Llane=i=0Mj=0NλdisDis(p^ij,pij)+λdirCosSim(e^ij,eij)
L det = L lane + λ cls ∑ i = 0 M L local ( c ^ i , c i ) L_{\text{det}} = L_{\text{lane}} + \lambda_{\text{cls}} \sum_{i=0}^{M} L_{\text{local}}(\hat{c}_i, c_i) Ldet=Llane+λclsi=0MLlocal(c^i,ci)

掩码构建损失: 掩码学习通过像素级别的密集监督减少了过拟合的风险。

L mask = λ ins L ins ( M ^ ins , M ins ) + λ b L b ( M ^ b , M b ) L_{\text{mask}} = \lambda_{\text{ins}} L_{\text{ins}}(\hat{M}_{\text{ins}}, M_{\text{ins}}) + \lambda_{b} L_{b}(\hat{M}_{b}, M_{b}) Lmask=λinsLins(M^ins,Mins)+λbLb(M^b,Mb)

5. 实验

5.1 数据集与基准测试

本文在两个公开数据集上进行了广泛的实验,分别是nuScenes和Argoverse2。nuScenes数据集包含了从波士顿和新加坡收集的1000个驾驶场景。其中,750个和150个场景序列分别用于训练和验证,每个场景序列包含40帧关键帧数据,采样率为2Hz。对于每一帧关键帧,都有6张前视图像以及来自32线激光雷达的相应点云数据。Argoverse2数据集包含了来自六个城市的1000个场景,并提供了7张前视图像。本文使用的Argoverse2子集是由在线高精地图构建挑战赛提供的。本文的主要关注点集中在三种地图要素上,包括车道分隔线(div.)、人行横道(ped.)和道路边界(bou.)。

5.2 精度评估

为了进行全面的评估,本文采用了基于Chamfer距离的指标,包括平均精度 A P c h a m f e r AP_{chamfer} APchamfer和基于IoU的平均精度 A P r a s t e r AP_{raster} APraster。这些指标从点坐标角度出发,同时将每个地图要素视为独立的整体单元进行评估,确保地图矢量化质量能从不同视角得到评判。

5.3 实现细节

为了确保公平的比较,本文选用ResNet50作为图像模态的主干网络。对于激光雷达模态,本文采用SECOND作为主干网络。定义的鸟瞰图(BEV)尺寸,即高HBEV乘以宽WBEV,设置为200×100。最大实例数量和点查询数量分别设置为50和20。

5.4 主要结果

在这里插入图片描述
表1|在不同输入模态和主干网络配置下,于nuScenes验证集上对60m×30m感知范围内的地图矢量化进行的定量评估©️【深蓝AI】编译

在这里插入图片描述
图5|MapTR方法、本文提出的MGMap方法以及相应地面真实情况的可视化结果展示©️【深蓝AI】编译

在nuScenes数据集上的性能:

如表1所示,本文在nuScenes验证集的不同设置下,将MGMap方法与最先进的方法进行了对比。可以看出,本文提出的方法超越了以往的方法,取得了最佳性能。与基线MapTR相比,在使用ResNet-50和训练30轮的相同设置下,基于多视角摄像头输入的MGMap实现了10.3mAP的提升。值得注意的是,MGMap在仅使用LiDAR时达到67.9mAP,在融合摄像头数据与LiDAR时达到71.7mAP,这证明了本文方案的强大泛化能力。此外,图5展示了MGMap在几种驾驶场景下的视觉效果。

在这里插入图片描述
表2|在Argoverse2数据集的一个子集上,60m×30m感知范围内与基线方法的性能对比©️【深蓝AI】编译

在Argoverse2数据集上的性能:

按照在线高精地图构建挑战赛的设置,本文在Argoverse2数据集上重新实现了MapTR和MGMap。表2展示了本文的实验结果。可以观察到,本文的方法在Argoverse2数据集上表现出了竞争力,与MapTR相比,MGMap实现了5.4 mAP的提升,进一步证明了本文所提方法的有效性。

在这里插入图片描述
表3|在nuScenes数据集上,采用扩大感知范围设置的实验结果。本文提出的MGMap方法在所有评估指标上显著优于MapTR©️【深蓝AI】编译

扩大感知范围的性能评估:

为了评估模型的鲁棒性,本文在扩大的感知范围内进行了实验。在相同的设置下,本文针对BEV空间中X轴和Y轴上的60m×60m和30m×90m感知范围,重新实现了MapTR和本文的MGMap,此时查询数量按比例增大以保持基本属性。所有模型均训练了30个周期。表3报告了实验结果。与MapTR相比,本文的MGMap在两种设置下都持续表现出性能提升,对于60m×60m的感知范围提升了9.5mAP,对于30m×90m的范围则提升了10.2mAP。

5.5 消融实验

在这里插入图片描述
表4|实例与点级别上的掩码引导设计消融研究。Ins.代表实例级别的MAI解码器,Point指的是点级别的PG-MPR模块设计©️【深蓝AI】编译

掩码引导设计的消融实验: 这部分验证了掩码引导设计(包括MAI解码器和PG-MPR模块)的重要性。MAI解码器通过掩码捕获全局结构信息,而PG-MPR模块专注于局部细节。结果显示,分别添加这两个模块可提升1.9mAP和2.6mAP,组合使用时达到最高mAP为61.4,证明了该设计在理解和定位目标方面的有效性。

在这里插入图片描述
表5|通过考察PV和BEV阶段多级特征的表现来研究EML颈部设计的消融实验。经验结果表明,利用BEV层级的EML颈部设计来辅助掩码引导设计能达到最佳性能©️【深蓝AI】编译

EML颈部设计的消融实验: 探索了EML(多尺度特征融合颈部)设计相较于传统FPN在PV和BEV空间的应用效果。实验发现,BEV空间中的EML设计显著提高了性能,特别是在处理复杂形状物体的检测上,而PV空间的直接应用效果不佳。此外,EML设计还增强了掩码生成的质量,进一步优化了掩码引导流程的性能。

在这里插入图片描述
表6|不同补丁大小(d)与细化阶段(s)下点级别PG-MPR设计的性能表现。第一行表示未采用点级别细化的结果©️【深蓝AI】编译

PG-MPR设计的消融实验: 针对位置引导的掩码补丁细化模块,研究了补丁大小和细化阶段数对性能的影响。实验结果显示,合理的补丁大小(例如0.1)和适当的细化阶段(两阶段)能最大化模型性能。过小或过大的补丁尺寸都会导致性能下降,表明了在保持信息相关性和细节捕捉之间的平衡是至关重要的。

6. 结论

本文提出了MGMap这一有效方法,旨在学习掩码的指导下实现在线高精地图矢量化。通过在实例和点两个层级利用掩码,本文缓解了由于高精地图中细微且稀疏标注所带来的粗略检测与细节丢失难题。所提出的MGMap不仅展现了当前最优的性能表现,还在多种实验设定下展示了在线地图矢量化方面的强大鲁棒性。对于未来研究,融合其他感知任务以构建更全面的表示形式仍是一个值得探索的方向,这有望为自动驾驶技术带来进一步的发展与进步。

编译|蒙牛二锅头

审核|Los

移步公众号【深蓝AI】,第一时间获取自动驾驶、人工智能与机器人行业最新最前沿论文和科技动态。

这篇关于浙大最新开源:MGMap-掩码引导学习的在线矢量化高精地图构建方法的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/970374

相关文章

HarmonyOS学习(七)——UI(五)常用布局总结

自适应布局 1.1、线性布局(LinearLayout) 通过线性容器Row和Column实现线性布局。Column容器内的子组件按照垂直方向排列,Row组件中的子组件按照水平方向排列。 属性说明space通过space参数设置主轴上子组件的间距,达到各子组件在排列上的等间距效果alignItems设置子组件在交叉轴上的对齐方式,且在各类尺寸屏幕上表现一致,其中交叉轴为垂直时,取值为Vert

Ilya-AI分享的他在OpenAI学习到的15个提示工程技巧

Ilya(不是本人,claude AI)在社交媒体上分享了他在OpenAI学习到的15个Prompt撰写技巧。 以下是详细的内容: 提示精确化:在编写提示时,力求表达清晰准确。清楚地阐述任务需求和概念定义至关重要。例:不用"分析文本",而用"判断这段话的情感倾向:积极、消极还是中性"。 快速迭代:善于快速连续调整提示。熟练的提示工程师能够灵活地进行多轮优化。例:从"总结文章"到"用

水位雨量在线监测系统概述及应用介绍

在当今社会,随着科技的飞速发展,各种智能监测系统已成为保障公共安全、促进资源管理和环境保护的重要工具。其中,水位雨量在线监测系统作为自然灾害预警、水资源管理及水利工程运行的关键技术,其重要性不言而喻。 一、水位雨量在线监测系统的基本原理 水位雨量在线监测系统主要由数据采集单元、数据传输网络、数据处理中心及用户终端四大部分构成,形成了一个完整的闭环系统。 数据采集单元:这是系统的“眼睛”,

无人叉车3d激光slam多房间建图定位异常处理方案-墙体画线地图切分方案

墙体画线地图切分方案 针对问题:墙体两侧特征混淆误匹配,导致建图和定位偏差,表现为过门跳变、外月台走歪等 ·解决思路:预期的根治方案IGICP需要较长时间完成上线,先使用切分地图的工程化方案,即墙体两侧切分为不同地图,在某一侧只使用该侧地图进行定位 方案思路 切分原理:切分地图基于关键帧位置,而非点云。 理论基础:光照是直线的,一帧点云必定只能照射到墙的一侧,无法同时照到两侧实践考虑:关

【前端学习】AntV G6-08 深入图形与图形分组、自定义节点、节点动画(下)

【课程链接】 AntV G6:深入图形与图形分组、自定义节点、节点动画(下)_哔哩哔哩_bilibili 本章十吾老师讲解了一个复杂的自定义节点中,应该怎样去计算和绘制图形,如何给一个图形制作不间断的动画,以及在鼠标事件之后产生动画。(有点难,需要好好理解) <!DOCTYPE html><html><head><meta charset="UTF-8"><title>06

学习hash总结

2014/1/29/   最近刚开始学hash,名字很陌生,但是hash的思想却很熟悉,以前早就做过此类的题,但是不知道这就是hash思想而已,说白了hash就是一个映射,往往灵活利用数组的下标来实现算法,hash的作用:1、判重;2、统计次数;

Andrej Karpathy最新采访:认知核心模型10亿参数就够了,AI会打破教育不公的僵局

夕小瑶科技说 原创  作者 | 海野 AI圈子的红人,AI大神Andrej Karpathy,曾是OpenAI联合创始人之一,特斯拉AI总监。上一次的动态是官宣创办一家名为 Eureka Labs 的人工智能+教育公司 ,宣布将长期致力于AI原生教育。 近日,Andrej Karpathy接受了No Priors(投资博客)的采访,与硅谷知名投资人 Sara Guo 和 Elad G

嵌入式QT开发:构建高效智能的嵌入式系统

摘要: 本文深入探讨了嵌入式 QT 相关的各个方面。从 QT 框架的基础架构和核心概念出发,详细阐述了其在嵌入式环境中的优势与特点。文中分析了嵌入式 QT 的开发环境搭建过程,包括交叉编译工具链的配置等关键步骤。进一步探讨了嵌入式 QT 的界面设计与开发,涵盖了从基本控件的使用到复杂界面布局的构建。同时也深入研究了信号与槽机制在嵌入式系统中的应用,以及嵌入式 QT 与硬件设备的交互,包括输入输出设

电力系统中的A类在线监测装置—APView400

随着电力系统的日益复杂和人们对电能质量要求的提高,电能质量在线监测装置在电力系统中得到广泛应用。目前,市场上的在线监测装置主要分为A类和B类两种类型,A类和B类在线监测装置主要区别在于应用场景、技术参数、通讯协议和扩展性。选择时应根据实际需求和应用场景综合考虑,并定期维护和校准。电能质量在线监测装置是用于实时监测电力系统中的电能质量参数的设备。 APView400电能质量A类在线监测装置以其多核

阿里开源语音识别SenseVoiceWindows环境部署

SenseVoice介绍 SenseVoice 专注于高精度多语言语音识别、情感辨识和音频事件检测多语言识别: 采用超过 40 万小时数据训练,支持超过 50 种语言,识别效果上优于 Whisper 模型。富文本识别:具备优秀的情感识别,能够在测试数据上达到和超过目前最佳情感识别模型的效果。支持声音事件检测能力,支持音乐、掌声、笑声、哭声、咳嗽、喷嚏等多种常见人机交互事件进行检测。高效推