【HF-Net】From Coarse to Fine Robust Hierarchical Localization at Large Scale

本文主要是介绍【HF-Net】From Coarse to Fine Robust Hierarchical Localization at Large Scale，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

在这里插入图片描述

Abstract

稳健和准确的视觉定位是许多应用的基本能力，如自动驾驶、移动机器人或增强现实。然而，这仍然是一项具有挑战性的任务，**特别是对于大规模环境和外观发生重大变化的情况。现有技术的方法不仅难以应对这些场景，而且对于某些实时应用程序来说往往过于资源密集。**在本文中，我们提出了HFNet，这是一种基于单片CNN的分层定位方法，它同时预测局部特征和全局描述符，以实现精确的6-DoF定位。我们利用了从粗到细的定位范式：我们首先进行全局检索以获得位置假设，然后才匹配这些候选位置内的局部特征。这种分层方法节省了大量的运行时间，使我们的系统适合实时操作。通过利用学习到的描述符，我们的方法在外观的大变化中实现了显著的定位鲁棒性，并在两个具有挑战性的大规模定位基准上建立了新的技术水平。

1. Introduction

在现有的3D模型中对相机进行精确的6自由度（DoF）定位是解锁许多最近应用的核心计算机视觉功能之一。其中包括在GPS-denied的环境中的自动驾驶[7，29，31，5]和具有增强现实功能的消费设备[30，22]，在这些设备中，厘米精确的6-DoF姿势分别对确保可靠安全的操作和完全沉浸式体验至关重要。更广泛地说，视觉定位是计算机视觉任务中的一个关键组成部分，如运动结构（SfM）或SLAM。视觉定位的应用范围越来越广，无论天气、照明或季节变化如何，都需要在室内和室外进行可靠的操作。

因此，在计算资源有限的情况下，对如此大的变化的鲁棒性至关重要。因此，维护一个能够在多种条件下准确定位同时保持紧凑的模型至关重要。在这项工作中，我们研究了在移动设备资源受限的大规模变化环境中是否真的有可能进行稳健定位。更具体地说，我们的目标是以尽可能高的精度估计查询图像相对于给定3D模型的6-DoF姿态。

当前领先的方法主要依赖于使用局部描述符来估计查询中的2D关键点和稀疏模型中的3D点之间的对应关系。这种直接匹配要么稳健但在移动设备上难以解决[48，51，41]，要么为效率而优化但脆弱[27]。在这两种情况下，经典定位方法的稳健性都受到手工制作的局部特征不变性差的限制[8，26]。卷积神经网络（CNN）最近出现的特征在低计算成本下表现出无与伦比的鲁棒性[12，13，32]。然而，它们最近才被应用于视觉定位问题[49]，而且只是以密集、昂贵的方式应用。学习得的稀疏描述符[12，36]承诺了在本地化方面尚未探索的巨大好处。

基于图像检索的替代定位方法最近在鲁棒性和效率方面显示出有希望的结果，但在准确性方面没有竞争力。中间检索步骤的好处在前面已经得到证明[40]，但未能达到城市规模本地化所需的可扩展性。

在这里插入图片描述

在本文中，我们建议利用学习特征的最新进展来弥合层次定位范式中鲁棒性和效率之间的差距。与人类的定位方式类似，我们采用了一种自然的从粗到细的姿态估计过程，该过程利用了全局描述符和局部特征，并能很好地适应大型环境（图1）。我们表明，学习的描述符在具有挑战性的条件下具有无与伦比的鲁棒性，而学习的关键点由于其更高的可重复性而提高了计算和内存方面的效率。为了进一步提高这种方法的效率，我们提出了一种分层特征网络（HF-Net），一种联合估计局部和全局特征的CNN，从而最大限度地共享计算。我们展示了如何使用多任务蒸馏以灵活的方式训练这样的压缩模型。通过将多个最先进的预测因子联合提取到一个模型中，我们获得了无与伦比的快速、稳健和准确的定位。这种非均匀蒸馏除了视觉定位之外，还适用于需要多模式昂贵预测和计算效率的任务。总体而言，我们的贡献如下：

我们在大规模本地化的几个公共基准中树立了新的最先进水平，在特别具有挑战性的条件下具有卓越的稳健性；
我们介绍了HF-Net，这是一种单片神经网络，它可以有效地预测分层特征，以实现快速而稳健的定位；
我们展示了多任务提取的实用性和有效性，以实现具有异构预测因子的运行时目标。

在这里插入图片描述

2. Related Work

6-DoF visual localization

Scalable localization

**Learned local features **

Deep learning on mobile.

3. Hierarchical Localization

我们的目标是最大限度地提高定位的鲁棒性，同时保留易于处理的计算需求。我们的方法松散地基于分层定位框架[40]，我们在这里对此进行了总结。

Prior retrieval. 通过使用全局描述符将查询与数据库图像匹配来执行地图级别的粗略搜索。k近邻（NN），称为先验帧，表示地图中的候选位置。考虑到数据库图像远少于SfM模型中的点，这种搜索是有效的。

Covisibility clustering. 基于它们共同观察到的3D结构对先前帧进行聚类。这相当于在将数据库图像链接到模型中的三维点的共视性图中找到被称为位置的连接组件。

Local feature matching. 对于每个地方，我们依次将查询图像中检测到的2D关键点与该地方包含的3D点进行匹配，并尝试在RANSAC方案[14]中使用PnP[23]几何一致性检查来估计6-DoF姿态。这种局部搜索也是有效的，因为所考虑的3D点的数量在该地方明显低于在整个模型中。一旦估计出有效的姿势，算法就会停止。

Discussion. 在[40]的工作中，一个用于图像检索的大型最先进网络NetVLAD[1]被提炼成一个较小的模型MobileNetVLAD（MNV）。这有助于实现给定的运行时约束，同时部分保持原始模型的准确性。然而，局部匹配步骤是基于SIFT[26]的，其计算成本高昂，并生成大量特征，这使得该步骤特别昂贵。虽然这种方法在小规模环境中表现出良好的性能，但它不能很好地扩展到更大、更密集的模型。此外，SIFT与最近学习的特征没有竞争力，尤其是在大的光照变化下[16，36，12，32]。最后，局部和全局描述符的计算有很大一部分是多余的，因为它们都是基于图像的低级线索。因此，手工制作的特征和CNN图像检索的异质性在计算上是次优的，并且在资源受限的平台上可能是关键的。

4. Proposed Approach

现在，我们将展示如何解决这些问题，并提高健壮性、可扩展性和效率。我们首先鼓励使用同质网络结构的学习特征，然后在第4.1节中详细介绍了架构，在第4.2节中详细说明了我们新颖的训练过程。

学习得的特征似乎是分层本地化框架的自然契合点。最近的方法，如SuperPoint[12]，在关键点可重复性和描述符匹配方面表现优于流行的基线，如SIFT，这对定位都至关重要。此外，一些学习到的特征比SIFT明显稀疏，从而减少了要匹配的关键点的数量并加快了匹配步骤。我们在第5.1节中表明，图像检索中最先进的网络和局部特征的结合自然地实现了最先进的定位。这种方法在极具挑战性的条件下尤其出色，例如夜间查询，在较小的3D模型尺寸下以很大的优势优于竞争方法。

虽然这种网络的推理比在GPU上计算SIFT快得多，但对于所提出的定位系统来说，它仍然是一个很大的计算瓶颈。为了提高在移动设备上在线定位的能力，我们在这里介绍了一种用于分层特征的新型神经网络HF-Net，它能够实现高效的粗到细定位。它检测关键点，并在一次拍摄中计算局部和全局描述符，从而最大限度地共享计算，但保留了更大基线网络的性能。我们在图2中展示了它在分层本地化框架中的应用。

4.1. HF-Net Architecture

卷积神经网络本质上表现出一种层次结构。这种范式很好地适应了局部和全局特性的联合预测，并且具有较低的额外运行时成本。HF-Net架构（图3）由一个编码器和三个预测头组成：i）关键点检测分数，ii）密集局部描述符和iii）全局图像范围描述符。这种计算共享是自然的：在最先进的图像检索网络中，全局描述符通常是根据局部特征图的聚合来计算的，这可能有助于预测局部特征。HF-Net的编码器是MobileNet[39]骨干网，这是一种为移动推理优化的流行架构。与 MNV [40] 类似，全局描述符由 NetVLAD 层 [1] 计算在最后一个特征图的顶部移动网络.对于局部特征，SuperPoint [12] 架构因其效率而具有吸引力，因为它解码了以固定的非学习方式的关键点和局部描述符。这比应用转置卷积来对特征进行上采样要快得多。它预测了密集的描述符，这些描述符可以快速采样，从而产生独立于检测到的关键点数量的运行时间。另一方面，像LF-Net[36]这样的基于补丁的架构将暹罗网络应用于以所有关键点位置为中心的图像补丁，导致计算成本与检测数量成比例。

在这里插入图片描述

因此，由于其效率和灵活性，我们对关键点和局部描述符采用了SuperPoint解码方案。局部特征头在比全局头更早的阶段从MobileNet编码器中分支出来，因为需要更高的空间分辨率来保留空间判别特征，所以局部特征的语义水平低于图像范围描述符[13]。

4.2. Training Process

Data scarcity. 局部和全局描述符通常使用局部补丁和完整图像的基本事实正和负对通过度量学习进行训练。在训练大型神经网络所需的规模下，这些基本事实对应关系尤其难以获得。虽然全局监督自然地从局部对应中产生，但目前还没有这样的数据集同时 i）在全局图像水平上表现出足够的感知多样性，例如在各种条件下，如白天、夜晚、季节 ii）包含匹配图像之间的真实局部对应。这些对应关系通常是从根据SfM模型[45，46]计算的密集深度[36]中恢复的，这很难以图像检索所需的规模构建。

Data augmentation. 不依赖于对应关系的自监督方法，如SuperPoint，需要大量的数据扩充，这是局部描述符不变性的关键。虽然数据增强通常在局部层面很好地捕捉到现实世界中的变化，但它可能会破坏图像的全局一致性，并使全局描述符的学习变得非常具有挑战性。

Multi-task distillation 是我们解决这个数据问题的方法。我们使用蒸馏来直接从现成的受过培训的教师模型中学习表示。这缓解了上述问题，通过更简单、更灵活的训练设置，允许使用任意数据集，因为可以从教师网络的推断中获得无限量的标记数据。直接学习预测教师网络的输出额外减轻了学习任务，允许直接训练较小的学生网络。我们注意到与SuperPoint有一个有趣的相似之处，SuperPoint的检测器通过自监督训练，并通过不同的训练运行进行监督。这个过程也可以被称为自蒸馏，并显示了蒸馏作为一种实用的训练方案的有效性。

对局部和全局特征的监督可能源于不同的教师网络，从而产生一种多任务的提炼培训，可以利用最先进的教师。多任务学习的最新进展[21]使学生能够最佳地复制所有教师 $t_{1,2,3}$ ，而无需对平衡损失的权重进行任何手动调整：
$\begin{gathered} L =e^{-w_1}||\mathbf{d}_s^g-\mathbf{d}_{t_1}^g||_2^2+e^{-w_2}||\mathbf{d}_s^l-\mathbf{d}_{t_2}^l||_2^2 \\ +2e^{-w_3}\mathrm{crossEntropy}(\mathbf{p}_s,\mathbf{p}_{t_3})+\sum\limits_i w_i, \end{gathered}$
其中， $\mathbf{d}^g$ 和 $\mathbf{d}^l$ 是全局和局部描述符，p是关键点得分， $w_{1,2,3}$ 是优化变量。

更一般地说，我们的多任务蒸馏公式可以应用于任何需要多个预测同时保持计算效率的应用，特别是在收集所有任务的地面实况数据都很昂贵的情况下。它也可以应用于一些手工制作的描述符，这些描述符被认为过于计算密集。

5. Experiments

在本节中，我们对HF网络的构建块和整个网络进行了实验评估。我们想证明它在具有挑战性的条件下适用于大规模定位问题，同时保持计算的可处理性。我们首先在第5.1节中对当前性能最好的经典和基于学习的局部特征检测和描述方法进行了全面评估。我们的目标是解释这些见解如何影响第5.2节中介绍的HF Net的设计选择。然后，我们在第5.3节中评估了我们关于挑战大规模本地化基准的方法[42]，以及展示了从粗到细的本地化范式的优势。为了解决我们对实时本地化的关注，我们在第5.4节中总结了运行时的注意事项。

5.1. Local Features Evaluation

我们通过研究HPatches[3]和SfM[36]两个数据集在不同设置下的局部匹配方法的性能来开始我们的评估，这两个数据集中为2D和3D场景的图像对之间提供了密集的基本事实对应。

Datasets. HPatches[3]包含116个平面场景，其中包含照明和视点变化，每个场景具有5个图像对和基本实况单形。SfM是[36]建立的数据集，由[17，50]收集的照片旅游收藏组成。地面实况对应关系是从密集的每张图像深度图和相对6DoF姿态中获得的，使用COLMAP[45]计算。我们选择10个序列进行评估，每个序列随机采样50个具有给定最小重叠的图像对。度量尺度不能用SfM重建来恢复，但对计算定位度量很重要。因此，我们使用谷歌地图中测量的度量距离手动标记每个SfM模型。

Metrics. 我们在每个数据集的所有对上计算并聚合[12]定义的成对度量。对于探测器，我们报告了关键点位置的可重复性和定位误差。两者对于视觉定位都很重要，因为它们会影响内部匹配的数量、匹配的可靠性，以及3D模型的质量。我们计算描述符之间的最近邻匹配，并报告平均精度和匹配分数。前者反映了该方法拒绝虚假匹配的能力。后者一起评估检测器和描述符的质量。我们还计算了姿态估计的调用，无论是HPatches的单应性还是SfM数据集的6-DoF姿态，阈值分别为3像素和3米。

Methods. 我们评估了经典检测器高斯差分（DoG）和Harris[15]以及描述符RootSIFT[2]。对于基于学习的方法，我们评估了SuperPoint[12]和LFNet[11]的检测和描述符。我们还评估了DOAP[16]的密集版本和NetVLAD[1]的特征图conv3_3，并对两者使用SuperPoint检测。补充材料中提供了更多细节。

Detectors. 我们在表1中报告了结果。哈里斯表现出最高的可重复性，但也表现出最大的定位误差。相反，DoG的可重复性较低，但误差最低，这可能是由于多尺度检测和像素细化。SuperPoint似乎显示了可重复性和误差之间的最佳折衷。

在这里插入图片描述

Descriptors. DOAP在SfM数据集上的所有指标上都优于SuperPoint，但无法在HPatches上进行评估，因为它是在该数据集上训练的。NetVLAD在SfM上显示出良好的姿态估计，但匹配精度较差，这在关键点数量有限或内部比率重要时是不利的，例如对于定位而言。总的来说，学习的功能胜过手工制作的功能。

有趣的是，SuperPoint描述符在从Harris检测中提取时表现不佳，尽管后者也是一种具有高重复性的角点检测器。这暗示了所学习的描述符可以与相应的检测高度耦合。

LF-Net和SIFT都是具有亚像素检测和基于补丁的描述的多尺度方法，其性能优于DOAP和SuperPoint等密集描述符。因此，经过正确监督训练的简单表示比复杂且计算量大的架构更有效。我们注意到，SuperPoint需要更少的关键点来估计一个合适的姿势，这对运行时敏感的应用程序非常有益。

5.2. Implementation Details

受第5.1节所述结果的启发，本节简要介绍了HF Net的设计和实现。下面，我们将解释我们对蒸馏教师模型、训练数据集的选择以及对基线2D-3D局部匹配的改进。

Teacher models. 我们在第5.3节中评估了DOAP和SuperPoint这两个最佳描述符对本地化的影响。结果表明，后者对昼夜外观变化更具鲁棒性，因为其训练集包括弱光数据。我们最终选择它作为HF Net的描述符头的监督者-教师网络。全球负责人由NetVLAD负责监督。

Training data. 在这项工作中，我们针对的是白天和晚上的城市环境。为了最大限度地提高学生模型在这些数据上的性能，我们选择了符合这种分布的训练数据。因此，我们对来自Google Landmarks数据集[34]的185k幅图像进行了训练，其中包含各种白天的城市场景，以及来自Berkeley Deep Drive数据集[54]的夜间和黎明序列的37k幅图像，其中包括具有运动模糊的道路场景。我们发现，在训练数据集中包含夜间图像对于全局检索头到夜查询的泛化至关重要。例如，仅在白天图像上训练的网络很容易将夜间黑暗的天空与白天黑暗的树混淆。我们还使用光度数据增强进行训练，但使用在干净图像上预测的目标。

**Efficient hierarchical localization. ** Sarlin等人[40]将局部2D-3D匹配确定为管道的瓶颈。我们的系统显著提高了他们方法的效率：i）使用修改的比率测试来过滤虚假的局部匹配，该测试仅适用于第一和第二近邻描述符对应于不同3D点的观测值的情况，类似于[33]，从而在高度共视的区域中保留更多的匹配。ii）学习的全局和局部描述符被归一化，并与GPU上的单个矩阵相乘相匹配。补充材料中提供了额外的实施细节和超参数。

5.3. Large-scale Localization

根据局部评估，我们现在根据[42]引入的三个具有挑战性的大规模基准来评估我们的分层本地化。

Datasets. 每个数据集都由一个稀疏的SfM模型组成，该模型是用一组参考图像构建的。亚琛昼夜数据集[43]包含4328张来自欧洲老城的昼夜数据库图像，以及分别在昼夜条件下进行的824次和98次查询。RobotCar Seasons数据集[28]是一个跨越多个城市街区的长期城市道路数据集。它由20862张阴天参考图像和11934张在太阳、黄昏和夜晚等多种条件下拍摄的查询图像组成。最后，CMU Seasons数据集[4]在城市和郊区环境中记录了8.5公里的过程。它包含7159张不同季节记录的参考图像和75335张查询图像。该数据集的规模要低得多，因为查询是针对每个包含大约400个图像的孤立子模型进行本地化的。

Large scale model construction. 数据集作者提供了使用RootSIFT使用COLMAP[45，46]构建的SfM模型。然而，当使用基于不同特征检测器的方法进行定位时，这些是不合适的。因此，我们用SuperPoint和HF Net检测到的关键点建立了新的3D模型。该过程如下：i）我们使用我们的特征和初始滤波比测试来执行参考帧之间的2D-2D匹配；ii）使用双视图几何结构在COLMAP内进一步过滤匹配；iii）使用所提供的地面实况参考姿态对3D点进行三角测量。这些步骤产生了与原始模型具有相同比例和参考系的3D模型。

Comparison of model quality. HF-Net Aachen模型每个图像包含更少的3D点（SIFT为685k，而SIFT为1899k）和更少的2D关键点（SIVT为2576，而SIVT为10230）。然而，匹配了较大比例的原始2D关键点（对于SIFT，33.8%对18.8%），并且从更多的参考图像中平均观察到每个3D点。因此，将查询关键点与该模型进行匹配更有可能成功，这表明我们的特征网络产生了更适合定位的3D模型。

Methods. 我们首先基于NetVLAD[1]和SuperPoint[12]提取的学习特征来评估我们的分层定位。它被命名为NV+SP，使用了最强大的预测功能。然后，我们使用HF-Net计算的全局描述符和局部特征来评估更有效的定位。我们还考虑了由基准作者评估的几个本地化基线。主动搜索（AS）[41]和城市规模定位（CSL）[48]都是2D-3D直接匹配方法，在准确性方面代表了当前的最先进技术。DenseVLAD[52]和NetVLAD[1]是图像检索方法，它们通过检索到的顶部数据库图像的姿态来近似查询的姿态。最近引入的语义匹配一致性（SMC）[51]依赖于异常值拒绝的语义分割。它假设已知的重力方向和相机高度，并且对于RobotCar数据集，使用地面实况语义标签在评估数据上进行训练。我们引入了一个额外的基线，NV+SIFT，它以RootSIFT作为局部特征执行分层定位，并且是[40]的MNV+SIFT方法的上界。

Results. 我们报告了每个序列在不同的位置和方向阈值下的姿势回忆，如基准[42]所定义的。表3显示了不同方法的定位结果。三个最具挑战性序列的累积图如图4所示。

Localization with NV+SP. 在Aachen数据集上，NV+SP在白天的查询方面具有竞争力，并且在夜间查询方面优于所有方法，其中，白天的性能下降明显小于直接匹配方法，因为直接匹配方法的匹配模糊性增加。在RobotCar数据集上，它的性能与黄昏序列上的其他方法类似，其中精度趋于饱和。在更具挑战性的序列中，图像检索方法往往比直接匹配方法效果更好，但在精细和粗精度范围内都远远优于NV + SP。在困难的CMU数据集上，与所有基线（包括最新的SMC）相比，NV+SP实现了卓越的稳健性。总的来说，NV+SP在CMU数据集以及Aachen和RobotCar数据集的挑战序列上树立了新的最先进水平。在精细和粗略精度状态下的卓越性能表明，我们的方法更准确、更稳健。

Comparison with NV+SIFT. 我们观察到，NV+SIFT始终优于AS和CSL，尽管所有方法都基于相同的RootSIFT特征。这表明，我们的具有粗略初始先验的分层方法带来了显著的好处，特别是在具有挑战性的条件下，图像范围的信息有助于消除匹配的歧义。因此，它提供了比AS和CSL中使用的复杂领域特定启发式更好的异常值拒绝。NV+SP的优势突出了SuperPoint等学习特征的简单增益。在最简单的亚琛之夜和RobotCar黄昏序列中，NV+SIFT在精细阈值方面的表现略好于NV+SP。这可能是由于SuperPoint关键点的定位精度较低，如第5.1节所强调的，因为DoG执行亚像素细化。

Localization with HF-Net. 在大多数序列上，HF-Net的表现与其上限NV+SP相似，平均召回率下降2.6%。我们在图5中显示了定性结果。在RobotCar夜间序列中，HF-Net明显比NV+SP差。我们将此归因于提取的全局描述符在模糊低质量图像上的较差性能。这突出了我们方法的一个明显局限性：在大型自相似环境中，HF Net的模型容量成为限制因素。全局检索的完全失败直接转化为层次定位的失败。

Ablation study. 层次化本地化框架内的TOR。将NV+SP与NV+HF进行比较，我们注意到局部HF-Net特征的性能优于用于训练它们的SuperPoint模型。这证明了多任务提取的好处，其中来自全局教师的监督信号可以改善中间特征并帮助局部描述符。我们还观察到，DOAP的定位在夜间明显更差，这可能是由于SuperPoint基于复杂的增强方案。最后，HF-Net的比较与NV+HF-Net揭示了HF-Net全局描述符与原始容量相比有些有限NetVLAD 并限制了性能。

在这里插入图片描述

5.4. Runtime Evaluation

由于我们提出的本地化解决方案是在考虑计算约束的情况下开发的，我们分析了它的运行时间，并将其与第5.3节中给出的基线进行了比较。这些是在配备Intel Core i7-7820X CPU（3.60GHz）CPU、32GB RAM和NVIDIA GeForce GTX 1080 GPU的PC上测量的。表5列出了详细的时间安排。

在这里插入图片描述

Hierarchical localization. NV+SP和HF-Net的计时表明，我们的从粗到细的方法可以很好地适应大型环境。全局搜索速度很快，并且仅取决于用于构建模型的图像数量。它成功地减少了潜在候选对应关系的集合，并实现了可处理的2D-3D匹配。这在很大程度上取决于SfM模型——共视图越密集，每个先前帧检索和匹配的3D点就越多，这增加了运行时间。因此，NV+SIFT的速度慢得令人望而却步，因为其SfM模型密度更大，尤其是在亚琛。NV+SP显著改进了它，因为更稀疏的SfM模型产生了具有更少3D点的聚类。然而，NetVLAD和SuperPoint的推理占其运行时间的75%，因此，如前所述，这是瓶颈。HF Net以7倍的速度缓解了这一问题。

Existing approaches. 表5中没有列出CSL和SMC，因为它们每次查询都需要几十秒，因此比我们最快的方法慢三个数量级。AS在这方面有所改进，但仍然较慢，尤其是在成功率较低的情况下，例如在RobotCar之夜。总体而言，我们基于HFNet的本地化系统可以在非常大规模的环境中以20 FPS的速度运行。它比AS快10倍，专为提高效率而设计，在所有数据集上都更准确。

在这里插入图片描述

6.Conclusion

在本文中，我们提出了一种视觉定位方法，该方法同时具有鲁棒性、准确性和实时性。我们的系统遵循从粗到细的本地化模式。首先，它执行全局图像检索以获得一组数据库图像，然后使用3D SfM模型的共视图将这些图像聚类到各个位置。然后，我们在候选位置内执行局部2D-3D匹配，以获得相机姿态的精确6-DoF估计。

我们的方法的一个版本是基于现有的用于图像检索和特征匹配的神经网络。它在几个大型基准测试中优于最先进的本地化方法，这些基准测试包括昼夜查询和不同天气条件和季节的显著外观变化。然后，我们通过提出HF-Net来提高其效率，HF-Net是一种新的CNN，可以在一次拍摄中计算关键点以及全局和局部描述符。我们展示了多任务蒸馏的有效性，以灵活的方式训练它，同时保持原始性能。由此产生的定位系统以超过20 FPS的速度大规模运行，并在具有挑战性的条件下提供无与伦比的鲁棒性。

这篇关于【HF-Net】From Coarse to Fine Robust Hierarchical Localization at Large Scale的文章就介绍到这儿，希望我们推荐的文章对编程师们有所帮助！