深度学习论文: XFeat: Accelerated Features for Lightweight Image Matching

本文主要是介绍深度学习论文: XFeat: Accelerated Features for Lightweight Image Matching，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

深度学习论文: XFeat: Accelerated Features for Lightweight Image Matching
XFeat: Accelerated Features for Lightweight Image Matching
PDF: https://arxiv.org/pdf/2404.19174
PyTorch代码: https://github.com/shanglianlm0525/CvPytorch
PyTorch代码: https://github.com/shanglianlm0525/PyTorch-Networks

1 概述

为了降低计算成本并保持竞争性的准确性，本项工作带来了以下三大核心贡献：

（1）提出了一种创新的轻量级卷积神经网络（CNN）架构，这种架构能在资源有限的平台上高效运行，并且适用于要求高吞吐量或计算效率的下游任务。其特点在于无需进行耗时的硬件特定优化。此外，XFeat作为一种灵活的解决方案，能够轻松替换现有的轻量级手工解决方案、昂贵的深度模型以及轻量级深度模型，特别在视觉定位和相机姿态估计等下游任务中展现出显著优势。

（2）设计了一个简洁而可学习的关键点检测分支，该分支不仅速度快，而且特别适用于小型特征提取器骨干网络。通过视觉定位、相机姿态估计和单应性注册等应用场景，我们验证了其高效性和实用性。

（3）还提出了一种独特的匹配细化模块，该模块能够从粗略的半密集匹配中精准地获取像素级偏移。与现有技术相比，XFeat不仅依赖局部描述符本身，而且无需高分辨率特征，从而显著降低了计算成本。
在这里插入图片描述

2 XFeat: Accelerated Features

XFeat提取一个关键点热图K，一个紧凑的64-D密集描述符映射F，和一个可靠性热图R。它通过早期下采样和浅层卷积，然后在后续编码器中进行更深的卷积以实现无与伦比的速度。与典型方法相反，它将关键点检测分离成一个独立的分支，使用1×1的卷积在一个8×8的张量块变换图像上进行快速处理。
在这里插入图片描述

2-1 Featherweight Network Backbone

在卷积神经网络中，为了减少计算成本，一种常见策略是在初始卷积层使用较少的通道数，然后随着层数增加逐步加倍通道数。然而，在局部特征提取任务中，这种策略的效果并不如在低分辨率任务（例如图像分类和目标检测）中那么有效。这是因为在局部特征提取中，网络需要处理更大的图像分辨率，因此这种增加通道数的方法会导致计算瓶颈。
为了解决这个问题，提出了一种新的策略：在初始卷积层尽可能减少通道数，并随着空间分辨率的降低，不是加倍而是增加三倍的通道数，直到达到足够的通道数（如128）。这种策略有效地重新分配了网络的卷积深度，减少了早期层的计算负载，并优化了网络的整体容量。
在这里插入图片描述
网络结构由称为基本层的块组成，每个块包含2D卷积、ReLU激活函数、批量归一化和步长为2的卷积层。backbone包含六个这样的块，按顺序减半分辨率并增加深度：{4, 8, 24, 64, 64, 128}，并包含一个融合块以整合多分辨率特征。通过从C=4通道开始，在最终编码器块中增加到C=128通道，实现了在H/32×W/32空间分辨率下的良好的精度和速度平衡。

2-2 Local Feature Extraction

利用骨干网络提取局部特征并执行密集匹配。

Descriptor head： 使用特征金字塔策略，通过连续卷积块逐步降低分辨率，增加感受野，同时合并不同尺度的特征到H/8×W/8×64，然后进行逐元素求和。最后，使用由三个基本层组成的卷积融合块将表示结合成最终的特征表示 F，另外使用一个卷积块来回归可靠性图 R。

Keypoint head： SuperPoint 中使用的策略提供了一种最快的提取像素级关键点的方法。它使用最终编码器中的特征，以原始图像分辨率的1/8，并通过从特征嵌入中对关键点的坐标在展平的8×8网格中进行分类，来提取像素级关键点。XFeat采用了类似于SuperPoint的方法，但引入了一个专门的并行分支来专注于低级图像结构的关键点检测。通过在单个神经网络骨干内联合训练描述符和关键点回归器，显著降低了紧凑型CNN架构的半密集匹配性能。将输入图像表示为一个由8×8像素组成的2D网格，每个网格单元，我们将每个单元重塑为64维特征。这种表示在保持单个单元内的空间粒度的同时，利用快速的1×1卷积来回归关键点坐标。经过四层卷积，我们获得了一个关键点嵌入 K，它编码了单元内关键点分布的logits，并且将关键点分类为64个可能位置之一（训练过程增加一个dustbin用来表示找不到关键点的情况，推理过程中去除dustbin）。

Dense matching： 该模块学习通过仅考虑原始粗糙级别特征中原始空间分辨率的1/8处的最近邻对来预测像素级偏移，从而显着节省内存和计算。