[论文解读]R2D2: Reliable and Repeatable Detector and Descriptor

本文主要是介绍[论文解读]R2D2: Reliable and Repeatable Detector and Descriptor，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

NeurIPS 2019
代码地址
会议视频

abstract

仅仅学习可重复并显著的特征点不够，显著的区域并不一定是有区分性的，因此这样可能损害描述子性能。因此，文中认为描述子应仅在具有高置信度的区域学习。文中方法在Hpatch和 Aachen Day-Night localization benchmark有较好的表现。

上图用棋盘图像显示了这样一个例子：每个角或色块都是可重复的，但由于单元格的重复，无法进行匹配。在自然图像中，常见的纹理–树木的叶子，摩天大楼的窗户或海浪也都很突出，但很难匹配。

1. Introduction

在这项工作中，我们声称检测和描述是不可分割的关系，因为好的关键点不仅应该是可重复的，而且应该是具有区分度的。因此，我们将检测和描述过程无缝地联合学习从而提高描述子的可靠性。本工作从这两方面得到一个confidence map并选择同时具有可重复和可区分的特征点，以此来提高matching pipeline性能。

更准确地说，我们的网络，如上图所示，输出密集的本地描述子（每个像素一个）以及两个相关的可重复性和可靠性置信度Maps。两张Maps，一个估计关键点是可重复的，另一个则估计其描述子是可分别的。最后，关键点取自这两张图响应最大化的位置。
为训练关键点检测器，我们采用了一种新的无监督损失函数，它鼓励了图像的重复性、稀疏性以及在图像的均匀分布。对于局部描述子训练，它用listwise ranking loss训练，其利用基于近似平均精度(AP)的度量学习最新进展，而不是使用标准triplet or contrastive loss。我们学习一个可靠性置信度值，以预测哪些像素将具有高AP的描述子–既具有鉴别性，又具有鲁棒性，最终可以精确匹配。我们在几个基准上的实验表明，我们的公式优雅地结合了检测器的可重复性和稀疏性与判别和鲁棒描述子。

3. Joint learning reliable and repeatable detectors and descriptors

3.1. Learning repeatability

正如以前的工作[LIFT、SuperPoint]中所观察到的，关键点的重复性是一个无法通过标准监督训练来解决的问题。事实上，在这种情况下，使用监督训练本质上可以认为是学习一个现有的检测器，而不是发现更好检测器。因此，我们将可重复性（repeatability）视为一项自我监督的任务，并对网络进行训练，使其S中局部最大值位置是自然图像变换的协变量，如视点或光照变化。

现在我们有两个repeatability map – S，分别从i，j图片得到。为了得到具有重复性的特征点，两个图片相同位置应当具有相同值。

P就是patch。但是这个公式有个问题，直接上S相同为一个常熟（eg 0）就直接最小化了，为此补上一个函数，使得p的值是有差异的：

因此最后的公式是：

3.2. Learning reliability

下面是计算AP的Loss，但是特别奇怪，反复看了几遍都没看懂这里Patch是从哪里来的，之前似乎没有这个概念，而且又是密集提取的descriptor，不太可能有patch。如果说有patch，那就是一个patch里所有的des加和？不是特别清楚，不过大体意思就是：
给定1 batch 正确图像对pair，使用卷积神经网络计算它们的描述子。然后从batch的所有patch描述子之间的距离计算出欧氏矩阵。没给计算AP的公式，但说明了从【Local descriptors optimized for
average precision】论文里来的。

但是仅仅有AP是不够的，这个就是描述子的精度，还需要另外一项就是可靠性：

这个倒是好理解，R就是reliability map的输出，k是一个超参数–希望设置成AP的最小值。假设R要么0，要么1，最小化这个函数就是当k>ap时候R是0。这样相似的des在R map里就是0，也就达到了可区分性的目的。