SuperPoint：Self-Supervised Interest Point Detection and Description 论文阅读

本文主要是介绍SuperPoint：Self-Supervised Interest Point Detection and Description 论文阅读，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

SuperPoint：Self-Supervised Interest Point Detection and Description 论文阅读

简介

监督学习从图像中提取点的方法被广泛研究
- 物体检测
- 人体关节位置检测
- 等等

特征点的语义信息不明确，难以进行人工标注，如何进行网络训练？

文中的思路为

自动标注得到伪真实值
- 生成特征点位置无歧义的虚拟数据集
- 训练得到特征提取网络MagicPoint
- 对图片进行旋转、缩放等变换并利用MagicPoint进行提取，集合所有提取得到的特征点位置作为伪真实值（添加了旋转不变性和尺度不变性）
转换为成熟的监督学习，设计网络进行学习

总结如下图：
在这里插入图片描述

因此，总结创新点如下：

提出了一种自监督训练提取特征点和描述子的方法
- 提出了一种生成伪真实特征点标签方法
针对全图进行而非基于patch

这篇文章最突出的点在于不再是用网络逼近拟合现有的传统特征点了，而更接近数据驱动自己找到的特征点。但并没有完全实现直接从数据中学到而是利用了虚拟数据集中的训练结果。

方法

网络结构

整体网络架构如下图：
在这里插入图片描述

包括三个部分

共享特征提取编码网络
- VGG风格网络,结构为
- $H\times W \times 64 \to H\times W \times 64 \to H/2\times W/2 \times 64 \to H/2\times W/2 \times 64 \to H/4\times W/4 \times 128 \to H/4 \times W/4 \times 128 \to H/8\times W/8 \times 128 \to H/8\times W/8 \times 128$
特征点提取解码网络
- 网络结构
  - 输入 $H/8\times W/8 \times 128$ 特征
  - 卷积得到 $H/8\times W/8 \times 65$
  - channel-wise softmax 变换，并去掉第 65层得到 $H/8\times W/8 \times 64$
  - reshape 操作将 $H/8\times W/8 \times 64$ 大小矩阵转换为 $H\times W \times 1$ 代表最终得分
- 为什么要构建65层，需要额外的一行特征？
- 如果只有64层，那么经过softmax之后，所有的得分之和就会等于1，这意味着这个小区域即使是完全空白也将获得平均得分 1/64
- 因此65行存在的意义在于当这个小区域没有特征时，这一行数据非常大，使得整体经过softmax之后前64行的得分很小，从而使得该区域被标记为没有特征点的区域。
描述子解码网络
- 网络结构
  - 输入 $H/8\times W/8 \times 128$ 特征
  - 卷积得到 $H/8\times W/8 \times D$ 描述子
  - 双线性插值 $H\times W \times D$
  - L2-normalizes 归一化

误差函数

$L(X,X^{'},D,D^{'};Y,Y^{'},S)=L_p(X,Y)+L_p(X^{'},Y^{'}) + \lambda L_d(D,D^{'},S)$

两张图片中特征点提取误差
特征点匹配误差

特征点检测误差

$L_p(X,Y) = \frac{1}{H_c W_c}\sum_{h=1,w=1}^{H_c,W_c}l_p(x_{hw},y_{hw})$
其中，
$l_p(x_{hw};y)=-\log \left(\frac{\exp (x_{hwy})}{\sum_{k=1}^{65} \exp (x_{hwk})}\right)$