HSM-Net: Hierarchical Deep Stereo Matching on High-resolution Images

本文主要是介绍HSM-Net: Hierarchical Deep Stereo Matching on High-resolution Images，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

paper code

Abstract
应用端到端的框架，从粗到细的层次上递增地搜索对应关系。由于高分辨率立体数据集相对较少，我们引入了一个包含高分辨率立体对的数据集，用于训练和评估。

Motivation
1.立体匹配中的误差随深度的增加呈二次曲线增加，提供更高的分辨率可以带来更好的预估。
但是高分辨率带来运行时间和内存开销的增加过大。
2.对于缩小比例的图像可以得到更快的运行速度，但是预测的结果模糊且对远场的视差估计不准确。
3.目前的SOTA算法在高分辨率数据集上表现不佳，主要原因是架构的不足和高分辨率数据集的缺失。

Core idea
模型以从粗略到精细的方式推理，粗分辨率图像用于估计较大的差异，然后用于bias/pre-warp 细化尺度视差预估。虽然效率很高，但粗略到精细的方法在粗略分辨下匹配薄结构时效果较差，因为低分辨率下这些结果会消失。而我们的模型计算一个由粗到精的特征量解码器，该特征量逐渐增加分辨率。至关重要的是，初始的粗略特征量可以在整个pipeline完成前生成大物体视差的粗略预估，这允许这网络可以按需生成近距离物体的报告，这对于实时快速导航至关重要。

实施方法
关键部分：1)高效的分层立体匹配体系结构，2)一套新颖的非对称增强技术，以及3)用于训练的高分辨率合成数据集。

设计分层网络的核心思想是：在提取多尺度特征的同时，首先通过网络对高分辨率图像进行积极的下采样，然后利用潜在的对应关系逐步建立分辨率提高的代价金字塔。
在这里插入图片描述

从粗到精的设计原则是至关重要的，特别是利用1)空间金字塔池(SPP)，它允许特征在接受野中显著增加。如果没有这一点，与高分辨率图像的其余部分相比，特征往往具有太小的接受范围。SPP中的原始实现将上采样的金字塔特征恢复到原始分辨率。为了减少内存，我们保留了集合特征的原始粗分辨率；2)跨视差维度的3D卷积，使我们能够有效地处理高分辨率代价体积；3)多尺度损失函数。

我们使用特征金字塔编码器来提取描述符，以进行由粗到精的匹配。为了在保持粗尺度信息的同时有效地提取不同细节层次的特征，我们采用了跳跃连接的编解码器结构。功能编码器由定制的RESNET主干和4个剩余块组成，后面跟着4个SPPlayer层(同样，用有限的计算和内存来增加接受域)。

对于左右两幅图像，我们都获得了这样的特征，然后通过考虑沿着水平扫描线的潜在匹配描述符对之间的差异来构造4D特征体。我们构建了一个由4个体积组成的金字塔，每个体积都具有越来越高的空间分辨率和越来越高的视差分辨率。虽然成本体积传统上是3D的(高度H乘以宽度W乘以视差D)，但我们的特征体积包括表示特征通道C数量的第四个维度，对于编码器中的后续层，该维度会增加。

每个特征卷的解码或过滤过程。让我们首先将卷积3D“块”定义为具有残差连接的两个3D卷积。1)特征体积由6个Conv3D块过滤。2)就像特征提取的情况一样，然后我们应用V体积金字塔池(我们将SPP扩展到4D特征体)来生成能够为高分辨率输入捕获足够的全局上下文的特征。3a)对输出进行三线性上采样，以获得更高的空间(和视差)分辨率，从而可以将其与金字塔中的下一个4D特征体积融合。3b)为了报告从当前比例计算出的按需差异，使用另一个常规3D块对输出进行处理，以生成3D产出成本量。在计算棱锥体下游的后续特征体积之前，该成本量可以直接报告差异。
在这里插入图片描述
关于数据预处理
大多数传统的立体系统对目标和参考视图图像对进行几个假设，包括1)两个图像处于相同的成像条件下，2)摄像机是已完美校准，3)没有遮挡，每个像素都可以找到匹配。
这些假设在现实世界的场景中并不总是成立的。对于基于学习的方法，我们提出了3种非对称增强技术来解决这些问题：y分量增加校准，非对称彩色增强，非对称掩码。

思考
文章中提到了一个思想：在cost regularization的部分像特征提取一样用SPP捕获多尺度上下文信息。所以其实拿到cost volume之后的regularization部分与特征提取是有很多相近之处的，可以尝试在这一部分引入更多特征提取模块的技巧。
同时有一点需要注意，最近看的一些多尺度视差预估的论文都在不同尺度的cost上做残差连接或者说element-wise summation，但是并没有明确这一部分的含义，只是粗略地讲上下文信息融合，但是如果已经得到了不同尺度的输出视差图，我们融合的具体是哪一部分的有效信息，我觉得更多的是从coarse部分拿到的一些smoothness信息，或者说平滑优化信息，可以针对这一点做一些验证。

这篇关于HSM-Net: Hierarchical Deep Stereo Matching on High-resolution Images的文章就介绍到这儿，希望我们推荐的文章对编程师们有所帮助！