论文阅读《RAFT-Stereo: Multilevel Recurrent Field Transforms for Stereo Matching》

本文主要是介绍论文阅读《RAFT-Stereo: Multilevel Recurrent Field Transforms for Stereo Matching》，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

论文地址：https://arxiv.org/abs/2109.07547
源码地址：https://github.com/princeton-vl/RAFT-Stereo

概述

本文提出了一种适用于双目立体匹配的模型架构，基于光流估计网络RAFT，通过使用多级卷积GRU模块来在图像传播全局信息，并取得了不错的实验结果；

模型架构

在这里插入图片描述
对于给定的输入图像对 $I_L、I_R$ ，模型主要包含以下三个步骤：使用权值共享的CNN提取特征、构建相关性匹配代价体金字塔、使用GRU模型来从关联性金字塔中抽取特征，并对视差图进行更新。

特征提取

左右视图的图像经过特征提取器得到原图大小 $\frac{1}{4}H\times \frac{1}{4}W\times C \ 与 \ \frac{1}{8}H\times \frac{1}{8}W\times C$ 的feature Map，特征图用于构建correlation Volume。在Encoder部分使用 Instance Normalizaition
Context Encoder 使用类似的结构对 $I_L$ 处理得到内容特征图，一部分用于初始化GRU模块的隐藏状态(对应代码中的net_list)，一部分作为上下文信息特征(对应代码中的inp_list) 。

相关性金字塔

Correlation Lookup

在这里插入图片描述
文中定义了一种查找算子，对于某个像素点p与该点当前预测的视差值d，在每个level上的视差维度上以[d-r, d-r+1,…0, …d+r]来采样匹配值，最后将所有levle的匹配值cconcat得到一个新的correlation features $\in R^{b\times (2r+1)*level\times h\times w}$ 。（ $c_1$ 感受野较小，进行小范围视差搜索， $c_3$ 感受野较大，进行大范围视差搜索）

多层级更新策略

原始的RAFT只在单一尺度上进行视差优化，本文提出多级迭代优化策略用于增强模型对弱纹理区域的适应性：
在这里插入图片描述
此部分有点复杂，结合代码讲解，包含以下步骤：

使用 $1 / 32$ 尺度下 GRU 状态特征、 $1 / 32$ 尺度下的图像特征、与 $1 / 16$ 尺度下的GRU状态特征送入gru32的Conv模块中，更新当前level下的GRU状态特征；
使用 $1 / 16$ 尺度下 GRU 状态特征、 $1 / 16$ 尺度下的图像特征、与 $1 / 8$ 尺度下的GRU状态特征送入到gru16的Conv模块中，更新当前level下的GRU状态特征；
使用关联特征和初始的flow送入融合CNN，得到motion feature，使用 $1 / 8$ 尺度下 GRU 状态特征、 motion feature在与 $1 / 8$ 尺度下的图像特征送入二维GRU模块更新该level下的GRU状态特征；
将GRU隐藏状态特征送入CNN中得到光流偏移量；

    def forward(self, net, inp, corr=None, flow=None, iter08=True, iter16=True, iter32=True, update=True):# net ： GRU state feature list# inp ： img feature listif iter32:net[2] = self.gru32(net[2], *(inp[2]), pool2x(net[1]))if iter16:if self.args.n_gru_layers > 2:net[1] = self.gru16(net[1], *(inp[1]), pool2x(net[0]), interp(net[2], net[1]))else:net[1] = self.gru16(net[1], *(inp[1]), pool2x(net[0]))if iter08:motion_features = self.encoder(flow, corr)if self.args.n_gru_layers > 1:net[0] = self.gru08(net[0], *(inp[0]), motion_features, interp(net[1], net[0]))else:net[0] = self.gru08(net[0], *(inp[0]), motion_features)if not update:return net# caculate the delta_flow in high resolution scaledelta_flow = self.flow_head(net[0])