本文主要是介绍【论文阅读笔记】A Novel Recurrent Encoder-Decoder Structure for Large-Scale Multi-view Stereo Reconstruction,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
A Novel Recurrent Encoder-Decoder Structure for Large-Scale Multi-view Stereo Reconstruction from An Open Aerial Dataset
目录
- 主要贡献
- 摘要
- RED-Net细节
- 二维特征提取
- cost map
- 递归编解码器正则化
- loss计算
- 实验结果
主要贡献
摘要
近年来的大量研究表明,多视点立体匹配问题可以用深度学习方法来解决。然而,这些工作主要集中在近距离目标上,由于缺乏多视角航空图像基准,基于深度学习的方法中只有很少的方法是专门为大规模3D城市重建设计的。本文介绍了我们为MVS任务创建的一个合成航空数据集,称为WHU数据集,据我们所知,这是第一个大规模多视点航空数据集。它是从一个高精度的3D数字表面模型生成的,该模型由数千张带有精确相机参数的真实航空图像生成。本文还介绍了一种新的用于大范围深度推断的网络,称为红网,它是由递归编解码器结构和二维全卷积网络作为框架发展而来的。Red-Net的低内存需求和高性能使其适合大规模、高精度的三维地球表面重建。我们的实验证实,我们的方法不仅比目前最先进的MVS方法具有50%以上的平均绝对误差(MAE),而且具有更少的内存和计算代价,而且它的效率也很高。它的表现超过了基于传统方法的最好的商业软件程序之一,将效率提高了16倍。此外,我们证明了我们在合成WHU数据集上预先训练的RedNet模型可以有效地转换到非常不同的多视角航空图像数据集,而不需要任何微调。数据集和代码可在http://gpcv.whu.edu.cn/data.上获得
RED-Net细节
我们开发了一种名为RED-Net的网络,它结合了一系列从独立的多视角图像中提取特征的加权卷积层和递归编解码器(RED)结构,该结构顺序地学习深度和空间方向上的正则化深度图,以实现大规模和高分辨率的多视角重建。该框架的灵感来自于[37]。然而,我们没有使用三个GRU块的堆栈,而是使用了2D递归编解码器结构来顺序地规则化代价图,这不仅显著地减少了内存消耗,极大地提高了计算效率,而且捕捉到了更精细的结构用于深度推理。红网的输出与输入参考图像具有相同的分辨率,而不是像[37]中那样缩小四倍,从而确保了大范围和大深度范围场景的高分辨率重建。网络结构如图4所示。
二维特征提取
红网从N个视图图像中推断出深度采样数为D的深度图,其中N通常不小于3。首先分别使用2D卷积层来提取N个具有共享权的输入图像的特征,这可以看作是一种Nway暹罗网络体系结构[6]。每个分支由5个卷积层组成,分别具有8、8、16、16个通道,并且核大小为3×3,步长为1(除了第三层,其核大小为5×5,步长为2)。除最后一层外,所有层后面都有一个校正的线性单位(RELU)[10]。2D网络为每个输入图像产生输入图像宽度和高度的一半的16通道特征表示。
cost map
将一组2D图像特征反投影到3D空间中连续的虚拟平面上,以构建成本图。采用平面扫描方法[7]将这些特征扭曲到参考摄像机视点中,这被描述为可微单应扭曲。采用方差运算[36]将多个特征映射连接到3D空间中某一深度平面上的一个代价映射。最后,在每个深度平面上建立D个代价图。
递归编解码器正则化
受U-Net[26]、GRU[5]和RCNN[2]的启发,本文提出了一种递归编解码器结构来正则化从2D卷积和平面扫描方法获得的D代价映射。在空间维度中,一次一个成本图Ci是递归编解码器结构的输入,然后由四尺度卷积编码器处理。除了第一个卷积层的步长为1和信道号为8之外,我们在编码器中的每个下采样步骤中将特征信道加倍。解码器由三个上卷积层组成,每一层对上一层生成的特征图进行扩展,并将特征通道减半。在每个尺度上,编码的特征映射由卷积GRU[37]进行正则化,然后在解码器中将其添加到相同尺度上的对应特征映射。在解码后,使用上卷积层将正则化的代价图上采样到输入图像的大小,并将通道数减少到1。在深度方向上,将顺序代价图的上下文信息记录在先前调整的GRU中,并将其传递到当前代价图Ci。在梯形编解码器结构中有四个GRU状态转换,表示为状态,以收集和提炼不同空间尺度上的上下文特征。通过归一化空间方向的代价图和深度方向的几何信息和上下文信息,RedNet实现了全局一致的空间/上下文表示,用于多视点深度推理。与GRU堆栈[37]相比,我们的多尺度递归编解码器利用了更多细节和更少参数的多尺度邻域信息。
loss计算
通过将所有正则化的成本图堆叠在一起来获得成本体积。我们利用Softmax算子沿深度方向将其转化为概率体,就像以前的工作[17]所完成的那样。根据这个概率体积,可以按像素估计深度值,并将其与具有交叉熵损失的地面真实情况进行比较,这与[37]相同。为了保持端到端的方式,我们没有提供后处理过程。根据摄像机参数将推断出的深度图转换为密集的3D点,所有这些点构成了完整的3D场景。然而,许多经典的后处理方法[22]都可以用于细化。
实验结果
这篇关于【论文阅读笔记】A Novel Recurrent Encoder-Decoder Structure for Large-Scale Multi-view Stereo Reconstruction的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!