【论文阅读笔记】A Novel Recurrent Encoder-Decoder Structure for Large-Scale Multi-view Stereo Reconstruction

本文主要是介绍【论文阅读笔记】A Novel Recurrent Encoder-Decoder Structure for Large-Scale Multi-view Stereo Reconstruction,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

A Novel Recurrent Encoder-Decoder Structure for Large-Scale Multi-view Stereo Reconstruction from An Open Aerial Dataset

目录

  • 主要贡献
  • 摘要
  • RED-Net细节
    • 二维特征提取
    • cost map
    • 递归编解码器正则化
    • loss计算
  • 实验结果

主要贡献

在这里插入图片描述

摘要

近年来的大量研究表明,多视点立体匹配问题可以用深度学习方法来解决。然而,这些工作主要集中在近距离目标上,由于缺乏多视角航空图像基准,基于深度学习的方法中只有很少的方法是专门为大规模3D城市重建设计的。本文介绍了我们为MVS任务创建的一个合成航空数据集,称为WHU数据集,据我们所知,这是第一个大规模多视点航空数据集。它是从一个高精度的3D数字表面模型生成的,该模型由数千张带有精确相机参数的真实航空图像生成。本文还介绍了一种新的用于大范围深度推断的网络,称为红网,它是由递归编解码器结构和二维全卷积网络作为框架发展而来的。Red-Net的低内存需求和高性能使其适合大规模、高精度的三维地球表面重建。我们的实验证实,我们的方法不仅比目前最先进的MVS方法具有50%以上的平均绝对误差(MAE),而且具有更少的内存和计算代价,而且它的效率也很高。它的表现超过了基于传统方法的最好的商业软件程序之一,将效率提高了16倍。此外,我们证明了我们在合成WHU数据集上预先训练的RedNet模型可以有效地转换到非常不同的多视角航空图像数据集,而不需要任何微调。数据集和代码可在http://gpcv.whu.edu.cn/data.上获得

RED-Net细节

在这里插入图片描述
我们开发了一种名为RED-Net的网络,它结合了一系列从独立的多视角图像中提取特征的加权卷积层和递归编解码器(RED)结构,该结构顺序地学习深度和空间方向上的正则化深度图,以实现大规模和高分辨率的多视角重建。该框架的灵感来自于[37]。然而,我们没有使用三个GRU块的堆栈,而是使用了2D递归编解码器结构来顺序地规则化代价图,这不仅显著地减少了内存消耗,极大地提高了计算效率,而且捕捉到了更精细的结构用于深度推理。红网的输出与输入参考图像具有相同的分辨率,而不是像[37]中那样缩小四倍,从而确保了大范围和大深度范围场景的高分辨率重建。网络结构如图4所示。

二维特征提取

红网从N个视图图像中推断出深度采样数为D的深度图,其中N通常不小于3。首先分别使用2D卷积层来提取N个具有共享权的输入图像的特征,这可以看作是一种Nway暹罗网络体系结构[6]。每个分支由5个卷积层组成,分别具有8、8、16、16个通道,并且核大小为3×3,步长为1(除了第三层,其核大小为5×5,步长为2)。除最后一层外,所有层后面都有一个校正的线性单位(RELU)[10]。2D网络为每个输入图像产生输入图像宽度和高度的一半的16通道特征表示。

cost map

将一组2D图像特征反投影到3D空间中连续的虚拟平面上,以构建成本图。采用平面扫描方法[7]将这些特征扭曲到参考摄像机视点中,这被描述为可微单应扭曲。采用方差运算[36]将多个特征映射连接到3D空间中某一深度平面上的一个代价映射。最后,在每个深度平面上建立D个代价图。

递归编解码器正则化

受U-Net[26]、GRU[5]和RCNN[2]的启发,本文提出了一种递归编解码器结构来正则化从2D卷积和平面扫描方法获得的D代价映射。在空间维度中,一次一个成本图Ci是递归编解码器结构的输入,然后由四尺度卷积编码器处理。除了第一个卷积层的步长为1和信道号为8之外,我们在编码器中的每个下采样步骤中将特征信道加倍。解码器由三个上卷积层组成,每一层对上一层生成的特征图进行扩展,并将特征通道减半。在每个尺度上,编码的特征映射由卷积GRU[37]进行正则化,然后在解码器中将其添加到相同尺度上的对应特征映射。在解码后,使用上卷积层将正则化的代价图上采样到输入图像的大小,并将通道数减少到1。在深度方向上,将顺序代价图的上下文信息记录在先前调整的GRU中,并将其传递到当前代价图Ci。在梯形编解码器结构中有四个GRU状态转换,表示为状态,以收集和提炼不同空间尺度上的上下文特征。通过归一化空间方向的代价图和深度方向的几何信息和上下文信息,RedNet实现了全局一致的空间/上下文表示,用于多视点深度推理。与GRU堆栈[37]相比,我们的多尺度递归编解码器利用了更多细节和更少参数的多尺度邻域信息。

loss计算

通过将所有正则化的成本图堆叠在一起来获得成本体积。我们利用Softmax算子沿深度方向将其转化为概率体,就像以前的工作[17]所完成的那样。根据这个概率体积,可以按像素估计深度值,并将其与具有交叉熵损失的地面真实情况进行比较,这与[37]相同。为了保持端到端的方式,我们没有提供后处理过程。根据摄像机参数将推断出的深度图转换为密集的3D点,所有这些点构成了完整的3D场景。然而,许多经典的后处理方法[22]都可以用于细化。

实验结果

在这里插入图片描述

这篇关于【论文阅读笔记】A Novel Recurrent Encoder-Decoder Structure for Large-Scale Multi-view Stereo Reconstruction的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/785984

相关文章

JAVA智听未来一站式有声阅读平台听书系统小程序源码

智听未来,一站式有声阅读平台听书系统 🌟 开篇:遇见未来,从“智听”开始 在这个快节奏的时代,你是否渴望在忙碌的间隙,找到一片属于自己的宁静角落?是否梦想着能随时随地,沉浸在知识的海洋,或是故事的奇幻世界里?今天,就让我带你一起探索“智听未来”——这一站式有声阅读平台听书系统,它正悄悄改变着我们的阅读方式,让未来触手可及! 📚 第一站:海量资源,应有尽有 走进“智听

AI hospital 论文Idea

一、Benchmarking Large Language Models on Communicative Medical Coaching: A Dataset and a Novel System论文地址含代码 大多数现有模型和工具主要迎合以患者为中心的服务。这项工作深入探讨了LLMs在提高医疗专业人员的沟通能力。目标是构建一个模拟实践环境,人类医生(即医学学习者)可以在其中与患者代理进行医学

【学习笔记】 陈强-机器学习-Python-Ch15 人工神经网络(1)sklearn

系列文章目录 监督学习:参数方法 【学习笔记】 陈强-机器学习-Python-Ch4 线性回归 【学习笔记】 陈强-机器学习-Python-Ch5 逻辑回归 【课后题练习】 陈强-机器学习-Python-Ch5 逻辑回归(SAheart.csv) 【学习笔记】 陈强-机器学习-Python-Ch6 多项逻辑回归 【学习笔记 及 课后题练习】 陈强-机器学习-Python-Ch7 判别分析 【学

系统架构师考试学习笔记第三篇——架构设计高级知识(20)通信系统架构设计理论与实践

本章知识考点:         第20课时主要学习通信系统架构设计的理论和工作中的实践。根据新版考试大纲,本课时知识点会涉及案例分析题(25分),而在历年考试中,案例题对该部分内容的考查并不多,虽在综合知识选择题目中经常考查,但分值也不高。本课时内容侧重于对知识点的记忆和理解,按照以往的出题规律,通信系统架构设计基础知识点多来源于教材内的基础网络设备、网络架构和教材外最新时事热点技术。本课时知识

2014 Multi-University Training Contest 8小记

1002 计算几何 最大的速度才可能拥有无限的面积。 最大的速度的点 求凸包, 凸包上的点( 注意不是端点 ) 才拥有无限的面积 注意 :  凸包上如果有重点则不满足。 另外最大的速度为0也不行的。 int cmp(double x){if(fabs(x) < 1e-8) return 0 ;if(x > 0) return 1 ;return -1 ;}struct poin

2014 Multi-University Training Contest 7小记

1003   数学 , 先暴力再解方程。 在b进制下是个2 , 3 位数的 大概是10000进制以上 。这部分解方程 2-10000 直接暴力 typedef long long LL ;LL n ;int ok(int b){LL m = n ;int c ;while(m){c = m % b ;if(c == 3 || c == 4 || c == 5 ||

2014 Multi-University Training Contest 6小记

1003  贪心 对于111...10....000 这样的序列,  a 为1的个数,b为0的个数,易得当 x= a / (a + b) 时 f最小。 讲串分成若干段  1..10..0   ,  1..10..0 ,  要满足x非递减 。  对于 xi > xi+1  这样的合并 即可。 const int maxn = 100008 ;struct Node{int

论文翻译:arxiv-2024 Benchmark Data Contamination of Large Language Models: A Survey

Benchmark Data Contamination of Large Language Models: A Survey https://arxiv.org/abs/2406.04244 大规模语言模型的基准数据污染:一项综述 文章目录 大规模语言模型的基准数据污染:一项综述摘要1 引言 摘要 大规模语言模型(LLMs),如GPT-4、Claude-3和Gemini的快

论文阅读笔记: Segment Anything

文章目录 Segment Anything摘要引言任务模型数据引擎数据集负责任的人工智能 Segment Anything Model图像编码器提示编码器mask解码器解决歧义损失和训练 Segment Anything 论文地址: https://arxiv.org/abs/2304.02643 代码地址:https://github.com/facebookresear

数学建模笔记—— 非线性规划

数学建模笔记—— 非线性规划 非线性规划1. 模型原理1.1 非线性规划的标准型1.2 非线性规划求解的Matlab函数 2. 典型例题3. matlab代码求解3.1 例1 一个简单示例3.2 例2 选址问题1. 第一问 线性规划2. 第二问 非线性规划 非线性规划 非线性规划是一种求解目标函数或约束条件中有一个或几个非线性函数的最优化问题的方法。运筹学的一个重要分支。2