Indoor Depth Completion with Boundary Consistency and Self-Attention

本文主要是介绍Indoor Depth Completion with Boundary Consistency and Self-Attention，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

Indoor Depth Completion with Boundary Consistency and Self-Attention

这篇文章主要提出了边界一致性网络（Boundary Consistency）和整合了（Self-Attention）这两个方法
在这里插入图片描述

摘要

背景
深度估计有助于3D识别，目前的商品级别的深度相机可以捕获深度和彩色图片
存在问题并提出课题
传感器存在无法识别到光滑，透明或者远距离的物体缺点，所有有些物体无法识别出深度，因此增强和恢复深度图是一个重要的任务。
介绍课题
深度补全这一任务的目标就是填补那些传感器没有正确识别出空洞的深度图。
现有方法缺陷
传统的手工方法是非常有限的，目前大多数神经网络的方法更多的是对深度图周围的深度进行复制或者差值作为输出结果，这将导致边缘模糊和深度图结构丢失
提出本文方法
本文方法是设计一个端到端的网络，利用了自注意力机制（之前用在图像修复中）在卷积每一层去提取更多有用的信息，因此达到了深度图增强。而且本文提出边界一致性网络概念，加强深度图质量和结构。
实验结果
实验结果验证自注意力机制和边界一致性网络的有效性。优于之前的深度补全最优网络。

介绍

前面一顿叭叭(首先说明目前传感器应用场景，存在的问题，因此增强和恢复深度图是一个重要的任务。接着介绍多视角传统方法，并存在哪些弊端，提出单视角，单视角传统方法存在弊端，然后提出使用深度学习）。目前常见深度补全的深度学习方法存在的问题。
主要有两个方面问题：深度值精度和边缘清晰结构。因此这篇文章解决上面这两个问题。
深度值精度：以前的工作主要是把整个特征图扔到网络中，然后执行卷积操作，但是依据场景语义信息和几何信息，一些区域可能更重要，一些区域可能是次要的细节。因此受[36]影响，本文提出使用自注意力机制网络去鼓励模型多注意关联部分，特别是场景地语义信息，来提高深度值精度。我们的模型从注意力机制模块中得到提升，通过注意力机制模块一方面可以综合考虑周围信息。另一方面整合表面法向量和闭合边界([39]）作为输入，我们自注意力机制模块可以估计更精确地深度。
边缘：提出边缘一致性概念。提出了另外一个网络来对输出的深度图进行预测深度边缘。来保留清晰边界。
贡献

使用自注意力机制增强深度，这个在之前的RGB-D估计工作中没有用过
提出新的idea，边缘一致性，使网络产生更加清晰地边缘结构
达到了最优的表现在深度补全深度任务上

方法

本文工作主要集中在两个问题上

怎样避免只是简单通过插值法学习深度值？
怎么获得更清晰深度结构？

自注意力机制
针对第一个问题，之前深度学习方法只是简单的通过周围深度值进行复制和插值来填补深度空洞，因为在大部分情况下，预测平均深度可以让loss迅速下降，并达到局部最优，然而这并没有预测出来正确深度值，因为我们提出了在每一卷积层使用自注意力机制，这样网络可以更关注有用的特征信息来获得精确深度值。本文使用[36]中的gate convolution作为backbone。为什么使用这个作为基本组件？深度补全目的是为了填补缺失的深度信息，而[36]是为了获得真实深度值。因此这两个有非常强的联系。在这里插入图片描述

卷积模块输入 I ，特征提取模块Convf 和门控卷积Convg，自注意机制的数学公式可以表示为上面这个图中。其中 σ是sigmoid 方法，SN是谱归一化（这个我也不知道是啥），φ可以是任何一个激活函数。自注意力机制可以使模型学习到更有效的动态特征，也可以学习每个通道和每个空间信息特征。因为门控卷积Convg根据上面等式识别出有用和重要的区域，模型在最后Output中保留有用的Feature区域。因此the gated convoluton通过自注意力机制关注局部信息和更细节信息来预测出更精确地深度值。
边界一致性
由U-Net修改过来的边界一致性网络，这个边界一致性网络也鼓励自注意力机制网络去生成更清晰边界。这个网络以上面输出的深度图作为输入，产出边界图然后与真实深度图的sobel算法产生出的深度图做监督。

深度表示（Depth Representation）
。。。。