Indoor Depth Completion with Boundary Consistency and Self-Attention

2023-12-14 01:10

本文主要是介绍Indoor Depth Completion with Boundary Consistency and Self-Attention,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

Indoor Depth Completion with Boundary Consistency and Self-Attention

这篇文章主要提出了边界一致性网络(Boundary Consistency)和整合了(Self-Attention)这两个方法
在这里插入图片描述

摘要

背景
深度估计有助于3D识别,目前的商品级别的深度相机可以捕获深度和彩色图片
存在问题并提出课题
传感器存在无法识别到光滑,透明或者远距离的物体缺点,所有有些物体无法识别出深度,因此增强和恢复深度图是一个重要的任务。
介绍课题
深度补全这一任务的目标就是填补那些传感器没有正确识别出空洞的深度图。
现有方法缺陷
传统的手工方法是非常有限的,目前大多数神经网络的方法更多的是对深度图周围的深度进行复制或者差值作为输出结果,这将导致边缘模糊和深度图结构丢失
提出本文方法
本文方法是设计一个端到端的网络,利用了自注意力机制(之前用在图像修复中)在卷积每一层去提取更多有用的信息,因此达到了深度图增强。而且本文提出边界一致性网络概念,加强深度图质量和结构。
实验结果
实验结果验证自注意力机制和边界一致性网络的有效性。优于之前的深度补全最优网络。

介绍

前面一顿叭叭(首先说明目前传感器应用场景,存在的问题,因此增强和恢复深度图是一个重要的任务。接着介绍多视角传统方法,并存在哪些弊端,提出单视角,单视角传统方法存在弊端,然后提出使用深度学习)。目前常见深度补全的深度学习方法存在的问题。
主要有两个方面问题:深度值精度和边缘清晰结构。因此这篇文章解决上面这两个问题。
深度值精度:以前的工作主要是把整个特征图扔到网络中,然后执行卷积操作,但是依据场景语义信息和几何信息,一些区域可能更重要,一些区域可能是次要的细节。因此受[36]影响,本文提出使用自注意力机制网络去鼓励模型多注意关联部分,特别是场景地语义信息,来提高深度值精度。我们的模型从注意力机制模块中得到提升,通过注意力机制模块一方面可以综合考虑周围信息。另一方面整合表面法向量和闭合边界([39])作为输入,我们自注意力机制模块可以估计更精确地深度。
边缘:提出边缘一致性概念。提出了另外一个网络来对输出的深度图进行预测深度边缘。来保留清晰边界。
贡献

  • 使用自注意力机制增强深度,这个在之前的RGB-D估计工作中没有用过
  • 提出新的idea,边缘一致性,使网络产生更加清晰地边缘结构
  • 达到了最优的表现在深度补全深度任务上

相关工作

深度估计,深度超分辨率,从稀疏样本中深度重构
深度修复:图像修复与深度补全在很多方面是类似的,引出了[36],比如说深度修复是丢失图像中一些部分像素,而深度补全是丢失一部分深度值。不同点是深度补全是要利用监督信息学习一个正确的深度值,而图像修复是没有一个正确的答案,它要求的是一个真实合理的结果。yu et al利用自注意力机制在图像修复的partial convolution 和gated convolution中获得非常好的效果。因此提出自注意力机制,使用的[36]中的网络。
深度补全:在zhang[39]中他证明表面法线和闭合边界是深度补全最适合的几何表示。因此本文使用的[39]中的depth Representation网络,并替换了[39]中的 Cholesky optimization,最后可以获得更清晰的边界结构.

方法

本文工作主要集中在两个问题上

  • 怎样避免只是简单通过插值法学习深度值?
  • 怎么获得更清晰深度结构?

自注意力机制
针对第一个问题,之前深度学习方法只是简单的通过周围深度值进行复制和插值来填补深度空洞,因为在大部分情况下,预测平均深度可以让loss迅速下降,并达到局部最优,然而这并没有预测出来正确深度值,因为我们提出了在每一卷积层使用自注意力机制,这样网络可以更关注有用的特征信息来获得精确深度值。本文使用[36]中的gate convolution作为backbone。为什么使用这个作为基本组件?深度补全目的是为了填补缺失的深度信息,而[36]是为了获得真实深度值。因此这两个有非常强的联系。在这里插入图片描述

卷积模块输入 I ,特征提取模块Convf 和 门控卷积Convg,自注意机制的数学公式可以表示为上面这个图中。其中 σ是sigmoid 方法,SN是谱归一化(这个我也不知道是啥),φ可以是任何一个激活函数。自注意力机制可以使模型学习到更有效的动态特征,也可以学习每个通道和每个空间信息特征。因为门控卷积Convg根据上面等式识别出有用和重要的区域,模型在最后Output中保留有用的Feature区域。因此the gated convoluton通过自注意力机制关注局部信息和更细节信息来预测出更精确地深度值。
边界一致性
由U-Net修改过来的边界一致性网络,这个边界一致性网络也鼓励自注意力机制网络去生成更清晰边界。这个网络以上面输出的深度图作为输入,产出边界图然后与真实深度图的sobel算法产生出的深度图做监督。

深度表示(Depth Representation)
。。。。

损失函数

在这里插入图片描述

这篇关于Indoor Depth Completion with Boundary Consistency and Self-Attention的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/490614

相关文章

什么是 Flash Attention

Flash Attention 是 由 Tri Dao 和 Dan Fu 等人在2022年的论文 FlashAttention: Fast and Memory-Efficient Exact Attention with IO-Awareness 中 提出的, 论文可以从 https://arxiv.org/abs/2205.14135 页面下载,点击 View PDF 就可以下载。 下面我

【CSS in Depth 2 精译_023】第四章概述 + 4.1 Flexbox 布局的基本原理

当前内容所在位置(可进入专栏查看其他译好的章节内容) 第一章 层叠、优先级与继承(已完结) 1.1 层叠1.2 继承1.3 特殊值1.4 简写属性1.5 CSS 渐进式增强技术1.6 本章小结 第二章 相对单位(已完结) 2.1 相对单位的威力2.2 em 与 rem2.3 告别像素思维2.4 视口的相对单位2.5 无单位的数值与行高2.6 自定义属性2.7 本章小结 第三章 文档流与盒模型(已

【CSS in Depth 2 精译_024】4.2 弹性子元素的大小

当前内容所在位置(可进入专栏查看其他译好的章节内容) 第一章 层叠、优先级与继承(已完结) 1.1 层叠1.2 继承1.3 特殊值1.4 简写属性1.5 CSS 渐进式增强技术1.6 本章小结 第二章 相对单位(已完结) 2.1 相对单位的威力2.2 em 与 rem2.3 告别像素思维2.4 视口的相对单位2.5 无单位的数值与行高2.6 自定义属性2.7 本章小结 第三章 文档流与盒模型(已

图神经网络框架DGL实现Graph Attention Network (GAT)笔记

参考列表: [1]深入理解图注意力机制 [2]DGL官方学习教程一 ——基础操作&消息传递 [3]Cora数据集介绍+python读取 一、DGL实现GAT分类机器学习论文 程序摘自[1],该程序实现了利用图神经网络框架——DGL,实现图注意网络(GAT)。应用demo为对机器学习论文数据集——Cora,对论文所属类别进行分类。(下图摘自[3]) 1. 程序 Ubuntu:18.04

时序预测|变分模态分解-双向时域卷积-双向门控单元-注意力机制多变量时间序列预测VMD-BiTCN-BiGRU-Attention

时序预测|变分模态分解-双向时域卷积-双向门控单元-注意力机制多变量时间序列预测VMD-BiTCN-BiGRU-Attention 文章目录 一、基本原理1. 变分模态分解(VMD)2. 双向时域卷积(BiTCN)3. 双向门控单元(BiGRU)4. 注意力机制(Attention)总结流程 二、实验结果三、核心代码四、代码获取五、总结 时序预测|变分模态分解-双向时域卷积

Python实现requests-post(Multipart/form-data格式)boundary=----WebKitForm

这种模式相比于普通post,实在太烦了,这种基本都是用来上传文件(包括图片、excel、doc等) import requestsfrom requests_toolbelt.multipart.encoder import MultipartEncoderimport jsonurl = 'http://www.requests-post.com'headers = {'Accept':

阅读笔记--Guiding Attention in End-to-End Driving Models

作者:Diego Porres1, Yi Xiao1, Gabriel Villalonga1, Alexandre Levy1, Antonio M. L ́ opez1,2 出版时间:arXiv:2405.00242v1 [cs.CV] 30 Apr 2024 这篇论文研究了如何引导基于视觉的端到端自动驾驶模型的注意力,以提高它们的驾驶质量和获得更直观的激活图。 摘 要   介绍

基于 BiLSTM+Attention 实现降雨预测多变量时序分类——明日是否降雨

前言 系列专栏:【深度学习:算法项目实战】✨︎ 涉及医疗健康、财经金融、商业零售、食品饮料、运动健身、交通运输、环境科学、社交媒体以及文本和图像处理等诸多领域,讨论了各种复杂的深度神经网络思想,如卷积神经网络、循环神经网络、生成对抗网络、门控循环单元、长短期记忆、自然语言处理、深度强化学习、大型语言模型和迁移学习。 降雨预测作为气象学和水文学领域的重要研究课题,‌对于农业、‌城市规划、

Show,Attend and Tell: Neural Image Caption Generation with Visual Attention

简单的翻译阅读了一下 Abstract 受机器翻译和对象检测领域最新工作的启发,我们引入了一种基于注意力的模型,该模型可以自动学习描述图像的内容。我们描述了如何使用标准的反向传播技术,以确定性的方式训练模型,并通过最大化变分下界随机地训练模型。我们还通过可视化展示了模型如何能够自动学习将注视固定在显着对象上,同时在输出序列中生成相应的单词。我们通过三个基准数据集(Flickr9k,Flickr

深入理解推荐系统:推荐系统中的attention机制

什么是attention机制、在推荐模型中的应用(会介绍相关模型,AFM/DIN/DIEN/DST)和参考文献  什么是attention机制  Attention函数的本质可以被描述为一个查询(query)到一系列(键key-值value)对的映射,在计算attention时主要分为三步 第一步是将query和每个key进行相似度计算得到权重,常用的相似度函数有点积,拼接,感知机等;