论文阅读:AdaBins: Depth Estimation using Adaptive Bins

2024-04-09 08:20

本文主要是介绍论文阅读:AdaBins: Depth Estimation using Adaptive Bins,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

Motivation

  • 信息的全局处理会帮助提高整体深度估计。
  • 提出的AdaBins预测的bin中心集中在较小的深度值附近,对于深度值范围更广的图像,分布广泛。
  • Fu et al. 发现将深度回归任务转化为分类任务可以提升效果,将深度范围分成固定数量的bins。本文则解决了原始方法的多个限制:
    1. 计算根据输入场景的特征动态变化的自适应箱。
    2. 分类方法导致深度值的离散化,导致视觉质量差,深度不连续明显,论文提出预测最终的深度值作为bin中心的线性组合。
    3. 以高分辨率全局计算信息,而不是主要是在低分辨率的瓶颈部分。

在这里插入图片描述

AdaBins design

  • 首先,我们采用一个适应性分箱策略把具体的深度区间 D = ( d m i n , d m a x ) D=(d_{min},d_{max}) D=(dmin,dmax)分成N bins。
  • 我们将最终深度预测为 bin 中心的线性组合,使模型能够估计平滑变化的深度值。
  • 当在空间更高分辨率的张量上使用注意力时,可以获得更好的结果。因此采用了这样的结构: Encoder, Decoder, and finally attention。
  • 由于内存限制,使用h=H/2,w=W/2的空间分辨率处理,最终的depth图像通过简单的bilinearly上采样到(H,W)。
  • AdaBins的第一个模块是miniViT.输出:1) 向量 b , 定义了它如何将深度区间D划分为输入图像。2)Range-Attention 图 R \mathcal{R} R,形状是 h × w × C h \times w \times C h×w×C, 包含了像素级深度计算信息。
  • Bin-widths: 使用MLP头和ReLU层输出N维(bin的数量)向量b’。最后通过Softmax归一化b‘
    b i = b i ′ + ϵ ∑ j = 1 N ( b j ′ + ϵ ) b_i = \frac{b'_i + \epsilon}{\sum^N_{j=1}(b'_j + \epsilon)} bi=j=1N(bj+ϵ)bi+ϵ
  • Range attention maps: Transformer中包含了更多的全局信息。来自转换器的output embedding (2,C+1)作用一组1x1的卷积核,并与解码器的特征卷积获得 R \mathcal{R} R。这相当于将pixel-wise 特征视为’keys’, transformer output embedding相当于’queries’。
  • Hybrid regression:
    R \mathcal{R} R 通过 1 × 1 卷积层获得 N 个通道,然后通过 Softmax。每个像素每个通道的数值作为这个bin的概率,每个depth-bin-centers可以算为:
    c ( b i ) = d ( m i n ) + ( d m a x − d m i n ) ( b i / 2 + ∑ j = 1 i + 1 b j ) c(b_i) = d_(min) + (d_{max} - d_{min})(b_i/2 + \sum^{i+1}_{j=1}b_j) c(bi)=d(min)+(dmaxdmin)(bi/2+j=1i+1bj)
    最后,对于每一个pixel, 最终的 d ~ \tilde{d} d~计算为线性组合 c ( b i ) c(b_i) c(bi),
    d ~ = ∑ k = 1 N c ( b k ) p k \tilde{d}= \sum^N_{k=1}c(b_k)p_k d~=k=1Nc(bk)pk

Loss function

  • Pixel-wise depth loss. 使用一个尺度不变损失 (SI) 的缩放版本:
    在这里插入图片描述
  • g i = l o g d ~ i − l o g d i g_i = log \tilde{d}_i - log d_i gi=logd~ilogdi
  • Bin-center density loss: 鼓励bin centers的分布与真实标签相同。我们将 bin 中心的集合表示为 c(b),将地面实况图像中所有深度值的集合表示为 X,并使用双向倒角损失 [9] 作为正则化器:
    在这里插入图片描述

Reference

  1. [1]FU H, GONG M, WANG C, et al. Deep Ordinal Regression Network for Monocular Depth Estimation[C/OL]//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition, Salt Lake City, UT. 2018. http://dx.doi.org/10.1109/cvpr.2018.00214. DOI:10.1109/cvpr.2018.00214.

这篇关于论文阅读:AdaBins: Depth Estimation using Adaptive Bins的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/887643

相关文章

JAVA智听未来一站式有声阅读平台听书系统小程序源码

智听未来,一站式有声阅读平台听书系统 🌟 开篇:遇见未来,从“智听”开始 在这个快节奏的时代,你是否渴望在忙碌的间隙,找到一片属于自己的宁静角落?是否梦想着能随时随地,沉浸在知识的海洋,或是故事的奇幻世界里?今天,就让我带你一起探索“智听未来”——这一站式有声阅读平台听书系统,它正悄悄改变着我们的阅读方式,让未来触手可及! 📚 第一站:海量资源,应有尽有 走进“智听

AI hospital 论文Idea

一、Benchmarking Large Language Models on Communicative Medical Coaching: A Dataset and a Novel System论文地址含代码 大多数现有模型和工具主要迎合以患者为中心的服务。这项工作深入探讨了LLMs在提高医疗专业人员的沟通能力。目标是构建一个模拟实践环境,人类医生(即医学学习者)可以在其中与患者代理进行医学

论文翻译:arxiv-2024 Benchmark Data Contamination of Large Language Models: A Survey

Benchmark Data Contamination of Large Language Models: A Survey https://arxiv.org/abs/2406.04244 大规模语言模型的基准数据污染:一项综述 文章目录 大规模语言模型的基准数据污染:一项综述摘要1 引言 摘要 大规模语言模型(LLMs),如GPT-4、Claude-3和Gemini的快

论文阅读笔记: Segment Anything

文章目录 Segment Anything摘要引言任务模型数据引擎数据集负责任的人工智能 Segment Anything Model图像编码器提示编码器mask解码器解决歧义损失和训练 Segment Anything 论文地址: https://arxiv.org/abs/2304.02643 代码地址:https://github.com/facebookresear

论文翻译:ICLR-2024 PROVING TEST SET CONTAMINATION IN BLACK BOX LANGUAGE MODELS

PROVING TEST SET CONTAMINATION IN BLACK BOX LANGUAGE MODELS https://openreview.net/forum?id=KS8mIvetg2 验证测试集污染在黑盒语言模型中 文章目录 验证测试集污染在黑盒语言模型中摘要1 引言 摘要 大型语言模型是在大量互联网数据上训练的,这引发了人们的担忧和猜测,即它们可能已

OmniGlue论文详解(特征匹配)

OmniGlue论文详解(特征匹配) 摘要1. 引言2. 相关工作2.1. 广义局部特征匹配2.2. 稀疏可学习匹配2.3. 半稠密可学习匹配2.4. 与其他图像表示匹配 3. OmniGlue3.1. 模型概述3.2. OmniGlue 细节3.2.1. 特征提取3.2.2. 利用DINOv2构建图形。3.2.3. 信息传播与新的指导3.2.4. 匹配层和损失函数3.2.5. 与Super

软件架构模式:5 分钟阅读

原文: https://orkhanscience.medium.com/software-architecture-patterns-5-mins-read-e9e3c8eb47d2 软件架构模式:5 分钟阅读 当有人潜入软件工程世界时,有一天他需要学习软件架构模式的基础知识。当我刚接触编码时,我不知道从哪里获得简要介绍现有架构模式的资源,这样它就不会太详细和混乱,而是非常抽象和易

BERT 论文逐段精读【论文精读】

BERT: 近 3 年 NLP 最火 CV: 大数据集上的训练好的 NN 模型,提升 CV 任务的性能 —— ImageNet 的 CNN 模型 NLP: BERT 简化了 NLP 任务的训练,提升了 NLP 任务的性能 BERT 如何站在巨人的肩膀上的?使用了哪些 NLP 已有的技术和思想?哪些是 BERT 的创新? 1标题 + 作者 BERT: Pre-trainin

[论文笔记]LLM.int8(): 8-bit Matrix Multiplication for Transformers at Scale

引言 今天带来第一篇量化论文LLM.int8(): 8-bit Matrix Multiplication for Transformers at Scale笔记。 为了简单,下文中以翻译的口吻记录,比如替换"作者"为"我们"。 大语言模型已被广泛采用,但推理时需要大量的GPU内存。我们开发了一种Int8矩阵乘法的过程,用于Transformer中的前馈和注意力投影层,这可以将推理所需

【CSS in Depth 2 精译_023】第四章概述 + 4.1 Flexbox 布局的基本原理

当前内容所在位置(可进入专栏查看其他译好的章节内容) 第一章 层叠、优先级与继承(已完结) 1.1 层叠1.2 继承1.3 特殊值1.4 简写属性1.5 CSS 渐进式增强技术1.6 本章小结 第二章 相对单位(已完结) 2.1 相对单位的威力2.2 em 与 rem2.3 告别像素思维2.4 视口的相对单位2.5 无单位的数值与行高2.6 自定义属性2.7 本章小结 第三章 文档流与盒模型(已