OmniMVS拜读:End-to-End Learning for Omnidirectional Stereo Matching

2024-03-19 00:59

本文主要是介绍OmniMVS拜读:End-to-End Learning for Omnidirectional Stereo Matching,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

图像来源

  • wide field-of-view (FOV) cameras on an omnidirectional rig
    • 文中具体为4个刚耦合的鱼眼相机

方法

  • 1.将输入的鱼眼图像提取为unary feature maps
    • 通过2D CNN实现
      • 文中使用SegNet+dilated convolution
  • 2.利用feature maps和内外参建立4D feature volume
    • 通过 calibration + spherical sweeping实现
      • 文中使用multi-fisheye camera rig模型 和 spherical sweeping方法
  • 3.计算matching cost volume
    • 通过3D CNN正则化
  • 4.depth estimate
    • 使用softargmin完成

在这里插入图片描述

Multi-fisheye camera rig

在这里插入图片描述
在多相机的中心,使用单位向量 p ⃗ \vec{p} p 表示整个rig的朝向:在这里插入图片描述

  • 单位向量 p ⃗ \vec{p} p 指向的空间点X可以表示为:
    在这里插入图片描述

rig向量 p ⃗ \vec{p} p 指向的点集构成一个球体

  • 当球半径为ρ,空间点X到像素坐标系x的映射表示为:
    在这里插入图片描述

Spherical sweeping

通过设置camera rig模型中 p ⃗ \vec{p} p 的长度ρ(球半径),可以获得不同大小的球体

  • ρ具体是通过逆深度 d n d_n dn来设置的
    • 当逆深度为0到 d m a x d_{max} dmax,对应的深度范围为 1 d m a x \frac{1}{d_{max}} dmax1到无限远

设置N个球体,与鱼眼图(实际用的是对应的feature map)有映射关系:在这里插入图片描述

Feature Learning and Alignment

2D CNN 获取的unary feature map表示为: U = F C N N ( I ) U=F_{CNN}(I) U=FCNN(I)

  • 分辨率为 1 r H I × 1 r W I × C \frac{1}{r}H_{I}×\frac{1}{r}W_{I}×C r1HI×r1WI×C
  • H I H_{I} HI W I W_{I} WI是输入图像的高度和宽度, r r r是缩小系数, C C C是通道数

Feature maps 通过上述的spherical sweeping方法warp到球上:在这里插入图片描述
warping the feature maps具体使用:

  • calibrated intrinsic and extrinsic parameters
  • coordinate lookup table
  • 2D bilinear interpolation i

对N个球体,为了确保相邻warped feature maps有足够的disparities,并减少运算开销

  • 球体隔着用,即 n ∈ [ 0 , 2 , … , N − 1 ] n∈ [0,2,…,N− 1] n[02N1]
  • the warped 4D feature volume S i S_{i} Si的大小为 H × W × N 2 × C H×W×\frac{N} {2}×C H×W×2N×C

此外

  • 在反向传播过程中反向分布梯度。
  • 计算每个输入图像的Mask M i M_i Mi,在wrap和反向传播中忽略有效区域之外的像素。

Network Architecture

在这里插入图片描述

  • 首先输入鱼眼灰度图,经过2D CNN 获得原图一半大小的feature map
  • 随后feature aligned by spherical sweeping,通过 3 × 3 c o n v 3×3 conv 3×3conv transferred to
    spherical feature ,将球面特征映射串联并通过 3 × 3 × 3 c o n v 3×3×3 conv 3×3×3conv融合为cost volume
  • cost volume再通过 3D encoder-decoder 来 refine 和 regularize
  • 最后,应用softargmin获取逆深度:
    在这里插入图片描述

为了以端到端的方式训练网络,使用输入图像和ground truth inverse depth作为输入

loss为预测逆深度和其ground truth的absolute error loss :在这里插入图片描述

这篇关于OmniMVS拜读:End-to-End Learning for Omnidirectional Stereo Matching的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/824296

相关文章

简单的Q-learning|小明的一维世界(3)

简单的Q-learning|小明的一维世界(1) 简单的Q-learning|小明的一维世界(2) 一维的加速度世界 这个世界,小明只能控制自己的加速度,并且只能对加速度进行如下三种操作:增加1、减少1、或者不变。所以行动空间为: { u 1 = − 1 , u 2 = 0 , u 3 = 1 } \{u_1=-1, u_2=0, u_3=1\} {u1​=−1,u2​=0,u3​=1}

简单的Q-learning|小明的一维世界(2)

上篇介绍了小明的一维世界模型 、Q-learning的状态空间、行动空间、奖励函数、Q-table、Q table更新公式、以及从Q值导出策略的公式等。最后给出最简单的一维位置世界的Q-learning例子,从给出其状态空间、行动空间、以及稠密与稀疏两种奖励函数的设置方式。下面将继续深入,GO! 一维的速度世界 这个世界,小明只能控制自己的速度,并且只能对速度进行如下三种操作:增加1、减

leetcode#10. Regular Expression Matching

题目 Implement regular expression matching with support for ‘.’ and ‘*’. '.' Matches any single character.'*' Matches zero or more of the preceding element.The matching should cover the entire input

阅读笔记--Guiding Attention in End-to-End Driving Models

作者:Diego Porres1, Yi Xiao1, Gabriel Villalonga1, Alexandre Levy1, Antonio M. L ́ opez1,2 出版时间:arXiv:2405.00242v1 [cs.CV] 30 Apr 2024 这篇论文研究了如何引导基于视觉的端到端自动驾驶模型的注意力,以提高它们的驾驶质量和获得更直观的激活图。 摘 要   介绍

Learning Memory-guided Normality for Anomaly Detection——学习记忆引导的常态异常检测

又是一篇在自编码器框架中研究使用记忆模块的论文,可以看做19年的iccv的论文的衍生,在我的博客中对19年iccv这篇论文也做了简单介绍。韩国人写的,应该是吧,这名字听起来就像。 摘要abstract 我们解决异常检测的问题,即检测视频序列中的异常事件。基于卷积神经网络的异常检测方法通常利用代理任务(如重建输入视频帧)来学习描述正常情况的模型,而在训练时看不到异常样本,并在测试时使用重建误

Learning Temporal Regularity in Video Sequences——视频序列的时间规则性学习

Learning Temporal Regularity in Video Sequences CVPR2016 无监督视频异常事件检测早期工作 摘要 由于对“有意义”的定义不明确以及场景混乱,因此在较长的视频序列中感知有意义的活动是一个具有挑战性的问题。我们通过在非常有限的监督下使用多种来源学习常规运动模式的生成模型(称为规律性)来解决此问题。体来说,我们提出了两种基于自动编码器的方法,以

ssh登录服务器报错“no matching host key type found. Their offer: ssh-rsa,ssh-dss”解决方法

这个错误表明你尝试使用 ssh 连接到远程服务器时,客户端和服务器之间没有匹配的 host key 类型。具体来说,远程服务器提供了 ssh-rsa 和 ssh-dss 类型的 host key,但你的 SSH 客户端配置可能不再支持这些较旧的算法。最近的 OpenSSH 版本默认禁用了不够安全的算法,如 ssh-rsa 和 ssh-dss。 解决方法 临时启用 ssh-rsa: 你可以在

COD论文笔记 Adaptive Guidance Learning for Camouflaged Object Detection

论文的主要动机、现有方法的不足、拟解决的问题、主要贡献和创新点如下: 动机: 论文的核心动机是解决伪装目标检测(COD)中的挑战性任务。伪装目标检测旨在识别和分割那些在视觉上与周围环境高度相似的目标,这对于计算机视觉来说是非常困难的任务。尽管深度学习方法在该领域取得了一定进展,但现有方法仍面临有效分离目标和背景的难题,尤其是在伪装目标与背景特征高度相似的情况下。 现有方法的不足之处: 过于

One-Shot Imitation Learning

发表时间:NIPS2017 论文链接:https://readpaper.com/pdf-annotate/note?pdfId=4557560538297540609&noteId=2424799047081637376 作者单位:Berkeley AI Research Lab, Work done while at OpenAI Yan Duan†§ , Marcin Andrychow

Introduction to Deep Learning with PyTorch

1、Introduction to PyTorch, a Deep Learning Library 1.1、Importing PyTorch and related packages import torch# supports:## image data with torchvision## audio data with torchaudio## text data with t