《论文阅读》Deep Online Correction for Monocular Visual Odometry

2024-01-23 12:20

本文主要是介绍《论文阅读》Deep Online Correction for Monocular Visual Odometry,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

留个笔记自用

Deep Online Correction for Monocular Visual Odometry

做什么

Monocular Visual Odometry单目视觉里程计
在这里插入图片描述
相机在运动过程中连续两帧之间会存在overlap,即会同时观测到三维世界中的某些场景以及特征点。而这些场景特征点会投射到2D图片上,通过图片的对齐或者特征的匹配,可以找到前后图片上特点或patch的对应关系。利用相机的成像几何模型(包括相机参数)以及约束,可以求出两帧之间的运动信息(旋转矩阵R和平移t)。这样我们就可以得到一系列的相机相对变化矩阵,从而可以推出相机的姿态信息。

做了什么

在这里插入图片描述
DOC完全依赖深度学习框架,但是不同于在线学习不需要计算神经网络参数的梯度传播,并且能效果较好地实现深度校正

怎么做

在这里插入图片描述
DOC框架的核心思想是通过基于梯度传播最小化光度误差来直接优化相对姿态,不依赖传统框架,只需要计算6自由度姿态的梯度就可以,也就是图上的位姿转换Tii-1也就是第i-1帧到第i帧的位姿转换。
整体框架分为是哪个部分,Depth-CNN深度部分、Pose-CNN位姿部分、Warp校正部分
首先是Depth-CNN部分和Pose-CNN部分
在这里插入图片描述
这里的Depth-CNN和Pose-CNN用的是相似的结构,用的都是Unet类似的结构,前者是endoer-decoder形状的,后者则是encoder后接Linear
Depth-CNN以单帧RGB图像作为输入,输出深度图,Pose-CNN以两帧连续图像作为输入,输出位姿转换
这里说借鉴的方法是Monodepth2,一个点云深度估计网络,也是估计深度和位姿的在这里插入图片描述
至此得到了初始的深度图和位姿转换,接下来就是优化,就是文章的题目Deep Online Correction(DOC深度在线校正框架),也就是框架的第三部分
第三部分warp校正部分提供了两种情况可选,两帧优化和三帧优化
在这里插入图片描述
首先是两帧优化情况
给定两帧图像Ii-1和Ii,通过前面两个部分能得到各自的深度图Di-1和Di,还有两者的位姿转换Tii-1,DOC接下来通过最小化总光度误差来优化
定义在这里插入图片描述
这里EI表示第i步的光度误差,Ei-1i和Eii-1的意思分别是前向误差和反向误差,也就是i-1帧到i帧的误差和i帧到i-1帧的误差,然后定义两个误差为
在这里插入图片描述
两个的构造方式比较相似
这里的Π是一个函数,作用是warp,它输入深度图D,位姿转换T,图像帧I,相机固有属性K,以这些合成一个新的视图I’’
在这里插入图片描述
这里说这个函数在经典论文《Spatial Transformer Networks》中有用到过,但其实我并没有找到
然后是EPHO
在这里插入图片描述
这里的意思就是根据两张图像得到它们的光度误差,跟前面的总光度误差不一样,这里是分至于向前和向后的图像间的光度误差,I就是图片帧
然后是定义Mstd
在这里插入图片描述
这里的含义就是一个离群点剥离器,E-是平均,Eσ是标准差,两者都是针对E的,代入前面也就是两个图像,前面的做法是将两张图直接相减,这里的意思就是在差度图上所有点求一个平均和标准差,去掉一些不合理的利群点
回到最开始的式子
在这里插入图片描述
至此得到了 ◦符号后面的所有结果
然后是前面的M,这里就是一个mask的作用,是由两种mask组成的,一个是occlusion mask遮挡Mo,一个是explainability mask解释Me,大M是由这两个M直接相乘得到,也就是在这里插入图片描述
首先是遮挡Mask
在这里插入图片描述
这里又用到了前面的那个函数Π,也就是得到一张新的视图,区别是后面的图像帧输入也换成了上一帧的深度图,这里意思就是用这种阈值D的方式去除一些不合理的遮挡情况
然后是解释Mask,这里没给出公式,但有提到是通过CNN也就是前面的那俩部分得到的
最后总结一下这两个mask的作用
在这里插入图片描述
遮挡Mask在图一和图二中有展示,能较好的去掉由遮挡产生的两个明显同一个的交通棒,然后是解释性误差,这些能减少屋顶和植被这种高频光度误差
至此得到了前后误差,也就是第i帧的光度误差,有了这个误差就可以用优化器去进行优化了
然后是第二种情况,三帧优化情况
也就是输入是前中后三帧图像作为输入,这里也是一样设计了一个总能量误差
在这里插入图片描述
显然这里的设计方式跟前面两帧的前后光度误差是类似的
在这里插入图片描述
这就是整个DOC框架的过程了,整体输入是图片序列I,希望输出是优化位姿T,第一步就是通过前两个部分Pose-CNN和Depth-CNN得到深度D和初始位姿转换T,然后开始进行一个优化工作,通过函数Π将I-1图像帧转换到i帧上,计算一个向前光度误差,然后反过来计算一个向后光度误差,相加得到总误差后用Adam去进行前面初始位姿的优化
在这里插入图片描述

总结

1.不仅是用自监督的方式训练网络,而且构造的这个在线校正模块不更新网络参数,仅做位姿优化,这个会更高效
2.整体来说这种初始化再优化的思路可以参考,并且可以在warp部分做改进,达到一种循环迭代的效果

这篇关于《论文阅读》Deep Online Correction for Monocular Visual Odometry的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/636392

相关文章

Visual Studio中,MSBUild版本问题

假如项目规定了MSBUild版本,那么在安装完Visual Studio后,假如带的MSBUild版本与项目要求的版本不符合要求,那么可以把需要的MSBUild添加到系统中,然后即可使用。步骤如下:            假如项目需要使用V12的MSBUild,而安装的Visual Studio带的MSBUild版本为V14。 ①到MSDN下载V12 MSBUild包,把V12包解压到目录(

Deep Learning复习笔记0

Key Concept: Embedding: learned dense, continuous, low-dimensional representations of object 【将难以表示的对象(如图片,文本等)用连续的低维度的方式表示】 RNN: Recurrent Neural Network -> for processing sequential data (time se

ssh在本地虚拟机中的应用——解决虚拟机中编写和阅读代码不方便问题的一个小技巧

虚拟机中编程小技巧分享——ssh的使用 事情的起因是这样的:前几天一位工程师过来我这边,他看到我在主机和虚拟机运行了两个vscode环境,不经意间提了句:“这么艰苦的环境写代码啊”。 后来我一想:确实。 我长时间以来都是直接在虚拟机里写的代码,但是毕竟是虚拟机嘛,有时候编辑器没那么流畅,在文件比较多的时候跳转很麻烦,容易卡住。因此,我当晚简单思考了一下,想到了一个可行的解决方法——即用ssh

康奈尔大学之论文审稿模型Reviewer2及我司七月对其的实现(含PeerRead)

前言 自从我司于23年7月开始涉足论文审稿领域之后「截止到24年6月份,我司的七月论文审稿GPT已经迭代到了第五版,详见此文的8.1 七月论文审稿GPT(从第1版到第5版)」,在业界的影响力越来越大,所以身边朋友如发现业界有相似的工作,一般都会第一时间发给我,比如本部分要介绍的康奈尔大学的reviewer2 当然,我自己也会各种看类似工作的论文,毕竟同行之间的工作一定会互相借鉴的,我们会学他们

芯片后端之 PT 使用 report_timing 产生报告如何阅读

今天,就PT常用的命令,做一个介绍,希望对大家以后的工作,起到帮助作用。 在PrimeTime中,使用report_timing -delay max命令生成此报告。switch -delay max表示定时报告用于设置(这是默认值)。 首先,我们整体看一下通过report_timing 运行之后,报告产生的整体样式。 pt_shell> report_timing -from start_

【论文精读】分类扩散模型:重振密度比估计(Revitalizing Density Ratio Estimation)

文章目录 一、文章概览(一)问题的提出(二)文章工作 二、理论背景(一)密度比估计DRE(二)去噪扩散模型 三、方法(一)推导分类和去噪之间的关系(二)组合训练方法(三)一步精确的似然计算 四、实验(一)使用两种损失对于实现最佳分类器的重要性(二)去噪结果、图像质量和负对数似然 论文:Classification Diffusion Models: Revitalizing

【python】python葡萄酒国家分布情况数据分析pyecharts可视化(源码+数据集+论文)【独一无二】

👉博__主👈:米码收割机 👉技__能👈:C++/Python语言 👉公众号👈:测试开发自动化【获取源码+商业合作】 👉荣__誉👈:阿里云博客专家博主、51CTO技术博主 👉专__注👈:专注主流机器人、人工智能等相关领域的开发、测试技术。 python葡萄酒国家分布情况数据分析pyecharts可视化(源码+数据集+论文)【独一无二】 目录 python葡

论文阅读--Efficient Hybrid Zoom using Camera Fusion on Mobile Phones

这是谷歌影像团队 2023 年发表在 Siggraph Asia 上的一篇文章,主要介绍的是利用多摄融合的思路进行变焦。 单反相机因为卓越的硬件性能,可以非常方便的实现光学变焦。不过目前的智能手机,受制于物理空间的限制,还不能做到像单反一样的光学变焦。目前主流的智能手机,都是采用多摄的设计,一般来说一个主摄搭配一个长焦,为了实现主摄与长焦之间的变焦,目前都是采用数字变焦的方式,数字变焦相比于光学

【LLM之KG】CoK论文阅读笔记

研究背景 大规模语言模型(LLMs)在许多自然语言处理(NLP)任务中取得了显著进展,特别是在零样本/少样本学习(In-Context Learning, ICL)方面。ICL不需要更新模型参数,只需利用几个标注示例就可以生成预测。然而,现有的ICL和链式思维(Chain-of-Thought, CoT)方法在复杂推理任务上仍存在生成的推理链常常伴随错误的问题,导致不真实和不可靠的推理结果。

【python】python基于akshare企业财务数据对比分析可视化(源码+数据集+论文)【独一无二】

👉博__主👈:米码收割机 👉技__能👈:C++/Python语言 👉公众号👈:测试开发自动化【获取源码+商业合作】 👉荣__誉👈:阿里云博客专家博主、51CTO技术博主 👉专__注👈:专注主流机器人、人工智能等相关领域的开发、测试技术。 系列文章目录 目录 系列文章目录一、设计要求二、设计思路三、可视化分析 一、设计要求 选取中铁和贵州茅