论文详解——GeoNet：Unsupervised Learning of Dense Depth, Optical Flow and Camera Pose

本文主要是介绍论文详解——GeoNet：Unsupervised Learning of Dense Depth, Optical Flow and Camera Pose，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

前言：

商汤科技在CVPR2018的一篇《GeoNet：Unsupervised Learning of Dense Depth, Optical Flow and Camera Pose》，提出了一种可以联合学习深度、光流和相机姿态的无监督学习框架GeoNet，取得了超越了之前的无监督学习方法并且可与最佳监督学习方法的效果。

相关工作：

理解视频中的3D场景几何是视觉感知领域内的一项基本任务，其中包括很多经典的计算机视觉任务，例如深度恢复、流估计、视觉里程计（visual odometry）。这些技术都有广泛的工业应用，包括自动驾驶平台、交互式协作机器人以及定位与导航等。

传统的根据运动恢复结构（SfM:Structure from Motion）方法是以一种集成式的方式来解决这些任务，其目标是同时重建场景结构和相机运动。但是，这种方法本质上是依赖于高质量的低层次特征对应，所以容易受到异常值和无纹理区域的影响。

为了突破这个局限性，将深度学习模型应用到了每个低层面的子问题上，并且取得了一定的效果。其主要优势来源于大数据，有助于为低层面的线索学习获取高层面的语义对应（即能学习到更高层面的语义线索）。相比于传统方法，即使在ill-posed区域，也能有比较好的表现。但是通常需要大量的groundtruth进行有监督的学习，需要昂贵的激光雷达和查分GPS设备，数据获取和标注成本很高。此外，之前的深度学习模型大都是为解决单个特定任务而设计的，比如深度、光流、相机姿态等，而没有去讨论这些任务之间的几何约束和关联性。

关键点：

在这篇文章中提出的无监督学习框架GeoNet能够从视频中联合学习单目深度、光流和相机运动。这种方法的理论基础在于3D场景几何的本质特性。直观的解释就是——3D场景都是由静态背景和动态目标构成的。大多数的自然场景都是由刚性静态表面组成，如道路、房屋、树木等，它们在视频帧之间的2D投影图像完全由深度结构和相机运动决定。同时，在这些场景中也包含运动的对象，例如行人、车辆等，他们的运动由相机运动和自身的运动共同决定，可以用光流模拟相机运动。

主要贡献有两点：

1.采用了一种“分而治之”的策略，分别学习刚性流和物体运动。在每个阶段用视图合成（view synthesis）与原图的相似度误差来引导与监督学习。

2.引入了自适应几何一致性损失，通过前向-反向一致性检查，自动过滤遮挡和可能的异常值。

网络结构：

GeoNet的网络结构包含两个部分：刚性结构重构器和非刚性结构定位器，分别来学习刚性流和物体运动，在整个无监督学习的过程中，采用图像外观相似度来引导。

具体的网络结构，详见另一篇博客点击打开链接。

Stage 1 —— Rigid Structure Reconstructor

在第一部分Rigid Structure Reconstructor,包括两个子网络DepthNet和PoseNet，分别回归出深度图和相机姿态，并融合产生刚性流。

DepthNet采用了编码器encodr+解码器decoder的结构，编码器部分以ResNet50作为基本结构，解码器部分由反卷积层构成，并且在encoder和decoder之间的不同分辨率上采用了skip connections，进行了多尺度下的预测。这样能够同时保留全局高层次特征和局部细节信息。训练数据是一组时间上连续的视频帧（已知相机内参），其中I(t)是目标帧，作为参考帧，其他帧都是源帧I(s)。DepthNet回归得到不同分辨率下的深度图（原图大小，1/2,1/4,1/8）—— D(t)。

PoseNet包含8个卷积层，在输出最终预测结果之前有一个全局平均池化层。在除了输出层之外的卷积层之间都采用了Batch Normalization和ReLUs激活函数。同样也是预测出四个不同分辨率下的相机6DoF(xyz坐标和欧拉角)，记为T（t-s）。注意，预测结果是6DoF，是一个长度为6的一维向量，但是在公式中T(t-s)代表的是从目标帧到源帧的变换矩阵（4*4），变换矩阵可由6DoF通过变换得到！！！

有了深度和相机姿态，则可以计算出刚性流：

这篇关于论文详解——GeoNet：Unsupervised Learning of Dense Depth, Optical Flow and Camera Pose的文章就介绍到这儿，希望我们推荐的文章对编程师们有所帮助！