本文主要是介绍【立体匹配论文阅读】【二】CREStereo,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
Practical Stereo Matching via Cascaded Recurrent Network with Adaptive Correlation
基于自适应相关级联递归网络的实用立体匹配
说明:本博客可以理解为对论文的翻译和总结整理,并且会在其中添加一些在其他博客搜到的理解,PPT可以在文末下载。PPT是本人创作,希望可以帮到大家。
本文是旷视研究院(Megvii Research)、腾讯和电子科技大学在CVPR2022发布的一篇文章,其算法效果在Middlebury和ETH3D上都是排名第一的(截止到本博客发布时)。
算法平台搭建与测试请查看:通过Anaconda搭建CREStereo虚拟测试环境(Win10系统)
摘要
这段话机翻的,大概了解一下干啥的就行,想深入了解请继续往后看:
随着卷积神经网络的出现,立体匹配算法近年来取得了巨大的进展。然而,由于实际的复杂因素,如薄的结构、非理想的校正、相机模块的不一致性和各种各样的硬场景,从智能手机等消费者级设备拍摄的真实世界的图像对中准确提取差异仍然是一个巨大的挑战。在本文中,我们提出一套创新的设计来解决实际的立体匹配的问题:1)为了更好地恢复好深度细节,我们设计一个层次网络反复细化更新而且方式差异,以及叠级联结构推理;2)提出了自适应的群体关联层来减轻错误矫正的影响;3)我们引入一个新的合成数据集,特别注意困难的情况,以更好地推广到真实场景。我们的结果不仅在Middlebury和ETH3D基准排名第一,以一个显著的优势超过现有的最先进的方法,但也显示了高质量的真实照片的细节,这清楚地证明了我们的贡献的效力。
-
第一大障碍:(当前消费级产品的高分辨率图像只会加重这一问题,例如,在计算bokeh中,精细细节周围的视差误差会导致渲染结果下降,这对人类的感知是不利的)
-
第二大障碍:(例如,目前大多数智能手机捕捉的是广角和长焦镜头的立体对,它们具有明显的焦距和失真参数等特征,会不可避免地导致不理想的矫正,而且不一致的摄像头模块产生的图像对可能在照明、白平衡、图像质量等方面存在差异)
-
实际的立体匹配:Pang等人提出了一种自适应的方法,将CNN泛化到目标域,没有Ground Truth。Luo等人提出了一种小波合成网络,为智能手机上的散景应用产生更好的结果。Song等人为网络引入了一种域适应管道,以缩小合成域和真实域之间的差距。
-
合成数据集提供了高精度和密集的Ground Truth,He等人使用Blender建立了一个用于立体匹配的数据生成管道,纹理来自普通数据集的真实图像。Autoflow引入了一种简单的方法来渲染随机多边形与运动的光流训练。这些数据集仍然具有有限的物体形状变化和有限的视差/光流值分布,削弱了从合成世界到真实世界的泛化能力。
-
LoFTR提出了一种新的局部图像特征匹配方法。首先在粗粒度上建立图像特征的检测、描述和匹配,然后在精粒度别上细化亚像素级别的密集匹配,而不是依次执行图像特征检测、描述和匹配。与使用cost volume来搜索对应关系的密集方法相比,该文借鉴Transformer使用了自注意层和互注意层来获得两幅图像的特征描述符。这种方法提供的全局接受域使得能够在纹理较少的区域产生密集匹配。
低分辨率和高层次特征图由于具有较大的接受域和足够的语义信息,因此对于非纹理或重复纹理区域的匹配更稳健。但在这种特征图中,精细结构的细节可能会丢失。
资料下载
- Li, Jiankun et al. “Practical Stereo Matching via Cascaded Recurrent Network with Adaptive Correlation.” ArXiv abs/2203.11483 (2022): n. pag. CVPR2022.
- PPT下载:lijyhh/Study-notes/Machine vision/02_CREStereo/
这篇关于【立体匹配论文阅读】【二】CREStereo的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!