【立体匹配论文阅读】【二】CREStereo

2024-03-19 00:59

本文主要是介绍【立体匹配论文阅读】【二】CREStereo,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

Practical Stereo Matching via Cascaded Recurrent Network with Adaptive Correlation

基于自适应相关级联递归网络的实用立体匹配

说明:本博客可以理解为对论文的翻译和总结整理,并且会在其中添加一些在其他博客搜到的理解,PPT可以在文末下载。PPT是本人创作,希望可以帮到大家。

本文是旷视研究院(Megvii Research)、腾讯和电子科技大学在CVPR2022发布的一篇文章,其算法效果在Middlebury和ETH3D上都是排名第一的(截止到本博客发布时)。

算法平台搭建与测试请查看:通过Anaconda搭建CREStereo虚拟测试环境(Win10系统)

摘要

这段话机翻的,大概了解一下干啥的就行,想深入了解请继续往后看:

随着卷积神经网络的出现,立体匹配算法近年来取得了巨大的进展。然而,由于实际的复杂因素,如薄的结构、非理想的校正、相机模块的不一致性和各种各样的硬场景,从智能手机等消费者级设备拍摄的真实世界的图像对中准确提取差异仍然是一个巨大的挑战。在本文中,我们提出一套创新的设计来解决实际的立体匹配的问题:1)为了更好地恢复好深度细节,我们设计一个层次网络反复细化更新而且方式差异,以及叠级联结构推理;2)提出了自适应的群体关联层来减轻错误矫正的影响;3)我们引入一个新的合成数据集,特别注意困难的情况,以更好地推广到真实场景。我们的结果不仅在Middlebury和ETH3D基准排名第一,以一个显著的优势超过现有的最先进的方法,但也显示了高质量的真实照片的细节,这清楚地证明了我们的贡献的效力。
在这里插入图片描述

在这里插入图片描述
在这里插入图片描述

  1. 第一大障碍:(当前消费级产品的高分辨率图像只会加重这一问题,例如,在计算bokeh中,精细细节周围的视差误差会导致渲染结果下降,这对人类的感知是不利的)

  2. 第二大障碍:(例如,目前大多数智能手机捕捉的是广角和长焦镜头的立体对,它们具有明显的焦距和失真参数等特征,会不可避免地导致不理想的矫正,而且不一致的摄像头模块产生的图像对可能在照明、白平衡、图像质量等方面存在差异)
    在这里插入图片描述

  3. 实际的立体匹配:Pang等人提出了一种自适应的方法,将CNN泛化到目标域,没有Ground Truth。Luo等人提出了一种小波合成网络,为智能手机上的散景应用产生更好的结果。Song等人为网络引入了一种域适应管道,以缩小合成域和真实域之间的差距。

  4. 合成数据集提供了高精度和密集的Ground Truth,He等人使用Blender建立了一个用于立体匹配的数据生成管道,纹理来自普通数据集的真实图像。Autoflow引入了一种简单的方法来渲染随机多边形与运动的光流训练。这些数据集仍然具有有限的物体形状变化和有限的视差/光流值分布,削弱了从合成世界到真实世界的泛化能力。
    在这里插入图片描述

  5. LoFTR提出了一种新的局部图像特征匹配方法。首先在粗粒度上建立图像特征的检测、描述和匹配,然后在精粒度别上细化亚像素级别的密集匹配,而不是依次执行图像特征检测、描述和匹配。与使用cost volume来搜索对应关系的密集方法相比,该文借鉴Transformer使用了自注意层和互注意层来获得两幅图像的特征描述符。这种方法提供的全局接受域使得能够在纹理较少的区域产生密集匹配。
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    低分辨率和高层次特征图由于具有较大的接受域和足够的语义信息,因此对于非纹理或重复纹理区域的匹配更稳健。但在这种特征图中,精细结构的细节可能会丢失。
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述

资料下载

  1. Li, Jiankun et al. “Practical Stereo Matching via Cascaded Recurrent Network with Adaptive Correlation.” ArXiv abs/2203.11483 (2022): n. pag. CVPR2022.
  2. PPT下载:lijyhh/Study-notes/Machine vision/02_CREStereo/

这篇关于【立体匹配论文阅读】【二】CREStereo的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/824297

相关文章

JAVA智听未来一站式有声阅读平台听书系统小程序源码

智听未来,一站式有声阅读平台听书系统 🌟 开篇:遇见未来,从“智听”开始 在这个快节奏的时代,你是否渴望在忙碌的间隙,找到一片属于自己的宁静角落?是否梦想着能随时随地,沉浸在知识的海洋,或是故事的奇幻世界里?今天,就让我带你一起探索“智听未来”——这一站式有声阅读平台听书系统,它正悄悄改变着我们的阅读方式,让未来触手可及! 📚 第一站:海量资源,应有尽有 走进“智听

AI hospital 论文Idea

一、Benchmarking Large Language Models on Communicative Medical Coaching: A Dataset and a Novel System论文地址含代码 大多数现有模型和工具主要迎合以患者为中心的服务。这项工作深入探讨了LLMs在提高医疗专业人员的沟通能力。目标是构建一个模拟实践环境,人类医生(即医学学习者)可以在其中与患者代理进行医学

论文翻译:arxiv-2024 Benchmark Data Contamination of Large Language Models: A Survey

Benchmark Data Contamination of Large Language Models: A Survey https://arxiv.org/abs/2406.04244 大规模语言模型的基准数据污染:一项综述 文章目录 大规模语言模型的基准数据污染:一项综述摘要1 引言 摘要 大规模语言模型(LLMs),如GPT-4、Claude-3和Gemini的快

论文阅读笔记: Segment Anything

文章目录 Segment Anything摘要引言任务模型数据引擎数据集负责任的人工智能 Segment Anything Model图像编码器提示编码器mask解码器解决歧义损失和训练 Segment Anything 论文地址: https://arxiv.org/abs/2304.02643 代码地址:https://github.com/facebookresear

论文翻译:ICLR-2024 PROVING TEST SET CONTAMINATION IN BLACK BOX LANGUAGE MODELS

PROVING TEST SET CONTAMINATION IN BLACK BOX LANGUAGE MODELS https://openreview.net/forum?id=KS8mIvetg2 验证测试集污染在黑盒语言模型中 文章目录 验证测试集污染在黑盒语言模型中摘要1 引言 摘要 大型语言模型是在大量互联网数据上训练的,这引发了人们的担忧和猜测,即它们可能已

OmniGlue论文详解(特征匹配)

OmniGlue论文详解(特征匹配) 摘要1. 引言2. 相关工作2.1. 广义局部特征匹配2.2. 稀疏可学习匹配2.3. 半稠密可学习匹配2.4. 与其他图像表示匹配 3. OmniGlue3.1. 模型概述3.2. OmniGlue 细节3.2.1. 特征提取3.2.2. 利用DINOv2构建图形。3.2.3. 信息传播与新的指导3.2.4. 匹配层和损失函数3.2.5. 与Super

软件架构模式:5 分钟阅读

原文: https://orkhanscience.medium.com/software-architecture-patterns-5-mins-read-e9e3c8eb47d2 软件架构模式:5 分钟阅读 当有人潜入软件工程世界时,有一天他需要学习软件架构模式的基础知识。当我刚接触编码时,我不知道从哪里获得简要介绍现有架构模式的资源,这样它就不会太详细和混乱,而是非常抽象和易

BERT 论文逐段精读【论文精读】

BERT: 近 3 年 NLP 最火 CV: 大数据集上的训练好的 NN 模型,提升 CV 任务的性能 —— ImageNet 的 CNN 模型 NLP: BERT 简化了 NLP 任务的训练,提升了 NLP 任务的性能 BERT 如何站在巨人的肩膀上的?使用了哪些 NLP 已有的技术和思想?哪些是 BERT 的创新? 1标题 + 作者 BERT: Pre-trainin

[论文笔记]LLM.int8(): 8-bit Matrix Multiplication for Transformers at Scale

引言 今天带来第一篇量化论文LLM.int8(): 8-bit Matrix Multiplication for Transformers at Scale笔记。 为了简单,下文中以翻译的口吻记录,比如替换"作者"为"我们"。 大语言模型已被广泛采用,但推理时需要大量的GPU内存。我们开发了一种Int8矩阵乘法的过程,用于Transformer中的前馈和注意力投影层,这可以将推理所需

【阅读文献】一个使用大语言模型的端到端语音概要

摘要 ssum框架(Speech Summarization)为了 从说话人的语音提出对应的文本二题出。 ssum面临的挑战: 控制长语音的输入捕捉 the intricate cross-mdoel mapping 在长语音输入和短文本之间。 ssum端到端模型框架 使用 Q-Former 作为 语音和文本的中介连接 ,并且使用LLMs去从语音特征正确地产生文本。 采取 multi-st