DSM: Domain-invariant Stereo Matching Networks 域不变的立体匹配网络

本文主要是介绍DSM: Domain-invariant Stereo Matching Networks 域不变的立体匹配网络,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

DSM: Domain-invariant Stereo Matching Networks 域不变的立体匹配网络

作者‖ flow
编辑‖ 3D视觉开发者社区
3D开发者社区链接:https://mp.weixin.qq.com/s/qNmnGVSAuQU7KusI630-og


导语: 本文是由来自牛津大学、百度研究院以及香港中文大学团队发表的论文,该团队提出了域不变的立体匹配网络方法,用于解决立体匹配网络中直接跨域泛化的问题。适合对立体匹配领域感兴趣,并对该领域术语与概念有一定了解的读者学习。

论文链接:

​ https://arxiv.org/pdf/1911.13287.pdf

代码链接:

​ https://github.com/feihuzhang/DSMNet

目标读者:

​ 对立体匹配领域中常用的深度学习模型有基本了解,且熟悉立体匹配领域内的基本术语与概念。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-j2k31EJ0-1640186213954)(/media/ylj/YELEJIA/yitaidao_wiki/DSM: Domain-invariant Stereo Matching Networks.assets/image-20211124133938738.png)]

概述

这篇论文来自于牛津大学、百度研究院以及港中文的团队,主要解决的是立体匹配网络的直接跨域泛化问题。文章提出了一个域不变的立体匹配网络,即Domain-invariant Stereo Matching Netwoks, 简称DSM-Net 。

关于立体匹配的跨域泛化,相对来说研究的比较少,但是并不代表泛化不重要,相反,对于在真实数据和GT较难获取的情况下,合成数据的模型泛化显得格外重要。

先看下论文结果:

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-HpYjb7OB-1640186213955)(/media/ylj/YELEJIA/yitaidao_wiki/DSM: Domain-invariant Stereo Matching Networks.assets/image-20211124134157647.png)]

显然,就结果来说,DSMNet相对于GANet来说,合成数据集上的模型,直接测试真实的KITTI数据集,有着惊艳的效果,从DSMNet的特征图上也可以看出,相对于GANet有着更少的噪点,这说明DSM网络所提取得到的特征并没有强烈的受着训练数据的影响。

模型

简单的问题场景设定:我们现在没办法去拿到真实场景的数据,不能够进行finetune或者重新训练,该怎么使用合成数据训练得到的模型?

往往,同样的匹配任务,对于传统方法来说,都是提取特征,构建代价空间,WTA的方式,为什么我这张影像的结果不错,那张就不行?经常是因为参数不合适,也因此,我们可以通过调整方法本身的参数,视差的搜索范围等等,去适应目标的立体影像对,使其得到一个还可以的结果。

然而,网络模型不是这样的,模型训练好了就是训练好了,再调整是很难的,那怎么办?一个可以选择的解决思路是,我们去考虑所有立体数据的共性。在网络前向推理的时候,针对的尽可能是数据的共性信息。那么问题就在于,如何去提取数据的共性信息,DSM给出了自己的解答,个人总结一下即,用DN替代BN,所谓的DN是Domain normalization,在接下来将会详细介绍,而BN则是batch normalization。

DSM整体的模型结构如下:

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-nS8ZB787-1640186213956)(/media/ylj/YELEJIA/yitaidao_wiki/DSM: Domain-invariant Stereo Matching Networks.assets/image-20211124163216292.png)]

其中,合成数据用来训练,真实数据作为泛化目标数据集,用于测试。DSM使用GANet作为baseline,在其基础上,为所有的特征提取模块以及引导模块中的卷积层都挂上DN层,此外,还挂上了该文提出的“非局部代价聚集“。接下来将对DN以及“非局部代价聚集”进行详细的讨论与介绍。

域归一化:Domain Normalization(DN)

本节将介绍BN、IN与DN。

我们已经很清楚BN了,几乎是构建立体匹配网络的必备选项,然而尽管说,BN能够有效地减少internal covariate shift,但是他还是跟训练数据的域特征有着强相关,对于跨域的泛化来说,并不是一件好事情。

BN的数学表达为:
x ^ i = 1 σ ( x i − μ i ) \hat{x}_{i}=\frac{1}{\sigma}\left(x_{i}-\mu_{i}\right) x^i=σ1(xiμi)
其中, x x x以及 x ^ \hat{x} x^分别表示输入以及输出的特征, i i i则表示某个tensor中的元素的标号, μ i \mu_{i} μi σ i \sigma_{i} σi分别表示逐通道的均值和方差,计算方式如下:
μ i = 1 m ∑ k ∈ S i x k , σ i = 1 m ∑ k ∈ S i ( x k − μ i ) 2 + ε \mu_{i}=\frac{1}{m} \sum_{k \in S_{i}} x_{k}, \quad \sigma_{i}=\sqrt{\frac{1}{m} \sum_{k \in S_{i}}\left(x_{k}-\mu_{i}\right)^{2}+\varepsilon} μi=m1kSixk,σi=m1kSi(xkμi)2+ε
其中, S i S_i Si表示同一个通道中的元素的标号,而 ε \varepsilon ε则是一个小常数,目的是避免除0的操作。注意到, S i S_i Si是一个通道中的元素标号,也就是说,BN层没有跨通道的能力。实际上,BN相当于一个scale层。BN层在训练的时候,会将一个batch内的数据分布转换为正态分布(即强行将输入值的分布变为:均值为0,方差为1)。在训练过程中,均值 μ \mu μ以及方差 σ \sigma σ是每一个batch的均值,且其叠加起来的值将在推理时被应用。但是,由于不同数据集往往由于影像色度,对比度以及照明等情况的不一致, μ \mu μ以及 σ \sigma σ并不是可以简单推广到其他数据集上的,这也是导致了泛化差的重要原因之一。

至于IN(Instance normalization),确实在某种角度上来说,克服了对于数据集的依赖,因为它对每一个数据进行归一化,对于IN来说, S i S_i Si则变成了单一的样本,与batch内的其他影像没有关系,理论上来说,IN是域不变的,并且由于其跨空间维度进行归一化,所以其实是减少了影像级别的目视效果的变化的。尽管如此,对于立体匹配任务来说,我们在寻找同名点的时候,其实是在像素级别上的,因此我们会更关注每个像素的多个通道的特征信息,进而,我们潜在的提出了这样的假设:如果对于每一个像素来说,其不同通道的特征满足了同样的分布,是将有利于泛化的,反之,所有会导致这个特征归一化特征以及尺度变化的影响因素都会进一步地影响匹配代价以及相似性的测度计算。

因此,文章提出了所谓的domain normalization(DN),类似于IN,DN首先对对空间维度的特征进行归一化,以避免不同数据集在图像尺度上的显著差别,同时,在通道维度上也进行归一化,目的是加强局部特征的不变性。

具体来说,DN的数学表达为:
x ^ i ′ = x ^ i ∑ i ∈ S i ′ ∣ x ^ i ∣ 2 + ε \hat{x}_{i}^{\prime}=\frac{\hat{x}_{i}}{\sqrt{\sum_{i \in S_{i}^{\prime}\left|\hat{x}_{i}\right|^{2}+\varepsilon}}} x^i=iSix^i2+ε x^i
其中, S i ′ S_i' Si表示某一个像素在通道维度上的下标表达,也就是说,假设通道数一共有 C C C个,那么, i i i的范围就是从0到 C − 1 C-1 C1

BN,IN与DN三者的示意图如下图所示:

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-Pp8oF1JA-1640186213956)(/media/ylj/YELEJIA/yitaidao_wiki/DSM: Domain-invariant Stereo Matching Networks.assets/image-20211124170728545.png)]

再进一步地,关于DN与IN的差别如下图所示,对于左右两个坐标轴内部来说,从左到右的五个柱状分别为合成数据集Sceneflow,KITTI,Middlebury,CityScapes以及ETH3D数据的输出特征的分布表达。可以看到,IN只是减少了影像级别的差别,而DN则是从像素级别出发,对通道维度的特征进行归一化。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-1RddKooy-1640186213957)(/media/ylj/YELEJIA/yitaidao_wiki/DSM: Domain-invariant Stereo Matching Networks.assets/image-20211124174825081.png)]

非局部代价聚集: Non-local Aggregation(NLF)

提出了一个基于图的非局部滤波器,用于减少网络对影像局部的语义信息的依赖。

设计这个非局部代价聚集的灵感来源于传统方法中的非局部代价聚集。

对于一个2D的影像 I I I而言,我们可以为影像上的每一个像素构建8邻域的链接关系。为了避免图上的循环情况的发生,且为了得到整张图的快速信息狙击,我们将整张图分为两个相反的有向图,分别命名为 G 1 G_1 G1以及 G 2 G_2 G2,如下图中的 ( b ) (b) (b)和©所示:

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-9INIecsL-1640186213957)(DSM: Domain-invariant Stereo Matching Networks.assets/image-20211125154051312.png)]

我们为属于图 G G G中的每一条边 e e e,赋予特定的权重 w e w_e we,具体来说,权重的计算方式为:
ω e ( q , p ) = x p T x q ∥ x p ∥ 2 ⋅ ∥ x q ∥ 2 \omega_{e}(\mathbf{q}, \mathbf{p})=\frac{\mathbf{x}_{\mathbf{p}}^{T} \mathbf{x}_{\mathbf{q}}}{\left\|\mathbf{x}_{\mathbf{p}}\right\|_{2} \cdot\left\|\mathbf{x}_{\mathbf{q}}\right\|_{2}} ωe(q,p)=xp2xq2xpTxq
其中的 x q \mathbf{x}_{\mathbf{q}} xq以及 x p \mathbf{x}_{\mathbf{p}} xp表示两个结点的特征向量,进而,就可以使用 ω e ( q , p ) \omega_{e}(\mathbf{q}, \mathbf{p}) ωe(q,p)表示两个像素的相似性。此外,为了训练的鲁棒性以及避免极值的出现,需要进一步的对权重进行归一化,即:
∑ q ∈ N p ω e ( q , p ) = 1 \sum_{\mathbf{q} \in N_{\mathbf{p}}} \omega_{e(\mathbf{q}, \mathbf{p})}=1 qNpωe(q,p)=1
其中的 N p N_p Np代表着像素 p p p的邻域,也包括像素 p p p本身,但是需要注意,这里的边都是有向的,也就是说, N p N_p Np内的像素 q q q的边必须是指向像素 p p p

为每一个结点 p p p赋予其特定的特征向量 C ( p ) C(p) C(p)。我们允许结点 p p p自己向自己传递信息,即 w e ( p , p ) w_e(p,p) we(p,p)

对于图 G i ( i = 0 , 1 ) G_i(i=0,1) Gi(i=0,1)来说,非局部滤波器的数学表达如下:
C i A ( p ) = ∑ q ∈ G i W ( q , p ) ⋅ C ( q ) ∑ q ∈ G i W ( q , p ) W ( q , p ) = ∑ l q , p ∈ G i ∏ e ∈ l q , p ω e \begin{aligned} C_{i}^{A}(\mathbf{p}) &=\frac{\sum_{\mathbf{q} \in G_{i}} W(\mathbf{q}, \mathbf{p}) \cdot C(\mathbf{q})}{\sum_{\mathbf{q} \in G_{i}} W(\mathbf{q}, \mathbf{p})} \\ W(\mathbf{q}, \mathbf{p}) &=\sum_{l_{\mathbf{q}, \mathbf{p}} \in G_{i}} \prod_{e \in l_{\mathbf{q}, \mathbf{p}}} \omega_{e} \end{aligned} CiA(p)W(q,p)=qGiW(q,p)qGiW(q,p)C(q)=lq,pGielq,pωe
其中, l q , p l_{q,p} lq,p表示从结点 q q q p p p的一条可行的路径。此外,这里考虑了所有可行的路径,进而 W ( q , p ) W(q,p) W(q,p)则是所有可行路径的权重的加和,而这样设计所考虑的物理意义是,表示了能够从结点 p p p扩散到结点 q q q的所有信息。

省去推导,可以直接将非局部滤波进行如下的数学表达:
C i A ( p ) = ∑ q ∈ G i W ( q , p ) ⋅ C ( q ) W ( q , p ) = ∑ l q , p ∈ G i ∏ e ∈ l q , p ω e \begin{aligned} C_{i}^{A}(\mathbf{p}) &=\sum_{\mathbf{q} \in G_{i}} W(\mathbf{q}, \mathbf{p}) \cdot C(\mathbf{q}) \\ W(\mathbf{q}, \mathbf{p}) &=\sum_{l_{\mathbf{q}, \mathbf{p}} \in G_{i}} \prod_{e \in l_{\mathbf{q}, \mathbf{p}}} \omega_{e} \end{aligned} CiA(p)W(q,p)=qGiW(q,p)C(q)=lq,pGielq,pωe
而这样的过程,我们可以借鉴SGM多路径代价聚合近似二维全局的方式,将非局部滤波进行线性实现,该线性实现的数学表达以及反向传播推荐读者去阅读原论文,在此不做赘述。此外,论文还给出了与其他类似的方法的对比与讨论,同样推荐感兴趣的读者去阅读原文。

实验及结果

消融实验

探究了不同网络架构,不同归一化策略,不同NLF层数对网络结果的影响,下表则为消融实验的结果,可以看到,当NLF以及DN拉满的时候(即Feature中带7个NLF,cost volume中带2个),在middlebury以及kitti上都有着很大的精度提升,在都有DN的情况下,NLF个数越多,效果越好。而如果仅仅是将BN改成DN,效果提升的幅度并没有令人惊艳的占到绝对主体,就KITTI数据集上的效果来看,DN提高了1.5%的精度,NLF提高了1.4%的精度。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-rFfOgCC3-1640186213958)(DSM: Domain-invariant Stereo Matching Networks.assets/image-20211125165618857.png)]

而下表则为了验证DN相比起其他BN、IN等归一化方式,是否真的有用,具体来说,仅仅替换了DSMNet中归一化的方式进行测试,结果看来确实DN相比起BN以及IN,甚至流行的attention,都有着更好的泛化能力,究其原因,或为DN规范了特征向量的分布,并且去除了跨域影像的影像级别以及局部分辨率上的一些区别。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-KPOqQscC-1640186213958)(DSM: Domain-invariant Stereo Matching Networks.assets/image-20211125165340203.png)]

泛化实验

文章的泛化实验设计为:对几个比较流行的网络和DSMNet都只在合成数据上进行训练,而在四个真实场景上进行测试,下表为在KITTI数据集上的表现,结果表明DSM比那些在KITTI域上进行训练的无监督的或者自监督的模型结果指标都要漂亮,甚至比一些有监督的网络的结果还要好。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-8UBXQX3B-1640186213958)(/media/ylj/YELEJIA/yitaidao_wiki/DSM: Domain-invariant Stereo Matching Networks.assets/image-20211124164449272.png)]

定性的结果见下图:

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-BBYHsKDE-1640186213959)(DSM: Domain-invariant Stereo Matching Networks.assets/image-20211130152218940.png)]

耗时实验

毕竟这篇文章致力解决的是泛化问题,对实时性似乎没有更多的讨论,只是说提出的非局部滤波是一个可以高效实现的线性过程,相比起baseline而言,增加的时间不会超过5%。而对于DN以及非局部滤波来说,更是没有引入其他额外的参数。

总结

DSMNet致力于解决立体匹配网络的跨域泛化问题,其提出的DN以及NLF在泛化实验中的表现证明了其能力。

参考文献

GANet: Feihu Zhang, Victor Prisacariu, Ruigang Yang, and Philip HS Torr. Ga-net: Guided aggregation net for end-toend stereo matching. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pages 185–194, 2019.

PSMNet:Jia-Ren Chang and Yong-Sheng Chen. Pyramid stereo matching network. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pages 5410–5418, 2018.

HD3: Zhichao Yin, Trevor Darrell, and Fisher Yu. Hierarchical discrete distribution decomposition for match density estimation. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pages 6044–6053, 2019.

MADNet: Alessio Tonioni, Fabio Tosi, Matteo Poggi, Stefano Mattoccia, and Luigi Di Stefano. Real-time self-adaptive deep stereo. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pages 195–204, 2019.

Adaptive Norm: Hyeonseob Nam and Hyo-Eun Kim. Batch-instance normalization for adaptively style-invariant neural networks. In Advances in Neural Information Processing Systems (NIPS), pages 2558–2567, 2018.

Attention: Zilong Huang, Xinggang Wang, Lichao Huang, Chang Huang, Yunchao Wei, and Wenyu Liu. Ccnet: Criss-cross attention for semantic segmentation. In Proceedings of the IEEE International Conference on Computer Vision (ICCV), pages 603–612, 2019.

这篇关于DSM: Domain-invariant Stereo Matching Networks 域不变的立体匹配网络的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/344791

相关文章

SSID究竟是什么? WiFi网络名称及工作方式解析

《SSID究竟是什么?WiFi网络名称及工作方式解析》SID可以看作是无线网络的名称,类似于有线网络中的网络名称或者路由器的名称,在无线网络中,设备通过SSID来识别和连接到特定的无线网络... 当提到 Wi-Fi 网络时,就避不开「SSID」这个术语。简单来说,SSID 就是 Wi-Fi 网络的名称。比如

Java实现任务管理器性能网络监控数据的方法详解

《Java实现任务管理器性能网络监控数据的方法详解》在现代操作系统中,任务管理器是一个非常重要的工具,用于监控和管理计算机的运行状态,包括CPU使用率、内存占用等,对于开发者和系统管理员来说,了解这些... 目录引言一、背景知识二、准备工作1. Maven依赖2. Gradle依赖三、代码实现四、代码详解五

Linux 网络编程 --- 应用层

一、自定义协议和序列化反序列化 代码: 序列化反序列化实现网络版本计算器 二、HTTP协议 1、谈两个简单的预备知识 https://www.baidu.com/ --- 域名 --- 域名解析 --- IP地址 http的端口号为80端口,https的端口号为443 url为统一资源定位符。CSDNhttps://mp.csdn.net/mp_blog/creation/editor

ASIO网络调试助手之一:简介

多年前,写过几篇《Boost.Asio C++网络编程》的学习文章,一直没机会实践。最近项目中用到了Asio,于是抽空写了个网络调试助手。 开发环境: Win10 Qt5.12.6 + Asio(standalone) + spdlog 支持协议: UDP + TCP Client + TCP Server 独立的Asio(http://www.think-async.com)只包含了头文件,不依

poj 3181 网络流,建图。

题意: 农夫约翰为他的牛准备了F种食物和D种饮料。 每头牛都有各自喜欢的食物和饮料,而每种食物和饮料都只能分配给一头牛。 问最多能有多少头牛可以同时得到喜欢的食物和饮料。 解析: 由于要同时得到喜欢的食物和饮料,所以网络流建图的时候要把牛拆点了。 如下建图: s -> 食物 -> 牛1 -> 牛2 -> 饮料 -> t 所以分配一下点: s  =  0, 牛1= 1~

poj 3068 有流量限制的最小费用网络流

题意: m条有向边连接了n个仓库,每条边都有一定费用。 将两种危险品从0运到n-1,除了起点和终点外,危险品不能放在一起,也不能走相同的路径。 求最小的费用是多少。 解析: 抽象出一个源点s一个汇点t,源点与0相连,费用为0,容量为2。 汇点与n - 1相连,费用为0,容量为2。 每条边之间也相连,费用为每条边的费用,容量为1。 建图完毕之后,求一条流量为2的最小费用流就行了

poj 2112 网络流+二分

题意: k台挤奶机,c头牛,每台挤奶机可以挤m头牛。 现在给出每只牛到挤奶机的距离矩阵,求最小化牛的最大路程。 解析: 最大值最小化,最小值最大化,用二分来做。 先求出两点之间的最短距离。 然后二分匹配牛到挤奶机的最大路程,匹配中的判断是在这个最大路程下,是否牛的数量达到c只。 如何求牛的数量呢,用网络流来做。 从源点到牛引一条容量为1的边,然后挤奶机到汇点引一条容量为m的边

配置InfiniBand (IB) 和 RDMA over Converged Ethernet (RoCE) 网络

配置InfiniBand (IB) 和 RDMA over Converged Ethernet (RoCE) 网络 服务器端配置 在服务器端,你需要确保安装了必要的驱动程序和软件包,并且正确配置了网络接口。 安装 OFED 首先,安装 Open Fabrics Enterprise Distribution (OFED),它包含了 InfiniBand 所需的驱动程序和库。 sudo

【机器学习】高斯网络的基本概念和应用领域

引言 高斯网络(Gaussian Network)通常指的是一个概率图模型,其中所有的随机变量(或节点)都遵循高斯分布 文章目录 引言一、高斯网络(Gaussian Network)1.1 高斯过程(Gaussian Process)1.2 高斯混合模型(Gaussian Mixture Model)1.3 应用1.4 总结 二、高斯网络的应用2.1 机器学习2.2 统计学2.3

网络学习-eNSP配置NAT

NAT实现内网和外网互通 #给路由器接口设置IP地址模拟实验环境<Huawei>system-viewEnter system view, return user view with Ctrl+Z.[Huawei]undo info-center enableInfo: Information center is disabled.[Huawei]interface gigabit