本文主要是介绍【SiamDW(CVPR2019)oral】论文阅读Deeper and Wider Siamese Networks for Real-Time Visual Tracking,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
Deeper and Wider Siamese Networks for Real-Time Visual Tracking 论文地址 代码
写在前面
又是一篇关于SiamRPN的改进,加深了网络宽度与深度,优化特征提取过程,效果很好。
Motivation
- 深度的网络如ResNet在其他视觉任务上都有很好的表现,然而却不能移植到目标跟踪领域中;
- 网络太深导致最后特征的感受野太大,更加关注语义信息而缺少定位能力;
- 网络的padding操作会使得模型产生漂移;
- 网络的步长影响了网络定位的准确度,特别是在小物体上。
Contribution
- 他们系统分析了深度的网络影响跟踪的因素,并且提出了一个网络结构设计的guideline for Siamese tracker;
- 他们提出了一个no-padding-residual 单元来设计一个更加深和宽的Siamese tracker,实验表明他们的这种做法提升了网络的精度。
Algorithm
1、Analysis
在这个部分,他们详细分析了深度网络影响tracker的因素如下:
1.1 没有padding的网络的表现最好;
1.2 随着网络的步长变大,网络的表现越差,这个表明Siamese网络更多使用的四中层的特征,这些特征更加有利于目标的定位;
1.3 输出feature的感受野最好是模板的60%-80%左右。
2.Guideline
根据以上的分析,他们对网络的优化提出了一系列的准则:
2.1 Siamese的tracker应该使用小的网络步长;
2.2 输出特征的感受野应该根据模板图片的比例设定;
2.3 网络的步长、感受野和输出特征尺寸应该是一起设计的;
2.4 对于全卷积的Siamese网络,最好的方法应该是去掉padding操作。
Deeper and Wider Siamese Networks
这个部分,他们设计了一个新的模块,用来消除由于网络太深产生的漂移。
如上图,a和b是原始的残差单元和下采样单元,(a’)是本文提出的方法,在加和操作之后加了一个crop操作,这个操作可以移除被zero-padding影响的特征,因为padding一般处于feature map的边缘,所以这些影响很容易通过crop操作消除。
(b’)是对下采样操作的优化,因为这个操作会将网络的特征图变小,所以为了稍微控制一下,就把第二层的步长变成1,最后还是加了一个crop来消除padding的影响,最后用maxpooling来下采样特征图(这个maxpooling不懂干嘛的,可能是人家模型压缩领域常用的把)。d是将网络加宽,使得网络可以使用更多的信息。
值得注意的是,网络因为crop操作所以会使得feature map变小,文章就直接通过加大输入图像和减少网络步长来做
3、网络结构
以上CIResNet-43就是这篇文章提出的网络结构,(一脸懵逼的我)。
Experiment
在各大benchmark上效果都有提升
总结
感觉从ECCV UPDT出来后,商汤就开始研究ResNet了,怎么大家都没想到呢,果然人家就是有克服困难的意识和勇气啊。
优点
- 分析了更加深的网络为什么不能在Siamese tracker上有用,并且给出了解决方案,是一个比较通用的方法;
缺点
找不出缺点(哭),要说缺点,就是Inception和ResNet我不熟,所以觉得人家在网络结构那边写的模棱两可吧。
这篇关于【SiamDW(CVPR2019)oral】论文阅读Deeper and Wider Siamese Networks for Real-Time Visual Tracking的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!