本文主要是介绍【StruckSiam(ECCV2018)】论文阅读,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
Structured Siamese Network for Real-Time Visual Tracking 论文地址
这篇文章里面挺多地方不怎么懂,就记录一下,望指正。
Motivation
- 目前已有的很多tracker都只关注目标的整体模型表示而忽略了一些细节的信息,这样会使得tracker对一些blur,occlusion不够鲁棒;
- 然而一些基于局部模型的tracker都是将目标刚性地分为几块,这种分法使得每个部分只保留一部分语义信息。
Contribution
- 提出了一个局部模式检测方法,使得算法可以自动找到目标最具有判别力的部分;
- 利用差分从操作实现了message passing, 通过这个操作,使得算法可以同时学习到局部模式和模式之间的关系;
- 针对Siamese网络提出了一个新的匹配网络,可以实时高精度地跟踪。
Algorithm
与SiamFC相比,添加了三个模块:
- Local Pattern Detection(局部模式检测):这个模块使用了两个卷积层,一个1111,一个55,为的是最后得到的feature map的感受野小,也就是关注的是局部区域,最后输出256个通道,每个通道代表一个模式;
- Context Modeling:其实也就是那个message passing,主要是使用了CRF,然后将刚刚上面得到的东西去噪,平滑,得到每个局部模式之间的关系。给feature map中每个像素赋一个模式;
- Integration Module:由于不同的模式代表search region中不同的区域,如果是像SiamFC那样直接对比,会使得search region对变形很敏感,所以文章就把模板输出整合成114096的样子,每个通道都代表一个模式(和全局池化类似)。
Experiment
总结
优点
优点其实就是Contribution了,提出了一种新的思路,新的方法来做,效果也有提升。
缺点
我一直在疑问,若是都是基于局部区域 ,那就抛弃了语义信息的鲁棒性,对一些旋转,cluster会不会比较敏感,可能是因为文章还结合了每个模式之间的相关性,所以效果才会提升吧,总之看不懂。(代码不开源)
这篇关于【StruckSiam(ECCV2018)】论文阅读的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!