本文主要是介绍【Siam-BM】论文阅读笔记,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
Towards a Better Match in Siamese Network Based Visual Object Tracker
论文地址 代码不开源
写在前面
这是SASiam的作者18年另一个工作,在VOT2018公测上也占的一席之地,只不过好像因为什么奇奇怪怪原因没有终测,但是它还是不失为一个real-time精度高的tracker,比SASiam精度也有了提升,主要是处理了旋转和提出了一个空间的mask来处理,代码不开源。
Motivation
- 虽然现在的基于深度学习的tracker已经获得比较好的效果,但是他们不能解决大的物体旋转;
- 当背景里有很强的语义的distractor时,模型很容易漂移;
- 在跟踪过程中添加一些背景信息是有用的,但是同时背景信息太多或者是有distractor时,只会损坏tracker的精确度。
Contribution
- 在SASiam上做了改进,添加了旋转角度模块来预测目标的旋转;
- 提出了选择性添加空间的mask到feature map上(因为当目标bbox不是正方形时,bbox会包含很多背景,所以加了mask可以有效抑制这种情况);
- 提出了一个简单的模板更新机制。
Algorithm
总体的网络结果如上图,其实也就是一个Siamese的结构,只不过这里用的是SASiam的结构,一共有四个branch,Siamese tracker我就不赘述了,没了解过的建议可以先去了解一下~这里主要讲一下文中提出的几个操作。
1、Angle Estimation
目标角度的变化理论上可以像SiamFC那样枚举解决,就是枚举几个几个常见的角度变化,虽然没办法涵盖所有,但是能在一定程度上提精度啊。然后文章中又提到,若是又加尺度变化又加角度变化,那最后的candidate patch就会变得很多,网络速度就变得很慢了。为了保证速度和精度,他们就把两种变化放在一起做了,(虽然论文中解释了为什么压缩了之后精度不变,但我还是觉得样本少了精度肯定会变啊)如下图:
每个patch都有一个标签 ( s , a ) (s,a) (s,a) 其中s 表示尺度, s = 1 s=1 s=1 表示尺度不变, a = 0 a =0 a=0 表示角度不变,所以当有三个尺度三个角度时,只需要用5个candidate patch就可以了。从上图可以看出,当candidate patch的方向和target一样时,响应度最高。(我的理解就是文章模拟的是要不然尺度变的贡献比较大,要不然就是旋转贡献比较大,其实就是加了旋转的项,所以精度会比SiamFC高)
2、 Spatial Mask
文章提到,若是ground truth是正方形的,那bbox比较好得包裹这个target,若是ground truth的长宽远大于1,则背景就很容易被包裹在这个框里面,这样就引入了更多的强语义的distractor。
基于以上的发现,文章就给feature map加mask了,这里文章沿用了SASiam那样,用两层的特征,但是去掉了其中的channel attention,说是那个attention没有这个mask的效果好。
以上是这样做的,当ground truth框的长宽比大于1.5时,就沿着短的那一边mask掉feature map,令feature map变成跟ground truth一样的长条状。
但是这么做大家可能会有疑问,我这两天领悟了一下,是因为只在模板分支做,所以沿着它这个bbox mask掉一部分,就不需要考虑后期变换的问题
3、template update
其实就是很早之前都在用的那种模型更新方式了:
这个公式大应该很熟悉了~
Experiment
文章的ablation实验感觉做的也挺充分的,具体可以参考论文。
总结
总的来说还是一个很好的tracker,感觉大家思维好活跃,我就只会盯死已经做了的东西,再接再厉把。
优点
- 又提出了一个可以做的点,除了尺度还有旋转,但是其实是因为训练数据不够,如果用data augmentation是不是也是一种方式,只是成本太高了;
- 用的mask替代了channel attention,也是一个新思路把。
Limitation(每次写这个东西都瑟瑟发抖)
- 模型更新方面其实可以再抠抠把;
- 然后mask也可以细化一下
这篇关于【Siam-BM】论文阅读笔记的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!