Fast Online Object Tracking and Segmentation: A Unifying Approach


该方法称为SiamMask,通过二值分割任务生成损失,改进了全卷积Siamese 方法的离线训练步骤。
训练完成后,SiamMask 依靠init 单个bbox并在线运行,生成与类别无关的对象分割Mask,和旋转bbox。速度可达每秒55帧。


VOT的目的,在视频的第一帧中,给定任意感兴趣Object的位置,尽可能准确的预测它在所有后续帧中的位置。[48]对许多应用来说,视频流传输时的在线跟踪很重要。换句话讲,tracker 不应利用后续的帧来推断物体的当前位置[26]。
这个VOT基准所描绘的场景,代表了具有简单轴对齐(例如[56,52])或旋转[26,27] bbox 的目标对象。






作为跟踪系统的基本组成部分,离线训练的全卷积Siamese网络,可用于比较目标图像z和稍大是待搜索图像x,来获取响应 map。
z是以目标对象为中心裁剪的 w×h区域,x是以目标最新估计位置为中心裁切的较大区域。
这两个输入使用相同的CNN fθ处理,生成两个相互关联的特征图。


依靠RPN大大提高了SiamFC的性能(RPN)[46,14],RPN对估算目标位置可	输出可变宽高比的bbox。尤其在SiamRPN中,每个行对一组​​k个anchor box proposals和相应的对象/背景scores 进行编码。因此,SiamRPN 对 box predictions与分类scores可并行输出。两个输出分支已使用 smooth L1 和交叉熵损失训练过[28,第3.2节]。

3.2. SiamMask


Loss function


Mask representation

Two variants


Box generation

3.3. Implementation details

Network architecture




4.1.VOT 评估

Datasets and settings.

How much does the object representation matter?


Results on VOT-2018 and VOT-2016.


Datasets and settings.

Results on DAVIS and YouTube-VOS.


Network architecture

Multi-task training


Failure cases.



提出的 SiamMask 的两个变种,只需一个简单地box进行初始化,在线操作,实时运行,并且无需对测试序列进行任何调整。



A. Architectural details

Network backbone

Network heads

Mask refinement module

B. Further qualitative results

Different masks at different locations

Benchmark sequences

