本文主要是介绍Online Multi-Object Tracking Using CNN-based Single Object Tracker with Spatial-Temporal Attention M,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
题目:Online Multi-Object Tracking Using CNN-based Single Object Tracker with Spatial-Temporal Attention Mechanism
来源:ICCV 2017
因为太喜欢这篇文章了,所以再简单的写一遍。
本文用带有时空注意力机制的基于CNN的单目标跟踪器实现在线的多目标跟踪。为了online MOT,提出了一种基于CNN的框架。简单的把SOT应用至MOT会遇到计算效率和因为遮挡产生的漂移的问题,在解决计算效率方面,采用的方法是共享CNN特征和使用ROI-pooling来获得每个目标的个体信息。介绍了一种时空注意力机制(STAM),控制由于遮挡和目标间的交互而产生的drift问题。目标的可见图被学习并且被用于推理空间注意力图(spatial attention map)。这个空间注意力图随后被用于给特征赋权重。此外,遮挡状态可以从可视图中估计出来。可视图在训练样本上用不同帧的不同的遮挡状态,通过赋予权重的loss来控制在线的更新过程。这能够被看作是使时间注意力机制(temporal attntion mechanism)。
直接将SOT用于MOT的问题。
第一,在SOT中,用于学习外观模型的训练样本是在线获得的,标签基于跟踪到的结果,外观模型用于在下一帧中寻找这个目标。当发生遮挡时,用于学习外观模型的可视化线索就变得不可信赖了,drift,最后丢失跟踪目标。在MOT中,遮挡现象更为严重。
第二,当有新目标出现时,需要把一个新的单目标跟踪器添加进MOT系统,当跟踪到的目标多的时候,计算代价很大。
在作者所提的框架中,每个目标有自己在线学习到的个体的跟踪器。贡献点:
第一,一种有效的基于CNN的在线MOT框架的提出。通过在多个目标间共享计算的方式,解决简单的将给予CNN的单目标跟踪器用于多目标的计算的复杂性。
第二,为解决drift问题,提出STAM。
目标的可视图被学习,并且被用于推理the spatial attention map。The spatial attention map被用于给特征赋予权重。
可视图可以用于指示目标的遮挡状态。遮挡状态是在在线更新的过程中需要考虑的一个重要线索。目标遮挡的越严重,就越不可能更新相对应的个体跟踪器。这个可以看成是时间注意力机制。这两大机制能够帮助tracker在drift方面更加robust。
在实验方面,工具使用的是matlab+caffe,用vgg-16的前10层卷积层作为共享CNN层。在线更新时,在当前帧,需要根据IoU的值划分正负样本。
注意:本方法纯粹是在线模式,不需要用任何用gt标注的训练数据,这点和MDP不同。此外,本文方法有最低的IDS,这说明能够很好的控制目标间的交互问题。
算法过程:
Step1.
在当前帧,每个目标的搜索区域使用运动模型获得。在这个搜索区域内,候选样本被采样。
Step2.
每个候选目标的特征通过ROI-pooling来进行提取,并且通过空间注意来赋权。然后使用二值分类器寻找最匹配的候选目标(最大的分数)。
Step3.
每个跟踪到的目标的可视图从相应的估计目标特征中推理得到,然后被用于推理时间机制。
Step4.
每个目标都有一个专门的CNN分支,这个分支通过当前帧和过去帧的训练样本的loss来进行更新。每个目标的运动模型根据相应的估计目标的状态来做更新。
Step5.
目标管理策略决定新目标的初始化和未跟踪目标的轨迹终结。
Step6.
如果帧不是最后一帧,go to step1 for the next frame 。
这篇关于Online Multi-Object Tracking Using CNN-based Single Object Tracker with Spatial-Temporal Attention M的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!