本文主要是介绍Multiple Object Tracking with High Performance Detection and Appearance Feature,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
来源:ECCV 2016
本文的跟踪器是POI(Person of Interest),在基于数据关联(data association)的MOT中detection和学习appearance feature是十分重要的。这篇论文使用了高性能的检测和基于深度学习的外观特征,做了大量的实验,结果很有说服力。
基本思路:在每帧上用检测器检测行人的位置,然后利用行人检测框的外观特征进行前后帧行人框的匹配,以便可以实现对行人的跟踪。
1、Detection
基于Faster R-CNN,采用每次随机采样的动态尺度的多尺度训练策略,在test时使用单一尺度和简单的模型,此外采用skip pooling和multi-region 策略把不同尺度和水平层次的特征联合起来。使用Faster R-CNN+skip pooling+multi-region这种策略,使得FP+FN之和下降。
2、Appearance Feature
外观特征是用来计算行人图像框之间的相似度的,使用相似度可以确定图像框集合之间的对应关系。外观特征的距离被用于计算数据关联(data association)的相似度分数(affinity value)。这个值在保持同一个人身份的时候是large,在不同身份的人的时候是small,在此,距离采用cosine distance。用与GoogLeNet相似的网络来提取外观特征。网络的input size是96*96,pool5 layer的kernel size是3*3。输出层是一个输出128维特征的全连接层。训练时用softmax和triplet loss,softmax loss保证appearance feature的判别能力,triplet loss保证了相同身份的外观特征的cosine距离是很小的。
相似度的计算:通过特征的cosine距离计算相似度,完全相关时为1,完全无关时为0。
3、Online Tracker
这个跟踪器很简单,使用KF进行motion prediction,使用Kuhn-Munkres算法进行数据关联(data association),即两个行人框集合之间的对应。
在相似矩阵构建方面,Kuhn-Munkres算法需要构建相似矩阵来进行两个集合间的对应,在相似矩阵中,元素即为两个集合(跟踪集和检测集)对应数据的相似度。
在数据关联(data association)方面,对应的是跟踪集和检测集。当使用Kuhn-Munkres时,因该算法倾向于寻找全局最优结果,所以当一些检测框缺失时可能有问题。而POI方法使用了两阶段方法解决了这一问题。
4、Offline Tracker
将整段视频作为输入,跟踪结果作为输出。输入是待处理视频及其每帧的检测框。输出是跟踪目标的轨迹。
Appearance Representation:建立affinity matrix用于dense neighbors search。需要计算三个affinities,即appearance,motion和smoothness affinity。在这3者中,appearance affinity是最重要的,所以用CNN的方法。
Big Target:对于big target而言,motion smoothness affinities是不可信赖的,这种unreliability是由于big targets的unsteady detection responses造成的。为解决这一挑战,引入了2个阈值。
启示:在MOT中,将Detection和Appearance Feature同时兼顾会取得state-of-the-art的效果。两者都很重要,不应该有所忽视。当然了,这两个方面是可以替换的,可以通过分别改进这两个方面来提高算法性能。在提高检测器的效果方面,可以像作者那样采用skip pooling和multi-region的策略,并且添加了这两个策略的Faster RCNN可以获得很好的效果。
Note: The method in this paper is not very good for offline tracker.
这篇关于Multiple Object Tracking with High Performance Detection and Appearance Feature的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!