本文主要是介绍Deep Sort目标跟踪论文梗概SIMPLE ONLINE AND REALTIME TRACKING WITH A DEEP ASSOCIATION METRIC,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
DeepSort是跟踪算法中非常好用的一个,速度快,准度高。
本文为CVPR2017的跟踪算法。
论文:https://arxiv.org/pdf/1703.07402.pdf
代码:https://github.com/nwojke/deep_sort
摘要
简单在线和实时跟踪Simple Online and Realtime Tracking (SORT)是一种注重简单、高效的多目标跟踪的实用算法。本文中,我们集成了外观信息来改善SORT的性能。由于这种扩展,我们可以在更长时间的遮挡之后仍然跟踪到目标,更有效的减少了标识开关的数量。
在原始框架的精神指导下,我们通过将大量的复杂计算放到一个离线的预训练过的模型中,在这个模型中我们学习了大规模的行人重识别数据集上的深度关联的度量(deep association metric)。在在线应用的场景中,我们使用可视化外观空间中的最近邻查询来建立跟踪的度量。实验中,我们的拓展减少了45%的身份交换机的数量(identity switch),达到可高帧率下的整体有竞争性的性能。
一、简介
由于最近目标检测的进步,检测后跟踪已经变成多目标跟踪的主要模式。在这个范式中,目标轨迹通常是一次输入整个视频找到全局最优问题。例如:流网络公式和概率图模型,已经成为这种类型的主流框架。
但是,由于批处理的问题,这些模型不能用在在线场景,在线场景要求每步都要有目标ID可用。更传统的方法是多假设跟踪Multiple
Hypothesis Tracking MHT和联合概率数据关联滤波器Joint Probabilistic Data Association Filter (JPDAF) 。这些方法在逐帧的基础上执行数据关联。
在JPDAF中,单个状态假设是通过他们的关联可能性对单个测量值进行加权而产生的。
在MHT中,所有的可能的假设都被跟踪,但是剪枝方案必须应用于计算的可跟踪性。
最近,这两种方法在tracking-by-detection跟踪后场景的场景中都被有再次被使用,并且也显示除了很好的结果。然而,这都增加了计算和实现的复杂性。
我们的简单在线和实时跟踪SORT是一个更为简单的框架,使用匈牙利方法在图像空间中执行卡尔曼滤波和逐帧数据关联,使用关联度量(association metric)测量边界框重叠。
这种简单的方法在高帧率中达到了很好的效果。在MOT challenge数据集中,使用最好的行人检测器,在标准检测的平均排名中,SORT方法好于MHT。这不仅强调了检测器性能对总体跟踪性能的影响,也是实践角度中重要的见解。(就是说实践中也很有洞察力,性能很好)
虽然在跟踪准确度和精度(tracking precision and accuracy)上表现很好,但是sort方法返回的身份交换数量很高(high number of identity switches)。这是因为,所使用的的关联度量仅仅在状态估计不确定性(state esti-
mation uncertainty)比较低时才准确。因此,sort在通过遮挡时是有缺陷的,因为他们通常出现在摄像头前景中。我们通过将关联度量替换为一个更合理的度量,结合运动和外观信息来克服这个问题。( We overcome this issue by re-placing the association metric with a more informed metric that combines motion and appearance information.)
特别的,我们应用了CNN,在一个大规模的行人重识别数据集中进行训练。通过集成这个网络,提高了对遗漏和遮挡的鲁邦性,同时使得系统更容易实现、更搞笑、更适合在线场景。代码和预训练模型已公开,以促进实验研究和开发工作。
Sort与 DEEP ASSOCIATION METRIC
sort与的深度关联矩阵。我们采用一种约定的单一假设的跟踪方法,采用递归卡尔曼滤波和逐帧数据关联。
2.1 Track Handling and State Estimation
跟踪处理和卡尔曼滤波框架与论文[12]中公式基本相同。我们假定一个通用跟踪场景,其中摄像头是没有校准的( uncalibrated),也没有可用的自我运行信息。虽然这对过滤框架构成了挑战,但是它是最近的多目标给跟踪的主流配置。因此,我们在跟踪场景是定义在8维的状态空间,包含边界框的中心位置u,v,长宽比γ,高度h,及各自的速度在图像中的坐标。使用标准卡尔曼滤波器与匀速运动和线性观测模型( linear observation model),吧边界坐标(u,v,γ,h)作为直接观察对象的状态。
对每个轨迹k ,我们计算上一次成功测量关联到ak后的帧数,这个计数器在卡尔曼滤波器预测是递增,一旦当检测与测量相关联上时重置为0。
超过预设的最大年纪(age) Amax的轨迹被认为已经离开场景,删除它。
对新目标出现的判断为:**某次检测结果的目标始终与缓存中的追踪器进行关联,则认为是新目标。这些新目标在前三帧时被分类为暂定。在此期间,我们期望在每个时间步骤中都有一个成功的度量关联( measurement association)**三帧中没有关联到度量(measurement)的跟踪被认为是虚警,被删除。
2.2 Assignment Problem
匹配相关。解决预测的卡尔曼状态与新到达的测量之间的关联,传统方法是建立一个可以使用匈牙利算法解决的分配问题。在这个问题的表述中,我们通过结合两个适当的指标来结合外观信息和运动信息。
为了合并运动信息,我们使用预测的卡尔曼状态和新到达的测量值之间的马氏距离(的平方)。
(马氏距离是协方差距离,将不同尺度上的差距归一化了)
其中,我们用(yi Si)表示第i个轨迹分部到测量空间的投影。dj表示第j个检测到的边界框。马氏距离通过检测平均轨迹与检测之间的标准差来考虑状态的不确定性。此外,使用这个指标可以排除不可能关联,通过以逆χ2分布计算得到的95%置信区间对马氏距离进行阈值化处理。如果通道i与通道j之间允许关联,则指示器的值为1
对于我们的四维测量空间,相应的马氏距离阈值t1 = 9.4877
虽然马氏距离当运动不确定性比较低时是一个合适的测量矩阵,在我们的图像空间问题公式化的预测状态分布时,从卡尔曼滤波器框架预测的值中只粗略估计目标的定位。(While the Mahalanobis distance is a suitable association metric when motion uncertainty is low, in our image-space problem formulation the predicted state distribution obtained from the Kalman filtering framework provides only a rough estimate of the object location. )
特别的,不确定的相机运动可以在图像平面上引入快速位移,使得马氏距离可以有一个非确定的矩阵来跟踪可以穿越一些遮挡。因此,我们用第二个指标来进行指标分配。对于每一个检测框dj , 我们计算外观描述器rj , 当||rj|| = 1 。另外,我们为每个跟踪轨迹k 保持最近的100个相关外表检测器。然后,我们在第i个跟踪轨迹和j个检测框中使用第二个矩阵描述最小的余弦距离。
再次,我们引入一个二进制变量来指示根据该指标是否允许关联
我们发现,寻找一个合适的阈值,来对这个指标进行单独的训练。在实际中,我们应用预训练CNN来计算外观描述包围框。这个结构在2.4节中描述
综合来说,通过结合使用不同的方面,两个矩阵可以相互补充。一方面,马氏距离提供了短期预测过程中,目标定位的可能性的相关信息。另一方面,当运动较为不明显时,余弦距离会考虑了局部外观信息,用于用于修复长时间之后的遮挡。为了建立关联问题,我们使用加权来进行两个矩阵的权值之和。
我们称这种在两个门限之内的值为可接受的关联。
匹配级联:
在合并关联的cost时,可以用超参数λ来控制,在我们试验中,λ=0时是一个合理的选择,在摄像头有大量的运行的时候。在这种设定中,在关联cost项中,只使用外观信息。然而,马氏距离的门限仍然被用在那些被忽视的 被卡尔曼滤波器认为可能存在目标的位置。
2.3 匹配级联
当一个对象被挡住更长一段时间,随后卡尔曼滤波器预测增加关于对象位置的不确定性。
因此,状态空间的概率质量分布和观察可能性变得那么苍白。
凭直觉,通过增加measurement-to-track距离 融合指标应该计算这个概率质量的分布。
反常识的,当两个跟踪争夺相同的检测,Mahalanobis距离支持更大的不确定性,因为它有效地减少了在任何对于预计跟踪均值的检测的标准偏差的距离。
这是一个不受欢迎的行为,因为它会导致跟踪破碎和不稳定的跟踪( increased track fragmentations and unstable tracks)。
因此,我们引入一个匹配级联(a matching cascade),为频繁出现的那个对象增加优先权,即在关联可能下的概率分布。
匹配级联流程图中,这个级联为age较小的轨迹提供更高优先权,即最近见过的跟踪。
Tips:
长时间遮挡后,卡尔曼滤波器不确定性大大增加,状态空间的可观察性降低。
两个追踪器竞争同一个检测结果时,遮挡时间较长的轨迹往往马氏距离更小,使得结果更容易关联,但是这个反常理。协方差矩阵是一个正态分布,连续的预测不更新会导致正态分布方差越来越大,那么离均值欧氏距离远的点,可能和之前离均值近的点马氏距离相同。因而使用级联匹配使得频繁出现的目标有更高优先权、。
流程图中,核心思想是从小到大对消失时间相同的轨迹进行匹配保证最近出现的目标赋予最大优先权。
如Listing1中算法描述,算法的最后使用sort中IOU距离来解决局部遮挡问题,通过计算unmatched tracks(只有前一帧是unmatched的,即age n=1) 和 unmatched detection的IOU distance.
2.4 deep apperance descriptor
train on 1,100,000 images of 1,261 pedestrians
CNN有 six residual blocks,global feauture map of dimensionality 128 is computed in
dense layer 10.
L2正则化,网络一共 2,800,864个参数,前向32个bounding boxes在1050上需要30ms,适合用于跟踪
3实验
MOT16数据集为Benchmark,λ = 0 and A max = 30 frames. confidence score of 0.3
评判指标
1Multi-object tracking accuracy (MOTA): 统计所有跟踪acc,依据false positives , false negatives 和identity选择
2 Multi-object tracking precision (MOTP):统计所有跟踪bounding box与ground-truth质检的overlap
3 Mostly tracked (MT): 在每个跟踪样本声明周期中跟对80%的数量的百分比
4 Mostly lost(ML): 目标生命周期中跟对ground-truth的数量比
5 Identity switches (ID):对一个ground-truth改变返回identity的数量
6Fragmentation (FM):被丢失的detection所打断的跟踪数量
上2张图为转载的图片
作者论文结论:
作者使用《Poi:Multiple object tracking with high performance detection and appearance feature》文章训练的高性能faster rcnn模型进行检测。检测的置信度阈值设置为0.3。
和sort对比,好处是:
- 减少了45%的ID switch;
- 结合了深度外观信息,对遮挡目标的追踪效果大大提升;
- FP的升高很多,文章中提出这主要是由于静态场景中detection的错误以及过长的允许丢失的track age所导致的(相对于SORT只用相邻帧进行匹配来说,Deep SORT允许高达30帧的丢失,而Kalman的等速运动模型没有改变,这主要造成了FP的升高)。
- 20Hz,依旧实用;
- 达到了state-of-art online tracking的效果。
代码中流程图
这篇关于Deep Sort目标跟踪论文梗概SIMPLE ONLINE AND REALTIME TRACKING WITH A DEEP ASSOCIATION METRIC的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!