Deep Sort目标跟踪论文梗概SIMPLE ONLINE AND REALTIME TRACKING WITH A DEEP ASSOCIATION METRIC

本文主要是介绍Deep Sort目标跟踪论文梗概SIMPLE ONLINE AND REALTIME TRACKING WITH A DEEP ASSOCIATION METRIC,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

DeepSort是跟踪算法中非常好用的一个,速度快,准度高。
本文为CVPR2017的跟踪算法。
论文:https://arxiv.org/pdf/1703.07402.pdf
代码:https://github.com/nwojke/deep_sort

摘要

简单在线和实时跟踪Simple Online and Realtime Tracking (SORT)是一种注重简单、高效的多目标跟踪的实用算法。本文中,我们集成了外观信息来改善SORT的性能。由于这种扩展,我们可以在更长时间的遮挡之后仍然跟踪到目标,更有效的减少了标识开关的数量。
在原始框架的精神指导下,我们通过将大量的复杂计算放到一个离线的预训练过的模型中,在这个模型中我们学习了大规模的行人重识别数据集上的深度关联的度量(deep association metric)。在在线应用的场景中,我们使用可视化外观空间中的最近邻查询来建立跟踪的度量。实验中,我们的拓展减少了45%的身份交换机的数量(identity switch),达到可高帧率下的整体有竞争性的性能。

一、简介

由于最近目标检测的进步,检测后跟踪已经变成多目标跟踪的主要模式。在这个范式中,目标轨迹通常是一次输入整个视频找到全局最优问题。例如:流网络公式和概率图模型,已经成为这种类型的主流框架。
但是,由于批处理的问题,这些模型不能用在在线场景,在线场景要求每步都要有目标ID可用。更传统的方法是多假设跟踪Multiple
Hypothesis Tracking MHT和联合概率数据关联滤波器Joint Probabilistic Data Association Filter (JPDAF) 。这些方法在逐帧的基础上执行数据关联。
在JPDAF中,单个状态假设是通过他们的关联可能性对单个测量值进行加权而产生的。
在MHT中,所有的可能的假设都被跟踪,但是剪枝方案必须应用于计算的可跟踪性。
最近,这两种方法在tracking-by-detection跟踪后场景的场景中都被有再次被使用,并且也显示除了很好的结果。然而,这都增加了计算和实现的复杂性。
我们的简单在线和实时跟踪SORT是一个更为简单的框架,使用匈牙利方法在图像空间中执行卡尔曼滤波和逐帧数据关联,使用关联度量(association metric)测量边界框重叠。
这种简单的方法在高帧率中达到了很好的效果。在MOT challenge数据集中,使用最好的行人检测器,在标准检测的平均排名中,SORT方法好于MHT。这不仅强调了检测器性能对总体跟踪性能的影响,也是实践角度中重要的见解。(就是说实践中也很有洞察力,性能很好)
虽然在跟踪准确度和精度(tracking precision and accuracy)上表现很好,但是sort方法返回的身份交换数量很高(high number of identity switches)。这是因为,所使用的的关联度量仅仅在状态估计不确定性(state esti-
mation uncertainty)比较低时才准确。因此,sort在通过遮挡时是有缺陷的,因为他们通常出现在摄像头前景中。我们通过将关联度量替换为一个更合理的度量,结合运动和外观信息来克服这个问题。( We overcome this issue by re-placing the association metric with a more informed metric that combines motion and appearance information.)
特别的,我们应用了CNN,在一个大规模的行人重识别数据集中进行训练。通过集成这个网络,提高了对遗漏和遮挡的鲁邦性,同时使得系统更容易实现、更搞笑、更适合在线场景。代码和预训练模型已公开,以促进实验研究和开发工作。

Sort与 DEEP ASSOCIATION METRIC

sort与的深度关联矩阵。我们采用一种约定的单一假设的跟踪方法,采用递归卡尔曼滤波和逐帧数据关联。

2.1 Track Handling and State Estimation

跟踪处理和卡尔曼滤波框架与论文[12]中公式基本相同。我们假定一个通用跟踪场景,其中摄像头是没有校准的( uncalibrated),也没有可用的自我运行信息。虽然这对过滤框架构成了挑战,但是它是最近的多目标给跟踪的主流配置。因此,我们在跟踪场景是定义在8维的状态空间,包含边界框的中心位置u,v,长宽比γ,高度h,及各自的速度在图像中的坐标。使用标准卡尔曼滤波器与匀速运动和线性观测模型( linear observation model),吧边界坐标(u,v,γ,h)作为直接观察对象的状态。
对每个轨迹k ,我们计算上一次成功测量关联到ak后的帧数,这个计数器在卡尔曼滤波器预测是递增,一旦当检测与测量相关联上时重置为0。
超过预设的最大年纪(age) Amax的轨迹被认为已经离开场景,删除它。

对新目标出现的判断为:**某次检测结果的目标始终与缓存中的追踪器进行关联,则认为是新目标。这些新目标在前三帧时被分类为暂定。在此期间,我们期望在每个时间步骤中都有一个成功的度量关联( measurement association)**三帧中没有关联到度量(measurement)的跟踪被认为是虚警,被删除。

2.2 Assignment Problem

匹配相关。解决预测的卡尔曼状态新到达的测量之间的关联,传统方法是建立一个可以使用匈牙利算法解决的分配问题。在这个问题的表述中,我们通过结合两个适当的指标来结合外观信息和运动信息。
为了合并运动信息,我们使用预测的卡尔曼状态和新到达的测量值之间的马氏距离(的平方)。
(马氏距离是协方差距离,将不同尺度上的差距归一化了)
距离公式
其中,我们用(yi Si)表示第i个轨迹分部到测量空间的投影。dj表示第j个检测到的边界框。马氏距离通过检测平均轨迹与检测之间的标准差来考虑状态的不确定性。此外,使用这个指标可以排除不可能关联,通过以逆χ2分布计算得到的95%置信区间对马氏距离进行阈值化处理。如果通道i与通道j之间允许关联,则指示器的值为1
指示器
对于我们的四维测量空间,相应的马氏距离阈值t1 = 9.4877
虽然马氏距离当运动不确定性比较低时是一个合适的测量矩阵,在我们的图像空间问题公式化的预测状态分布时,从卡尔曼滤波器框架预测的值中只粗略估计目标的定位。(While the Mahalanobis distance is a suitable association metric when motion uncertainty is low, in our image-space problem formulation the predicted state distribution obtained from the Kalman filtering framework provides only a rough estimate of the object location. )
特别的,不确定的相机运动可以在图像平面上引入快速位移,使得马氏距离可以有一个非确定的矩阵来跟踪可以穿越一些遮挡。因此,我们用第二个指标来进行指标分配。对于每一个检测框dj , 我们计算外观描述器rj , 当||rj|| = 1 。另外,我们为每个跟踪轨迹k 保持最近的100个相关外表检测器。然后,我们在第i个跟踪轨迹和j个检测框中使用第二个矩阵描述最小的余弦距离。
最小距离
再次,我们引入一个二进制变量来指示根据该指标是否允许关联
关联判断条件
我们发现,寻找一个合适的阈值,来对这个指标进行单独的训练。在实际中,我们应用预训练CNN来计算外观描述包围框。这个结构在2.4节中描述
综合来说,通过结合使用不同的方面,两个矩阵可以相互补充。一方面,马氏距离提供了短期预测过程中,目标定位的可能性的相关信息。另一方面,当运动较为不明显时,余弦距离会考虑了局部外观信息,用于用于修复长时间之后的遮挡。为了建立关联问题,我们使用加权来进行两个矩阵的权值之和。




我们称这种在两个门限之内的值为可接受的关联。


匹配级联:
匹配级联流程
在合并关联的cost时,可以用超参数λ来控制,在我们试验中,λ=0时是一个合理的选择,在摄像头有大量的运行的时候。在这种设定中,在关联cost项中,只使用外观信息。然而,马氏距离的门限仍然被用在那些被忽视的 被卡尔曼滤波器认为可能存在目标的位置。

2.3 匹配级联

当一个对象被挡住更长一段时间,随后卡尔曼滤波器预测增加关于对象位置的不确定性。
因此,状态空间的概率质量分布和观察可能性变得那么苍白。
凭直觉,通过增加measurement-to-track距离 融合指标应该计算这个概率质量的分布。
反常识的,当两个跟踪争夺相同的检测,Mahalanobis距离支持更大的不确定性,因为它有效地减少了在任何对于预计跟踪均值的检测的标准偏差的距离
这是一个不受欢迎的行为,因为它会导致跟踪破碎和不稳定的跟踪( increased track fragmentations and unstable tracks)。
因此,我们引入一个匹配级联(a matching cascade),为频繁出现的那个对象增加优先权,即在关联可能下的概率分布。
匹配级联流程图中,这个级联为age较小的轨迹提供更高优先权,即最近见过的跟踪。

Tips:
长时间遮挡后,卡尔曼滤波器不确定性大大增加,状态空间的可观察性降低。
两个追踪器竞争同一个检测结果时,遮挡时间较长的轨迹往往马氏距离更小,使得结果更容易关联,但是这个反常理。协方差矩阵是一个正态分布,连续的预测不更新会导致正态分布方差越来越大,那么离均值欧氏距离远的点,可能和之前离均值近的点马氏距离相同。因而使用级联匹配使得频繁出现的目标有更高优先权、。
流程图中,核心思想是从小到大对消失时间相同的轨迹进行匹配保证最近出现的目标赋予最大优先权。
如Listing1中算法描述,算法的最后使用sort中IOU距离来解决局部遮挡问题,通过计算unmatched tracks(只有前一帧是unmatched的,即age n=1) 和 unmatched detection的IOU distance.

2.4 deep apperance descriptor

train on 1,100,000 images of 1,261 pedestrians
CNN特征提取网络
CNN有 six residual blocks,global feauture map of dimensionality 128 is computed in
dense layer 10.
L2正则化,网络一共 2,800,864个参数,前向32个bounding boxes在1050上需要30ms,适合用于跟踪

3实验

MOT16数据集为Benchmark,λ = 0 and A max = 30 frames. confidence score of 0.3
评判指标
1Multi-object tracking accuracy (MOTA): 统计所有跟踪acc,依据false positives , false negatives 和identity选择
2 Multi-object tracking precision (MOTP):统计所有跟踪bounding box与ground-truth质检的overlap
3 Mostly tracked (MT): 在每个跟踪样本声明周期中跟对80%的数量的百分比
4 Mostly lost(ML): 目标生命周期中跟对ground-truth的数量比
5 Identity switches (ID):对一个ground-truth改变返回identity的数量
6Fragmentation (FM):被丢失的detection所打断的跟踪数量
不同模型性能对比图

流程图1
流程图2
上2张图为转载的图片
作者论文结论:
作者使用《Poi:Multiple object tracking with high performance detection and appearance feature》文章训练的高性能faster rcnn模型进行检测。检测的置信度阈值设置为0.3。
和sort对比,好处是:

  • 减少了45%的ID switch;
  • 结合了深度外观信息,对遮挡目标的追踪效果大大提升;
  • FP的升高很多,文章中提出这主要是由于静态场景中detection的错误以及过长的允许丢失的track age所导致的(相对于SORT只用相邻帧进行匹配来说,Deep SORT允许高达30帧的丢失,而Kalman的等速运动模型没有改变,这主要造成了FP的升高)。
  • 20Hz,依旧实用;
  • 达到了state-of-art online tracking的效果。

代码中流程图
在这里插入图片描述

这篇关于Deep Sort目标跟踪论文梗概SIMPLE ONLINE AND REALTIME TRACKING WITH A DEEP ASSOCIATION METRIC的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1095191

相关文章

vue解决子组件样式覆盖问题scoped deep

《vue解决子组件样式覆盖问题scopeddeep》文章主要介绍了在Vue项目中处理全局样式和局部样式的方法,包括使用scoped属性和深度选择器(/deep/)来覆盖子组件的样式,作者建议所有组件... 目录前言scoped分析deep分析使用总结所有组件必须加scoped父组件覆盖子组件使用deep前言

如何用Java结合经纬度位置计算目标点的日出日落时间详解

《如何用Java结合经纬度位置计算目标点的日出日落时间详解》这篇文章主详细讲解了如何基于目标点的经纬度计算日出日落时间,提供了在线API和Java库两种计算方法,并通过实际案例展示了其应用,需要的朋友... 目录前言一、应用示例1、天安门升旗时间2、湖南省日出日落信息二、Java日出日落计算1、在线API2

usaco 1.3 Mixing Milk (结构体排序 qsort) and hdu 2020(sort)

到了这题学会了结构体排序 于是回去修改了 1.2 milking cows 的算法~ 结构体排序核心: 1.结构体定义 struct Milk{int price;int milks;}milk[5000]; 2.自定义的比较函数,若返回值为正,qsort 函数判定a>b ;为负,a<b;为0,a==b; int milkcmp(const void *va,c

uva 10014 Simple calculations(数学推导)

直接按照题意来推导最后的结果就行了。 开始的时候只做到了第一个推导,第二次没有继续下去。 代码: #include<stdio.h>int main(){int T, n, i;double a, aa, sum, temp, ans;scanf("%d", &T);while(T--){scanf("%d", &n);scanf("%lf", &first);scanf

烟火目标检测数据集 7800张 烟火检测 带标注 voc yolo

一个包含7800张带标注图像的数据集,专门用于烟火目标检测,是一个非常有价值的资源,尤其对于那些致力于公共安全、事件管理和烟花表演监控等领域的人士而言。下面是对此数据集的一个详细介绍: 数据集名称:烟火目标检测数据集 数据集规模: 图片数量:7800张类别:主要包含烟火类目标,可能还包括其他相关类别,如烟火发射装置、背景等。格式:图像文件通常为JPEG或PNG格式;标注文件可能为X

AI hospital 论文Idea

一、Benchmarking Large Language Models on Communicative Medical Coaching: A Dataset and a Novel System论文地址含代码 大多数现有模型和工具主要迎合以患者为中心的服务。这项工作深入探讨了LLMs在提高医疗专业人员的沟通能力。目标是构建一个模拟实践环境,人类医生(即医学学习者)可以在其中与患者代理进行医学

论文翻译:arxiv-2024 Benchmark Data Contamination of Large Language Models: A Survey

Benchmark Data Contamination of Large Language Models: A Survey https://arxiv.org/abs/2406.04244 大规模语言模型的基准数据污染:一项综述 文章目录 大规模语言模型的基准数据污染:一项综述摘要1 引言 摘要 大规模语言模型(LLMs),如GPT-4、Claude-3和Gemini的快

论文阅读笔记: Segment Anything

文章目录 Segment Anything摘要引言任务模型数据引擎数据集负责任的人工智能 Segment Anything Model图像编码器提示编码器mask解码器解决歧义损失和训练 Segment Anything 论文地址: https://arxiv.org/abs/2304.02643 代码地址:https://github.com/facebookresear

论文翻译:ICLR-2024 PROVING TEST SET CONTAMINATION IN BLACK BOX LANGUAGE MODELS

PROVING TEST SET CONTAMINATION IN BLACK BOX LANGUAGE MODELS https://openreview.net/forum?id=KS8mIvetg2 验证测试集污染在黑盒语言模型中 文章目录 验证测试集污染在黑盒语言模型中摘要1 引言 摘要 大型语言模型是在大量互联网数据上训练的,这引发了人们的担忧和猜测,即它们可能已

OmniGlue论文详解(特征匹配)

OmniGlue论文详解(特征匹配) 摘要1. 引言2. 相关工作2.1. 广义局部特征匹配2.2. 稀疏可学习匹配2.3. 半稠密可学习匹配2.4. 与其他图像表示匹配 3. OmniGlue3.1. 模型概述3.2. OmniGlue 细节3.2.1. 特征提取3.2.2. 利用DINOv2构建图形。3.2.3. 信息传播与新的指导3.2.4. 匹配层和损失函数3.2.5. 与Super