Online Multi-Object Tracking Using CNN-based Single Object Tracker with Spatial-Temporal Attention M

本文主要是介绍Online Multi-Object Tracking Using CNN-based Single Object Tracker with Spatial-Temporal Attention M,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

题目:

Online Multi-Object Tracking Using CNN-based Single Object Tracker with Spatial-Temporal Attention Mechanism

来源:ICCV 2017

因为太喜欢这篇文章了,所以再简单的写一遍。

本文用带有时空注意力机制的基于CNN的单目标跟踪器实现在线的多目标跟踪。为了online MOT,提出了一种基于CNN的框架。简单的把SOT应用至MOT会遇到计算效率和因为遮挡产生的漂移的问题,在解决计算效率方面,采用的方法是共享CNN特征和使用ROI-pooling来获得每个目标的个体信息。介绍了一种时空注意力机制(STAM),控制由于遮挡和目标间的交互而产生的drift问题。目标的可见图被学习并且被用于推理空间注意力图(spatial attention map)。这个空间注意力图随后被用于给特征赋权重。此外,遮挡状态可以从可视图中估计出来。可视图在训练样本上用不同帧的不同的遮挡状态,通过赋予权重的loss来控制在线的更新过程。这能够被看作是使时间注意力机制(temporal attntion mechanism)。

直接将SOT用于MOT的问题。

第一,在SOT中,用于学习外观模型的训练样本是在线获得的,标签基于跟踪到的结果,外观模型用于在下一帧中寻找这个目标。当发生遮挡时,用于学习外观模型的可视化线索就变得不可信赖了,drift,最后丢失跟踪目标。在MOT中,遮挡现象更为严重。

第二,当有新目标出现时,需要把一个新的单目标跟踪器添加进MOT系统,当跟踪到的目标多的时候,计算代价很大。

在作者所提的框架中,每个目标有自己在线学习到的个体的跟踪器。贡献点:

第一,一种有效的基于CNN的在线MOT框架的提出。通过在多个目标间共享计算的方式,解决简单的将给予CNN的单目标跟踪器用于多目标的计算的复杂性。

第二,为解决drift问题,提出STAM

目标的可视图被学习,并且被用于推理the spatial attention mapThe spatial attention map被用于给特征赋予权重。

可视图可以用于指示目标的遮挡状态。遮挡状态是在在线更新的过程中需要考虑的一个重要线索。目标遮挡的越严重,就越不可能更新相对应的个体跟踪器。这个可以看成是时间注意力机制。这两大机制能够帮助trackerdrift方面更加robust

在实验方面,工具使用的是matlab+caffe,用vgg-16的前10层卷积层作为共享CNN层。在线更新时,在当前帧,需要根据IoU的值划分正负样本。

注意:本方法纯粹是在线模式,不需要用任何用gt标注的训练数据,这点和MDP不同。此外,本文方法有最低的IDS,这说明能够很好的控制目标间的交互问题。

算法过程:

Step1.

在当前帧,每个目标的搜索区域使用运动模型获得。在这个搜索区域内,候选样本被采样。

Step2.

每个候选目标的特征通过ROI-pooling来进行提取,并且通过空间注意来赋权。然后使用二值分类器寻找最匹配的候选目标(最大的分数)。

Step3.

每个跟踪到的目标的可视图从相应的估计目标特征中推理得到,然后被用于推理时间机制。

Step4.

每个目标都有一个专门的CNN分支,这个分支通过当前帧和过去帧的训练样本的loss来进行更新。每个目标的运动模型根据相应的估计目标的状态来做更新。

Step5.

目标管理策略决定新目标的初始化和未跟踪目标的轨迹终结。

Step6.

如果帧不是最后一帧,go to step1 for the next frame


这篇关于Online Multi-Object Tracking Using CNN-based Single Object Tracker with Spatial-Temporal Attention M的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/728925

相关文章

深入探讨Java 中的 Object 类详解(一切类的根基)

《深入探讨Java中的Object类详解(一切类的根基)》本文详细介绍了Java中的Object类,作为所有类的根类,其重要性不言而喻,文章涵盖了Object类的主要方法,如toString()... 目录1. Object 类的基本概念1.1 Object 类的定义2. Object 类的主要方法3. O

Retrieval-based-Voice-Conversion-WebUI模型构建指南

一、模型介绍 Retrieval-based-Voice-Conversion-WebUI(简称 RVC)模型是一个基于 VITS(Variational Inference with adversarial learning for end-to-end Text-to-Speech)的简单易用的语音转换框架。 具有以下特点 简单易用:RVC 模型通过简单易用的网页界面,使得用户无需深入了

2014 Multi-University Training Contest 8小记

1002 计算几何 最大的速度才可能拥有无限的面积。 最大的速度的点 求凸包, 凸包上的点( 注意不是端点 ) 才拥有无限的面积 注意 :  凸包上如果有重点则不满足。 另外最大的速度为0也不行的。 int cmp(double x){if(fabs(x) < 1e-8) return 0 ;if(x > 0) return 1 ;return -1 ;}struct poin

2014 Multi-University Training Contest 7小记

1003   数学 , 先暴力再解方程。 在b进制下是个2 , 3 位数的 大概是10000进制以上 。这部分解方程 2-10000 直接暴力 typedef long long LL ;LL n ;int ok(int b){LL m = n ;int c ;while(m){c = m % b ;if(c == 3 || c == 4 || c == 5 ||

2014 Multi-University Training Contest 6小记

1003  贪心 对于111...10....000 这样的序列,  a 为1的个数,b为0的个数,易得当 x= a / (a + b) 时 f最小。 讲串分成若干段  1..10..0   ,  1..10..0 ,  要满足x非递减 。  对于 xi > xi+1  这样的合并 即可。 const int maxn = 100008 ;struct Node{int

什么是 Flash Attention

Flash Attention 是 由 Tri Dao 和 Dan Fu 等人在2022年的论文 FlashAttention: Fast and Memory-Efficient Exact Attention with IO-Awareness 中 提出的, 论文可以从 https://arxiv.org/abs/2205.14135 页面下载,点击 View PDF 就可以下载。 下面我

【Python报错已解决】AttributeError: ‘list‘ object has no attribute ‘text‘

🎬 鸽芷咕:个人主页  🔥 个人专栏: 《C++干货基地》《粉丝福利》 ⛺️生活的理想,就是为了理想的生活! 文章目录 前言一、问题描述1.1 报错示例1.2 报错分析1.3 解决思路 二、解决方法2.1 方法一:检查属性名2.2 步骤二:访问列表元素的属性 三、其他解决方法四、总结 前言 在Python编程中,属性错误(At

深度学习实战:如何利用CNN实现人脸识别考勤系统

1. 何为CNN及其在人脸识别中的应用 卷积神经网络(CNN)是深度学习中的核心技术之一,擅长处理图像数据。CNN通过卷积层提取图像的局部特征,在人脸识别领域尤其适用。CNN的多个层次可以逐步提取面部的特征,最终实现精确的身份识别。对于考勤系统而言,CNN可以自动从摄像头捕捉的视频流中检测并识别出员工的面部。 我们在该项目中采用了 RetinaFace 模型,它基于CNN的结构实现高效、精准的

图神经网络框架DGL实现Graph Attention Network (GAT)笔记

参考列表: [1]深入理解图注意力机制 [2]DGL官方学习教程一 ——基础操作&消息传递 [3]Cora数据集介绍+python读取 一、DGL实现GAT分类机器学习论文 程序摘自[1],该程序实现了利用图神经网络框架——DGL,实现图注意网络(GAT)。应用demo为对机器学习论文数据集——Cora,对论文所属类别进行分类。(下图摘自[3]) 1. 程序 Ubuntu:18.04

如何将卷积神经网络(CNN)应用于医学图像分析:从分类到分割和检测的实用指南

引言 在现代医疗领域,医学图像已经成为疾病诊断和治疗规划的重要工具。医学图像的类型繁多,包括但不限于X射线、CT(计算机断层扫描)、MRI(磁共振成像)和超声图像。这些图像提供了对身体内部结构的详细视图,有助于医生在进行准确诊断和制定个性化治疗方案时获取关键的信息。 1. 医学图像分析的挑战 医学图像分析面临诸多挑战,其中包括: 图像数据的复杂性:医学图像通常具有高维度和复杂的结构