【论文速递】CVPR2022 - MeMOT: 带有记忆得到多目标跟踪

2024-01-16 21:40

本文主要是介绍【论文速递】CVPR2022 - MeMOT: 带有记忆得到多目标跟踪,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

【论文速递】CVPR2022 - MeMOT: 带有记忆得到多目标跟踪

【论文原文】:MeMOT: Multi-Object Tracking with Memory

论文地址:https://arxiv.org/abs/2203.16761

博主关键词: 多目标跟踪,transformer,memory

推荐相关论文:

【论文速递】ECCV2022 - ByteTrack:通过关联每个检测盒来进行多对象跟踪
- https://blog.csdn.net/Never_moresf/article/details/128719534
【论文速递】CVPR2022 - 全局跟踪Transformers
-https://blog.csdn.net/Never_moresf/article/details/128704693

摘要:

我们提出了一种在线跟踪算法,该算法在一个通用框架下执行目标检测和数据关联,能够在长时间跨度后连接对象。这是通过保留一个大的时空内存来存储被跟踪对象的 identity embeddings,并根据需要自适应地引用和聚合内存中的有用信息。我们的模型被称为MeMOT,由三个主要模块组成,它们都是基于transformer的:1)假设生成(Hypothesis Generation),在当前视频帧中产生目标proposals;2)记忆编码(Memory Encoding),从内存中提取每个被跟踪对象的核心信息;3)内存解码(Memory Decoding),同时解决多目标跟踪的目标检测和数据关联任务。在广泛采用的MOT benchmark数据集上进行评估时,MeMOT展示了非常有竞争力的性能。

关键词 多目标跟踪,transformer,memory

简介:

在线多目标跟踪(MOT)[3,13,57,70]的目标是定位一组目标(例如,行人),同时跟踪它们随时间变化的轨迹,使同一个的目标在整个输入视频流中具有相同的id。早期的方法大多通过两个独立的阶段来解决这个问题:1)目标检测阶段: 在单独帧[14,17,28,42,72]中检测目标实例;2)数据关联阶段,通过对跟踪目标的状态变化建模,解决跟踪目标与检测结果之间的匹配问题,将检测到的目标实例跨时间[5,70]关联。尽管最近的研究[34,69]表明,将这两个阶段结合起来可能是有益的,但这种结合通常会导致关联模块在建模对象随时间变化时的过度简化

在本文中,我们提出了一种基于transformer的跟踪模型,称为MeMOT,该模型在在线的公共框架下执行目标检测和关联。MeMOT的关键设计是建立一个大型时空存储器,存储被跟踪目标的过去观测数据。通过引用相关信息,在每一时间步中对memory进行主动编码,以使得目标的状态更准确地逼近关联任务。从时空存储器中提取的跟踪对象的丰富表示使我们能够在一个统一的解码模块中解决目标检测和关联任务。它直接输出已被跟踪并在最新帧中重新出现的目标,以及第一次看到的新目标实例。MeMOT的思想如图1所示。
在这里插入图片描述

Fig. 1.Illustration of the idea of MeMOT. A spatio-temporal memory stores a long range states of all tracked objects and is updated over time. Each row in the memory buffer represents an active tracklet. The “person crops” indicate that their the history states are preserved in the memory, and the blank box indicates this person does not appear in the frame at that time, occluded or not detected. The tracking plots show that MeMOT can maintain active tracks (yellow and blue boxes), link reappearing tracks after occlusion (red box), and generate new objects (green box).

在每个时间步长中,MeMOT运行以下三个主要组件:1)假设生成模块,该模块从输入图像特征图中生成proposals,作为一组嵌入向量;2))记忆编码模块,该模块将与每个被跟踪对象对应的时空记忆编码为称为跟踪嵌入的向量;3)内存解码,输入proposal和跟踪嵌入,同时解决多目标跟踪的目标检测和数据关联任务。假设生成模块由一个基于transformer的编解码器网络[6,73]实现。它生成一组嵌入向量,称为proposal embedding,每个向量表示一个假设的目标实例。记忆编码模块首先将每个目标的时空记忆分为短期记忆和长期记忆,并通过交叉注意模块[50]将它们聚合成一个嵌入向量。然后,两个向量通过自注意机制相互作用,在此时间步生成被跟踪目标的轨迹嵌入。proposal和轨道嵌入,与原始图像特征一起,然后送到内存解码模块。对于每个轨迹嵌入,它生成在这一帧中被跟踪对象的位置和可见性。对于每个proposal嵌入,它预测这个假设的对象实例是描绘一个新对象、一个跟踪对象,还是仅仅是一个背景区域。MeMOT模型的示意图如图2所示。整个模型可以在带有对象包围框和身份标注的视频数据集上进行端到端训练。在推理过程中,我们在每个时间步的一次模型推理中获得跟踪输出,无需任何额外的优化[9,41]或后处理[3,48,70]。

在这里插入图片描述

Fig. 2. Visualization of MeMOT, which runs three main components: 1) a hypothesis generation module ΘH that produces object proposals for the current video frame, 2) a memory encoding module ΘE that retrieves core information for each tracked objects, and 3) a memory decoding module ΘD that solves the object detection and data association tasks simultaneously. MeMOT maintains a memory buffer to store long-range states of tracked objects, together with an efficient encoding-decoding process that retrieves useful information for linking objects after a long time span. Each hypothetical object is predicted as a new object, a tracked object, or a background region.

我们评估了MeMOT在MOT Challenge[10,35] benchmark上的行人跟踪结果。实验结果表明,MeMOT在所有使用网络内关联算法中达到了最先进的性能,并且与使用网络后关联过程的算法相比具有竞争力。具体来说,MeMOT在目标检测和数据关联方面都优于其他基于transformer的方法。广泛的消融研究进一步验证了MeMOT的设计和有效性。

【社区访问】

img 【论文速递 | 精选】

img阅读原文访问社区

https://bbs.csdn.net/forums/paper

这篇关于【论文速递】CVPR2022 - MeMOT: 带有记忆得到多目标跟踪的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/613980

相关文章

如何用Java结合经纬度位置计算目标点的日出日落时间详解

《如何用Java结合经纬度位置计算目标点的日出日落时间详解》这篇文章主详细讲解了如何基于目标点的经纬度计算日出日落时间,提供了在线API和Java库两种计算方法,并通过实际案例展示了其应用,需要的朋友... 目录前言一、应用示例1、天安门升旗时间2、湖南省日出日落信息二、Java日出日落计算1、在线API2

烟火目标检测数据集 7800张 烟火检测 带标注 voc yolo

一个包含7800张带标注图像的数据集,专门用于烟火目标检测,是一个非常有价值的资源,尤其对于那些致力于公共安全、事件管理和烟花表演监控等领域的人士而言。下面是对此数据集的一个详细介绍: 数据集名称:烟火目标检测数据集 数据集规模: 图片数量:7800张类别:主要包含烟火类目标,可能还包括其他相关类别,如烟火发射装置、背景等。格式:图像文件通常为JPEG或PNG格式;标注文件可能为X

AI hospital 论文Idea

一、Benchmarking Large Language Models on Communicative Medical Coaching: A Dataset and a Novel System论文地址含代码 大多数现有模型和工具主要迎合以患者为中心的服务。这项工作深入探讨了LLMs在提高医疗专业人员的沟通能力。目标是构建一个模拟实践环境,人类医生(即医学学习者)可以在其中与患者代理进行医学

hdu 4517 floyd+记忆化搜索

题意: 有n(100)个景点,m(1000)条路,时间限制为t(300),起点s,终点e。 访问每个景点需要时间cost_i,每个景点的访问价值为value_i。 点与点之间行走需要花费的时间为g[ i ] [ j ] 。注意点间可能有多条边。 走到一个点时可以选择访问或者不访问,并且当前点的访问价值应该严格大于前一个访问的点。 现在求,从起点出发,到达终点,在时间限制内,能得到的最大

论文翻译:arxiv-2024 Benchmark Data Contamination of Large Language Models: A Survey

Benchmark Data Contamination of Large Language Models: A Survey https://arxiv.org/abs/2406.04244 大规模语言模型的基准数据污染:一项综述 文章目录 大规模语言模型的基准数据污染:一项综述摘要1 引言 摘要 大规模语言模型(LLMs),如GPT-4、Claude-3和Gemini的快

论文阅读笔记: Segment Anything

文章目录 Segment Anything摘要引言任务模型数据引擎数据集负责任的人工智能 Segment Anything Model图像编码器提示编码器mask解码器解决歧义损失和训练 Segment Anything 论文地址: https://arxiv.org/abs/2304.02643 代码地址:https://github.com/facebookresear

论文翻译:ICLR-2024 PROVING TEST SET CONTAMINATION IN BLACK BOX LANGUAGE MODELS

PROVING TEST SET CONTAMINATION IN BLACK BOX LANGUAGE MODELS https://openreview.net/forum?id=KS8mIvetg2 验证测试集污染在黑盒语言模型中 文章目录 验证测试集污染在黑盒语言模型中摘要1 引言 摘要 大型语言模型是在大量互联网数据上训练的,这引发了人们的担忧和猜测,即它们可能已

OmniGlue论文详解(特征匹配)

OmniGlue论文详解(特征匹配) 摘要1. 引言2. 相关工作2.1. 广义局部特征匹配2.2. 稀疏可学习匹配2.3. 半稠密可学习匹配2.4. 与其他图像表示匹配 3. OmniGlue3.1. 模型概述3.2. OmniGlue 细节3.2.1. 特征提取3.2.2. 利用DINOv2构建图形。3.2.3. 信息传播与新的指导3.2.4. 匹配层和损失函数3.2.5. 与Super

BERT 论文逐段精读【论文精读】

BERT: 近 3 年 NLP 最火 CV: 大数据集上的训练好的 NN 模型,提升 CV 任务的性能 —— ImageNet 的 CNN 模型 NLP: BERT 简化了 NLP 任务的训练,提升了 NLP 任务的性能 BERT 如何站在巨人的肩膀上的?使用了哪些 NLP 已有的技术和思想?哪些是 BERT 的创新? 1标题 + 作者 BERT: Pre-trainin

Verybot之OpenCV应用三:色标跟踪

下面的这个应用主要完成的是Verybot跟踪色标的功能,识别部分还是居于OpenCV编写,色标跟踪一般需要将图像的颜色模式进行转换,将RGB转换为HSV,因为对HSV格式下的图像进行识别时受光线的影响比较小,但是也有采用RGB模式来进行识别的情况,这种情况一般光线条件比较固定,背景跟识别物在颜色上很容易区分出来。         下面这个程序的流程大致是这样的: