Tracking The Untrackable: Learning to Track Multiple Cues with Long-Term Dependencies

本文主要是介绍Tracking The Untrackable: Learning to Track Multiple Cues with Long-Term Dependencies,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

来源:ICCV2017

创新点:

对于多目标跟踪的问题,现有的大多数解决方案并没能以一种一致的方式把长期的线索联合起来。本文提出了一种在线的方法,能够编码多条线索的长期的时间依赖。跟踪方法的一个关键挑战就是精准地跟踪被遮挡的物体或者那些与周围物体具有相似外观的物体。为解决这一挑战,提出一种循环神经网络(RNN)的结构,在多条线索上用一个时间窗口联合推理。该方法允许矫正数据关联的错误,并且可以从遮挡的状态恢复观测。本文通过用目标的外观、运动和交互模型来跟踪多个物体的数据驱动方法是很鲁棒的。

本文提出了一种可以在一个时间窗口内编码多条线索的方法,所学习的多线索表达被用于计算一个跟踪框架中的相似性分数。

贡献:

提出一种基于RNN结构的框架方法,编码多条线索的长期的时间依赖,在这个过程中无需进行专门的手工设置参数或者权值。

总结:本文提出了一种方法在一个时间窗口中,编码多条线索的依赖。我们所学到的多线索表达被用于计算the similarity scores in a tracking framework

tracking-by-detection的方法中,MOT往往可以被看作是一种关于图的优化问题,每个检测被表达成为一种节点,用边来编码相似性分数。在传统的MTT方法中,目标表达(reprsentations)和相似性分数(similarity functions)是手工设置的,旨在把相邻帧的相似外观和运动给捕捉到。In contrast,本文提出了一种方法编码多条线索的长期的时间依赖,无需专门的手工设置参数和权重。所提框架基于一个结构化的RNN,用于多条线索的联合推理。

Related Work

Appearance Model

本文中的外观模型可以handle occlusions and solve the re-identification task by learning a similarity metric between two targets。此外,使用different的网络结构和loss function

Motion Model

目标的运动模型是描述目标如何运动的。包括线性和非线性。然而线性运动模型不能很好的处理长期的遮挡,所以需要使用非线性的运动模型,以提供更加精准的预测。本文提出了一种LSTM模型which learns to predict similar motion patterns.同时,这个LSTM方法也是完全是一种数据驱动的方法,可以控制噪声检测。

Interaction Model

大多数的跟踪技术假定每个目标有一个独立的运动模型,这种简化在拥挤环境下是有问题的。这时就需要考虑到交互模型了。有两种类型:the social force modelgroup modeland the crowd motion pattern model(用于过度拥挤的环境下)。在这里,有一篇FeiFei Li的文章,Social lstm: Human trajectory prediction in crowded spaces.In CVPR2016.提到了使用LSTM网络来对多个个体进行联合推理,以forecast the long-term trajectories of all targets。本文用一个与之类似的LSTM结构,但是我们训练出来的数据驱动的交互模型是用来解决re-id的问题,而非long-term prediction

在推理多条线索时,前人的工作主要是把多条线索在一个手工设计的模式下进行联合,而无需建模长期的依赖关系。前人工作并没有把外观、运动、交互给联合起来。在本文中,克服这一缺陷,We learn a representation that encodes long-term temporal dependencies across multiple cues,i.e.,appearance,motion,and interaction automatically in a data-driven fashion.


这篇关于Tracking The Untrackable: Learning to Track Multiple Cues with Long-Term Dependencies的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/728921

相关文章

简单的Q-learning|小明的一维世界(3)

简单的Q-learning|小明的一维世界(1) 简单的Q-learning|小明的一维世界(2) 一维的加速度世界 这个世界,小明只能控制自己的加速度,并且只能对加速度进行如下三种操作:增加1、减少1、或者不变。所以行动空间为: { u 1 = − 1 , u 2 = 0 , u 3 = 1 } \{u_1=-1, u_2=0, u_3=1\} {u1​=−1,u2​=0,u3​=1}

简单的Q-learning|小明的一维世界(2)

上篇介绍了小明的一维世界模型 、Q-learning的状态空间、行动空间、奖励函数、Q-table、Q table更新公式、以及从Q值导出策略的公式等。最后给出最简单的一维位置世界的Q-learning例子,从给出其状态空间、行动空间、以及稠密与稀疏两种奖励函数的设置方式。下面将继续深入,GO! 一维的速度世界 这个世界,小明只能控制自己的速度,并且只能对速度进行如下三种操作:增加1、减

long long,_int64使用小结

前言:   在16位环境下,int/unsigned int 占16位,long/unsigned long占32位   在32位环境下,int占32位,unsigned int占16位,long/unsigned long占32位 何时需要使用:   long 和 int 范围是[-2^31,2^31),即-2147483648~2147483647,而unsigned范围是[0,2^32),

Stripe data files across multiple physical devices and locations

Stripe data files across multiple physical devices and locations 如果在没有做条带的磁盘(即从存储到OS没有做raid),那么就需要手工去做I/O的分布。切记,不应该将频繁使用的table和其index分开,这样会正大I/O; 针对tables、indexes、temp tablespace,首先调优SQL,其次如果真心无法再

《长得太长也是错?——后端 Long 型 ID 精度丢失的“奇妙”修复之旅》

引言 在前后端分离的时代,我们的生活充满了无数的机遇与挑战——包括那些突然冒出来的让人抓狂的 Bug。今天我们要聊的,就是一个让无数开发者哭笑不得的经典问题:后端 Long 类型 ID 过长导致前端精度丢失。说到这个问题,那可真是“万恶之源”啊,谁让 JavaScript 只能安全地处理 Number.MAX_SAFE_INTEGER(也就是 9007199254740991)以内的数值呢?

【硬刚ES】ES入门 (13)Java API 操作(4)DQL(1) 请求体查询/term 查询,查询条件为关键字/分页查询/数据排序/过滤字段/Bool 查询/范围查询/模糊查询/高亮查询/聚合查

本文是对《【硬刚大数据之学习路线篇】从零到大数据专家的学习指南(全面升级版)》的ES部分补充。 1 请求体查询 2 高亮查询 3 聚合查询 package com.atguigu.es.test;import org.apache.http.HttpHost;import org.apache.lucene.search.TotalHits;import org.elasticse

踩坑记录(Long[]ids)

主要针对Long[] ids 的判空问题 问题代码 public void delYnjC(Long[] ids) {if (CollectionUtils.isEmpty(Collections.singleton(ids))) {throw new NullPointerException("参数不能为空");}naturalYnjCMapper.delYnjC(ids);} 修正

Learning Memory-guided Normality for Anomaly Detection——学习记忆引导的常态异常检测

又是一篇在自编码器框架中研究使用记忆模块的论文,可以看做19年的iccv的论文的衍生,在我的博客中对19年iccv这篇论文也做了简单介绍。韩国人写的,应该是吧,这名字听起来就像。 摘要abstract 我们解决异常检测的问题,即检测视频序列中的异常事件。基于卷积神经网络的异常检测方法通常利用代理任务(如重建输入视频帧)来学习描述正常情况的模型,而在训练时看不到异常样本,并在测试时使用重建误

Learning Temporal Regularity in Video Sequences——视频序列的时间规则性学习

Learning Temporal Regularity in Video Sequences CVPR2016 无监督视频异常事件检测早期工作 摘要 由于对“有意义”的定义不明确以及场景混乱,因此在较长的视频序列中感知有意义的活动是一个具有挑战性的问题。我们通过在非常有限的监督下使用多种来源学习常规运动模式的生成模型(称为规律性)来解决此问题。体来说,我们提出了两种基于自动编码器的方法,以