Learning by tracking:Siamese CNN for robust target association

2024-02-20 17:08

本文主要是介绍Learning by tracking:Siamese CNN for robust target association,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

来源:arXiv:1604.07866v3 Aug 2016

Abstract

本文介绍了一种新的数据关联的方法,引入两阶段(two-stage)学习的模式来匹配检测对。

First,训练了一个孪生卷积神经网络来学习编码两个输入图像块的之间的local spatio-temporal structures,把像素值和光流信息给聚合起来。

Second,一系列上下文特征derived from the position 与所比较的输入图像块的size使用一种叫做梯度上升的分类器的CNN output的方式联合起来,目的是产生最后的匹配概率。

这一学习方式通过使用线性规划based multi-person tracker来进行验证,结果证明甚至是一个简单有效的tracker也是极好的。

1.Introduction

Tracking-by-detection的方法是preferred method。这类方法就两步:第一,在每帧独立寻找行人的可能位置(detections)。第二,把相对应的检测across time相连以形成轨迹(数据关联)。而数据关联阶段由于missing detection ,遮挡,在拥挤环境下的交互等原因而变得很有挑战性。为了解决这些问题,更好的完成数据关联的任务,研究者们已经提出了more and more complex models,如global optimization methods based on network flow, minimum cliques,or discrete-continuous CRF inference等等。虽然模型变复杂了,但在一些富有挑战性的场景下,关联效果也不是那么好。

最近,CNN进入了大家伙儿的视线。本文提出learn the decision whether two detections belong to the same trajectory.学习框架分为两步,first,训练一个孪生框架的CNN以获取两个相同大小的图片区域的相似度。second,contextual features用the CNN output联合起来以产生最后的prediction,联合方法是gradient boosting。之后给定所学,我们在一张图中做了一些pairwise data association score,然后用标准LP公式求解。这个方法特别的简单,但是效果还很好。

1.1 Contributions

第一,从一个新的视角来解决数据关联问题。

第二,提出在孪生网络中使用CNN来估计两个检测是否属于同一个实体的likelihood。此外,在所提的CNN结构中,像素值和光流也联合了起来。

第三,当计算边缘代价的时候,用LP法构建数据关联比用复杂的模型要好。

1.2 Related work

多人跟踪是多个计算机视觉任务,如监控、自动驾驶、行为识别的input。很容易想到的数据关联的方法是graph,节点表示检测,边表示a possible link。然后,数据关联就可以当成是maximum flow (minimum cost problem),可以用(near-)global optimality with LP的方式解决。此外还有一些别的方法。用CNN来measure similarity也有蛮多人在做。

2.Learning to associate detections

我们的目的就是通过学习一个模型解决数据关联的问题,以预测是否两个检测属于同一个目标轨迹。我们使用两种特征集合来做比较。第一,用一个CNN学习的local spatio-temporal features,第二,编码两个检测的相对几何和位置变化的contextual features。最后,这两个特征集通过一个GB classifier联合起来,以产生最终的预测(final matching prediction),可以说是将本地特征与全局特征结合起来了。

2.1 CNN for patch similarity

Siamese CNN拓扑可以根据每个输入图像块的信息被combined的位置,而被分成3个基本的类别。

NO.1 Cost function.

输入图像块被两个平行的分支处理,这两个平行分支的特点是拥有相同的网络结构和权重。最后,每个分支的top layers are fed to a cost function,旨在可以学会把不同的类别简单的分开。

NO.2 In-network

可以处理两个不同输入的平行分支的the top layers被级联起来,然后在top可以增加more layers。最后,使用标准的softmax log-loss function。

NO.3 Joint data input

两个输入图像块被堆叠在一起,以形成一个统一的输入to the CNN。再次,使用softmax log-loss function。

前两种方法分类效果很好,对于第三种方法,可以更好的比较结构的一些细节,可以实现更好的性能。为验证这一说法,作者做了一些实验,实验证明,这种joint data input的方式效果非常非常好!然后,作者就采用了这种方式。

然后,作者介绍了一些网络细节。略。

2.2 Evidence aggregation with gradient boosting


3.Tracking with Linear Programming

略,

这块儿公式蛮多,可以直接看论文哦。

4.Experimental results

本实验验证了所提方法的有效性。在MOT2015上做了实验,将检测器命名为SiameseCNN,MOTA=29.0。

在baseline方面,比较了两种基于LP的跟踪方法。第一个方法是只使用2D距离信息作为feature。第二个方法是用Image features学会预测行人的运动。这一比较还是蛮有趣的,因为对于所有的方法而言,优化结构是基于LP的,改变的唯一因素就是the way the edge costs are computed.  

5.Conclusions

本文提出了一种基于两阶段的学习方式来做数据关联的方法。(CNN+GB)

第一个阶段,创建一个多维的input blob stacking image and optical flow information from the  two patches to be compared.这样的数据表示允许与之相连的孪生卷积神经网络学习the relevant spatio-temporal features来做身份判别。

然后,these local features are merged with some contextual features by  means of a gradient boosting classifier 以产生一个统一的预测。



这篇关于Learning by tracking:Siamese CNN for robust target association的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/728924

相关文章

深度学习实战:如何利用CNN实现人脸识别考勤系统

1. 何为CNN及其在人脸识别中的应用 卷积神经网络(CNN)是深度学习中的核心技术之一,擅长处理图像数据。CNN通过卷积层提取图像的局部特征,在人脸识别领域尤其适用。CNN的多个层次可以逐步提取面部的特征,最终实现精确的身份识别。对于考勤系统而言,CNN可以自动从摄像头捕捉的视频流中检测并识别出员工的面部。 我们在该项目中采用了 RetinaFace 模型,它基于CNN的结构实现高效、精准的

简单的Q-learning|小明的一维世界(3)

简单的Q-learning|小明的一维世界(1) 简单的Q-learning|小明的一维世界(2) 一维的加速度世界 这个世界,小明只能控制自己的加速度,并且只能对加速度进行如下三种操作:增加1、减少1、或者不变。所以行动空间为: { u 1 = − 1 , u 2 = 0 , u 3 = 1 } \{u_1=-1, u_2=0, u_3=1\} {u1​=−1,u2​=0,u3​=1}

简单的Q-learning|小明的一维世界(2)

上篇介绍了小明的一维世界模型 、Q-learning的状态空间、行动空间、奖励函数、Q-table、Q table更新公式、以及从Q值导出策略的公式等。最后给出最简单的一维位置世界的Q-learning例子,从给出其状态空间、行动空间、以及稠密与稀疏两种奖励函数的设置方式。下面将继续深入,GO! 一维的速度世界 这个世界,小明只能控制自己的速度,并且只能对速度进行如下三种操作:增加1、减

如何将卷积神经网络(CNN)应用于医学图像分析:从分类到分割和检测的实用指南

引言 在现代医疗领域,医学图像已经成为疾病诊断和治疗规划的重要工具。医学图像的类型繁多,包括但不限于X射线、CT(计算机断层扫描)、MRI(磁共振成像)和超声图像。这些图像提供了对身体内部结构的详细视图,有助于医生在进行准确诊断和制定个性化治疗方案时获取关键的信息。 1. 医学图像分析的挑战 医学图像分析面临诸多挑战,其中包括: 图像数据的复杂性:医学图像通常具有高维度和复杂的结构

访问controller404:The origin server did not find a current representation for the target resource

ider build->rebuild project。Rebuild:对选定的目标(Project),进行强制性编译,不管目标是否是被修改过。由于 Rebuild 的目标只有 Project,所以 Rebuild 每次花的时间会比较长。 参考:资料

CNN-LSTM模型中应用贝叶斯推断进行时间序列预测

这篇论文的标题是《在混合CNN-LSTM模型中应用贝叶斯推断进行时间序列预测》,作者是Thi-Lich Nghiem, Viet-Duc Le, Thi-Lan Le, Pierre Maréchal, Daniel Delahaye, Andrija Vidosavljevic。论文发表在2022年10月于越南富国岛举行的国际多媒体分析与模式识别会议(MAPR)上。 摘要部分提到,卷积

【tensorflow CNN】构建cnn网络,识别mnist手写数字识别

#coding:utf8"""构建cnn网络,识别mnistinput conv1 padding max_pool([2,2],strides=[2,2]) conv2 x[-1,28,28,1] 卷积 [5,5,1,32] -> [-1,24,24,32]->[-1,28,

The `XXXUITests [Debug]` target overrides the `ALWAYS_EMBED_SWIFT_STANDARD_LIBRARIES` build......

出现的警告: [!] The `ColorInHeartUITests [Debug]` target overrides the `ALWAYS_EMBED_SWIFT_STANDARD_LIBRARIES` build setting defined in `Pods/Target Support Files/Pods-ColorInHeart-ColorInHeartUITests/Po

JS实现将两个相同的json对象合并成为一个新对象(对象中包含list或者其他对象)source===target(不破坏target的非空值)

重点申明一下, 这个方法 只限于两个完全一样的对象 ,不一样的对象请使用 下面的进行合并,   <script>let form = {name: 'liming', sex: '男'};let obj = {class: '一班', age: 15};console.log('before', form);Object.assign(form, obj); //该方法可以完成console.