CREST: 端到端的目标跟踪算法

2023-12-02 11:32

本文主要是介绍CREST: 端到端的目标跟踪算法,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

不同于在目标检测和识别等领域取得的丰硕成果,深度学习在目标跟踪领域进展相对缓慢, 很大原因是缺乏数据——目标跟踪只有第一帧的标定框作为训练数据,在这种情况下训练一个深度模型十分困难。现有的基于深度学习的方法从几个不同的角度解决这个问题,但在跟踪速度和精度方面仍有很大的提升空间。
在目标追踪界泰斗、UC Merced 杨明玄教授的指导下,香港城市大学、阿德莱德大学、SenseNet的研究人员从深度学习的角度出发,提出了一种 端到端的跟踪模型,将 特征提取和响应生成融合在深度学习框架中,只采用单层卷积的端到端结构,就达到了利用深度特征的传统协同滤波器的效果。

在此基础上,研究人员还引入残差学习来有效维持模型在目标运动中的预测性能,这也是残差学习的概念首次被用于目标跟踪领域。实验表明,新方法在标准的数据库中取得了state-of-the-art的精度效果。

1.目标跟踪

目标跟踪(Object Tracking)一直是计算机视觉中应用广泛而且富有挑战性的问题。简单说,目标跟踪就是在一段视频中,给定第一帧目标物体的位置和大小信息(标定框)后,让跟踪算法在后续的每一帧中对目标物体的位置和大小进行预测。

跟踪算法实时确定目标物体状态,为进一步智能分析提供了先决条件。目标跟踪技术在安防、人机交互和无人驾驶等一系列领域中都有应用。


安防监控场景中行人跟踪和轨迹预测

在实际应用中,目标跟踪算法的效果受很多因素的制约,本质是由于物体在视频中出现的各种无法预测的变化。典型的制约因素包括:

 

物体在视频中从初始帧到当前帧,光照情况发生了剧烈的变化

 

物体在视频中运动姿态发生了很大的变化

 

物体在视频中出现了局部遮挡或全局遮挡的情况

 

物体在视频中与相似背景的混杂(目标汽车的尾灯和迎面而来汽车的头灯)

 

物体在视频中的大小发生了显著的变化

现实中制约目标跟踪的因素还有很多。为了克服这些因素带来的不良影响,目前主流的跟踪算法多采用深度卷积特征和传统的协同滤波相结合的方式。虽然在性能上得到了提升,但是深度学习的架构优势并未得到充分的利用(比如HCFT[1],DeepSRDCF[2],C-COT[3])。

另一方面,有一些深度学习模型将跟踪问题转化为了处理物体检测(MDNet[4])和校验(SINT[5])的思路。但是,这种方法在不利用额外的跟踪视频做训练的前提下,其精度无法匹及协同滤波。

下面要介绍的这项工作,从深度学习的角度出发,提出了一种端到端的跟踪模型,并用残差式学习来有效维持模型在目标运动中的预测性能,在标准的数据库中取得了state-of-the-art的精度效果。有鉴于其性能优异,方法创新——首次将残差学习应用于目标追踪,该工作已被ICCV 2017接收。

2.挖掘深度学习在追踪算法中的优势,构建端到端的模型做预测

虽然深度学习方法在物体检测和识别方面已经取得了优异的效果,但是在物体跟踪的算法研究中,主流方向依然集中在 协同滤波器的各种拓展。纵然使用深度学习,也只是 将深度卷积特征作为传统特征的替代,提升跟踪的精度。
协同滤波的优势在于其在 频率域的快速运算对物体位置的密集估计特性,这一优点一直吸引研究人员在此框架内不断做新的探索。但是,协同滤波方法并非没有局限。首先, 协同滤波跟输入特征没有关联,这样一个结构并没有对跟踪这个问题有专门的改进。其次,协同滤波器的 在线更新方法是人先验设定的,并没有随着物体的在线变化过程而做自适应的调整。
那么,有没有方法改进上述问题呢?从本质上说, 协同滤波器是一个与物体特征做卷积从而生成二维高斯响应的过程。训练协同滤波器的系数,即为衡量卷积后的响应与真实高斯响应偏差多少的操作。

研究人员发现,这样一种训练方式,可以用L2损失函数训练单层卷积层来等价替换。采用单层卷积替代协同滤波的好处是,特征提取和高斯响应的生成可以紧密地结合在一起,为端到端的训练和预测提供了基础。此外,由于训练卷积层可以采用梯度下降的优化方法,就能够对整个框架为了实现跟踪任务进行一体的优化。另外,在线模型更新的过程也是网络根据物体的变化情况做自适应的调整。相比于传统协同滤波计算封闭解的方法和固定更新方法的人为先验设置,深度学习的优化框架无疑是更优越的。


端到端的预测和优化

同时,用单层卷积层代替协同滤波器,对特征的卷积操作也从频域转换到了时域,从而有效的克服了傅里叶变换带来的边界影响问题。

3.残差学习用于目标追踪,提升网络预测质量

有了端对端建模,研究人员成功将物体从输入图像回归成二维的高斯响应图,峰值即为物体的位置。那么在理想情况下,网络会准确地对物体进行回归。


而当前文提到的制约因素,比如光照、目标物体大小发生了剧烈的变化,目标物体与背景相似时,网络将无法预测的准确二维高斯响应。这时,峰值发生了变化,导致物体位置预测失败。


为了提升网络预测的高斯响应图的质量,本文提出了残差式学习的概念。具体讲,在单层卷积作为基本映射(Base mapping)的基础上,并行地引入了残差映射(Residual mapping),用这种方法来捕获基本映射和真实高斯响应之间的差异。


残差式学习的框架,由基本映射和残差映射组成

在物体处于平稳状态时,基本映射的输出和真实值的高斯响应很相似,此时残差网络几乎没有什么输出。在物体处于不稳定的状态时,残差网络能够很好的捕获基本映射的输出和真实值高斯响应的差异,通过加法操作补充基本映射的输出,从而使整个网络的输出更逼近真实值,更好地对目标进行定位。


空间域的残差式学习

同时,本文也利用了第一帧的初始信息,将其残差补充于随后帧的预测中,帮助基本映射生成更优的高斯响应。


残差式结构提升网络预测高斯响应的直观显示

4.跟踪效果展示

点击打开链接

本文将利用深度学习框架,对目标跟踪进行了端到端的建模,从而能够进行全局的优化和更新。针对目标物体遇到的挑战性的场景,本文提出的残差式网络结构能够从时域和空域捕获高斯响应图的不足,并在整个网络中弥补单层卷积网络的带来的局限性。因此,跟踪的精度在标准数据库上得到了显著的提升。

参考文献
[1]. HCFT: Hierarchical Convolutional Features for Visual Tracking. Chao Ma, Jia-Bin Huang, Xiaokang Yang, and Ming-Hsuan Yang. ICCV 2015.
[2]. DeepSRDCF: Convolutional features for correlation filter based visual tracking. Martin Danelljan, Gustav Hager, Fahad Shahbaz Khan, and Michael Felsberg. ICCV 2015 workshops.
[3]. C-COT: Beyond correlation filters: Learning continuous convolution operators for visual tracking. Martin Danelljan, Andreas Robinson, Fahad Shahbaz Khan, and Michael Felsberg. ECCV 2016.
[4]. MDNet: Learning Multi-Domain Convolutional Neural Networks for Visual Tracking. Hyeonseob Nam, and Bohyung Han. CVPR 2016.
[5]. SINT: Siamese Instance Search for Tracking. Ran Tao, Efstratios Gavves, and Arnold W.M. Smeulders. CVPR 2016.
[6]. OTB: Online Object Tracking: A benchmark. Yi Wu, Jongwoo Lim, and Ming-Hsuan Yang. CVPR 2013.
[7] Staple: Complementary Learners for Real-Time Tracking. Luca Bertinetto, Jack Valmadre, Stuart Golodetz, Ondrej Miksik, and Philip Torr. CVPR 2016.
[8] SRDCF: Learning spatially regularized correlation filters for visual tracking. Martin Danelljan, Gustav Hager, FahadShahbaz Khan, and Michael Felsberg. ICCV 2015.

这篇关于CREST: 端到端的目标跟踪算法的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/445190

相关文章

Python中的随机森林算法与实战

《Python中的随机森林算法与实战》本文详细介绍了随机森林算法,包括其原理、实现步骤、分类和回归案例,并讨论了其优点和缺点,通过面向对象编程实现了一个简单的随机森林模型,并应用于鸢尾花分类和波士顿房... 目录1、随机森林算法概述2、随机森林的原理3、实现步骤4、分类案例:使用随机森林预测鸢尾花品种4.1

如何用Java结合经纬度位置计算目标点的日出日落时间详解

《如何用Java结合经纬度位置计算目标点的日出日落时间详解》这篇文章主详细讲解了如何基于目标点的经纬度计算日出日落时间,提供了在线API和Java库两种计算方法,并通过实际案例展示了其应用,需要的朋友... 目录前言一、应用示例1、天安门升旗时间2、湖南省日出日落信息二、Java日出日落计算1、在线API2

不懂推荐算法也能设计推荐系统

本文以商业化应用推荐为例,告诉我们不懂推荐算法的产品,也能从产品侧出发, 设计出一款不错的推荐系统。 相信很多新手产品,看到算法二字,多是懵圈的。 什么排序算法、最短路径等都是相对传统的算法(注:传统是指科班出身的产品都会接触过)。但对于推荐算法,多数产品对着网上搜到的资源,都会无从下手。特别当某些推荐算法 和 “AI”扯上关系后,更是加大了理解的难度。 但,不了解推荐算法,就无法做推荐系

康拓展开(hash算法中会用到)

康拓展开是一个全排列到一个自然数的双射(也就是某个全排列与某个自然数一一对应) 公式: X=a[n]*(n-1)!+a[n-1]*(n-2)!+...+a[i]*(i-1)!+...+a[1]*0! 其中,a[i]为整数,并且0<=a[i]<i,1<=i<=n。(a[i]在不同应用中的含义不同); 典型应用: 计算当前排列在所有由小到大全排列中的顺序,也就是说求当前排列是第

csu 1446 Problem J Modified LCS (扩展欧几里得算法的简单应用)

这是一道扩展欧几里得算法的简单应用题,这题是在湖南多校训练赛中队友ac的一道题,在比赛之后请教了队友,然后自己把它a掉 这也是自己独自做扩展欧几里得算法的题目 题意:把题意转变下就变成了:求d1*x - d2*y = f2 - f1的解,很明显用exgcd来解 下面介绍一下exgcd的一些知识点:求ax + by = c的解 一、首先求ax + by = gcd(a,b)的解 这个

综合安防管理平台LntonAIServer视频监控汇聚抖动检测算法优势

LntonAIServer视频质量诊断功能中的抖动检测是一个专门针对视频稳定性进行分析的功能。抖动通常是指视频帧之间的不必要运动,这种运动可能是由于摄像机的移动、传输中的错误或编解码问题导致的。抖动检测对于确保视频内容的平滑性和观看体验至关重要。 优势 1. 提高图像质量 - 清晰度提升:减少抖动,提高图像的清晰度和细节表现力,使得监控画面更加真实可信。 - 细节增强:在低光条件下,抖

【数据结构】——原来排序算法搞懂这些就行,轻松拿捏

前言:快速排序的实现最重要的是找基准值,下面让我们来了解如何实现找基准值 基准值的注释:在快排的过程中,每一次我们要取一个元素作为枢纽值,以这个数字来将序列划分为两部分。 在此我们采用三数取中法,也就是取左端、中间、右端三个数,然后进行排序,将中间数作为枢纽值。 快速排序实现主框架: //快速排序 void QuickSort(int* arr, int left, int rig

poj 3974 and hdu 3068 最长回文串的O(n)解法(Manacher算法)

求一段字符串中的最长回文串。 因为数据量比较大,用原来的O(n^2)会爆。 小白上的O(n^2)解法代码:TLE啦~ #include<stdio.h>#include<string.h>const int Maxn = 1000000;char s[Maxn];int main(){char e[] = {"END"};while(scanf("%s", s) != EO

烟火目标检测数据集 7800张 烟火检测 带标注 voc yolo

一个包含7800张带标注图像的数据集,专门用于烟火目标检测,是一个非常有价值的资源,尤其对于那些致力于公共安全、事件管理和烟花表演监控等领域的人士而言。下面是对此数据集的一个详细介绍: 数据集名称:烟火目标检测数据集 数据集规模: 图片数量:7800张类别:主要包含烟火类目标,可能还包括其他相关类别,如烟火发射装置、背景等。格式:图像文件通常为JPEG或PNG格式;标注文件可能为X

秋招最新大模型算法面试,熬夜都要肝完它

💥大家在面试大模型LLM这个板块的时候,不知道面试完会不会复盘、总结,做笔记的习惯,这份大模型算法岗面试八股笔记也帮助不少人拿到过offer ✨对于面试大模型算法工程师会有一定的帮助,都附有完整答案,熬夜也要看完,祝大家一臂之力 这份《大模型算法工程师面试题》已经上传CSDN,还有完整版的大模型 AI 学习资料,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费