Action-Decision Networks for Visual Tracking with Deep Reinforcement Learning

本文主要是介绍Action-Decision Networks for Visual Tracking with Deep Reinforcement Learning,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

题目:Action-Decision Networks for Visual Tracking with Deep Reinforcement Learning

来源:CVPR 2017

Abstract

本文用强化学习来做跟踪。与现有的使用深度网络的方法相比,所提的tracker可以实现a light computation,并且在location和scale方面可以满足跟踪accuracy。控制动作的深度网络需要用各种训练序列进行预训练,并且在跟踪的过程中进行fine-tuned,以在线的适应目标和背景的变化。预训练通过深度强化学习和监督学习来实现。强化学习的使用可以实现部分带标签数据的半监督学习。所提的tracker速度很快,在GPU上甚至可以达到实时性。

1.Introduction

有好些方法,虽然是在tracking video datasets上训练的,但是这些方法集中在使用外观模型来提升判别目标和背景的能力。会遇到一些问题。

(1)用不那么有效的搜索方法来探索感兴趣的区域,通过跟踪模型做匹配来选择最好的候选。

(2)需要大量带标签的跟踪序列来做训练,如若在半监督学习的场景下,将无法使用无标签的帧。

在本文中,为处理上述问题,提出了一种新颖的跟踪器,通过ADNet的多次actions来捕捉目标的改变。所设计的ADNet用于产生动作,以在新的一帧中寻找目标的位置和大小。ADNet可以选择最优的动作来跟踪物体,这就是所学得的策略。在ADNet中,策略网络用一个卷积神经网络CNN来做设计。在这个CNN中,输入是在前一个状态的位置上所crop的图像块patch,输出是动作的概率分布including tracslation and scale changes。动作选择的过程较sliding windows or candidate sampling approaches有更少的搜索步数。此外,本文所提方法可以通过选择动作来精准的定位物体,像BBOX回归这种post-processing是不太必要的。

为训练(train)ADNet(ADNet用与产生动作),作者提出了一种将监督学习(SL)和强化学习(RL)联合起来进行学习的联合学习的方法。

在监督学习(SL)阶段,作者用从训练视频中所提取的样本来跟踪目标的位置的方法来训练网络以进行动作的选择。在这一步中,网络会学会跟踪一般的物体without sequential information.        ====>(the pre-trained network)

在强化学习(RL)阶段,在监督学习阶段所获得的pre-trained的网络被用作初始化网络。强化学习的训练序列包括这么几大块:sampled states, actions, and rewards。网络通过基于策略梯度的深度强化学习的方式进行训练using the rewards obtained。指的一提的是,当训练帧部分被标记的时候,所提的框架也能够进行学习,learns the unlabeled frames by assigning the rewards according to the results of tracking simulation。        ===========>(继续训练网络)  (policy gradient

2.Related Work

深度强化学习:强化学习的目标是学习一个策略,通过最大化rewards来觉得序列的动作。在计算机视觉领域,使用深度强化学习的有目标定位,动作识别等。深度强化学习有两个流行的方法:Deep Q 网络(DQN)和策略梯度(policy gradient)。

①The goal of DQN is to learn a state-action value function (Q), which is given by the deep networks, by minimizing temporal-difference errors

②Policy gradient methods directly learn the policy by optimizing the deep policy networks with respect to the expected future reward using gradient descent.

In tracking problem, we train the proposed network with supervised learning to learn the appearance characteristics of the target objects, and trainaction dynamics of the tracking target with reinforcement learning using policy gradient method.即,用监督学习来学习目标的外观特性,用强化学习来学习动作策略,两个学习过程都是要train网络的。

3.Tracking Scheme Controlled by Actions


4.Training of ADNet


5.Experiments

在OTB50和OTB100上评估方法。

为预训练ADNet,使用了来自VOT2013,VOT2014,VOT2015和ALOV30的360个训练视频,包括OTB数据集。

评测指标:OPE:center location error(distance) and overlap ratio(IOU).

Self-comparison:

ADNet-init: which is not pre-trained and simply uses the initial parameters.

In ADNet-init, the parameters of convolutional networks (conv1-3) are initialized with the VGG-M model,

and the fully-connected layers (fc4-7) are initialized with random noises.

“ADNet+SL” is  the pre-trained models with supervised learning using fully labeled frames of the training sequences.

“ADNet+SS” is trained using partially labeled data in the semi-supervised (SS) settings.真实值标注每十帧提供一次。

Then we conducted “ADNet+SL+RL” and “ADNet+SS+RL” by training ADNet+SL and ADNet+SS using reinforcement learning (RL), respectively.

最终版是ADNet+SL+RL。实验证明,半监督效果不如监督的效果好,因为缺乏真实值的标注。并且,在分别都使用强化学习的情况下,提升效果也是不一样的,还是监督的效果好。不过呢,实验也证明了RL既能提升监督的性能,又能提升半监督的性能。

Analysis on the actions

在实验中,使用re-detection的帧的比率占到了所有帧的9%。

在每帧中跟踪目标的时候,大部分帧是用不到5个动作的。通过选择一系列动作就完成了ADNet的跟踪过程。

The average number of searching steps including the required actions and thecandidates by re-detection is 28.26 per frame

缺点:所提方法不能很好的解决目标快速变化(abrupt movement)的问题。

6.Conclusion

Action-based tracking makes a significant contribution to the reduction of computation complexity in tracking.(降低计算的复杂度)

强化学习能够尽可能的利用部分带标签的数据,这可能适用于实际场景。

这篇关于Action-Decision Networks for Visual Tracking with Deep Reinforcement Learning的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/728927

相关文章

Visual Studio中,MSBUild版本问题

假如项目规定了MSBUild版本,那么在安装完Visual Studio后,假如带的MSBUild版本与项目要求的版本不符合要求,那么可以把需要的MSBUild添加到系统中,然后即可使用。步骤如下:            假如项目需要使用V12的MSBUild,而安装的Visual Studio带的MSBUild版本为V14。 ①到MSDN下载V12 MSBUild包,把V12包解压到目录(

Deep Learning复习笔记0

Key Concept: Embedding: learned dense, continuous, low-dimensional representations of object 【将难以表示的对象(如图片,文本等)用连续的低维度的方式表示】 RNN: Recurrent Neural Network -> for processing sequential data (time se

Visual Studio开发环境搭建

原文:https://blog.c12th.cn/archives/25.html Visual Studio开发环境搭建 测试:笔记本原装操作系统:Windows 10 家庭中文版 资源分享链接:提取码:qbt2 注意事项:注意查看本地硬盘是否够用,建议预留4G左右空间。 教程 安装Visual studio 2010 找到并解压 “VS2010中文旗舰版”

GIM: Learning Generalizable Image Matcher From Internet Videos

【引用格式】:Shen X, Yin W, Müller M, et al. GIM: Learning Generalizable Image Matcher From Internet Videos[C]//The Twelfth International Conference on Learning Representations. 2023. 【网址】:https://arxiv.or

python库安装出现Microsoft Visual C++ 14.0 required问题解决

出现上述错误,最简单的方法就是安装c++2015即可,然而网上乱七八糟的软件下载,下面提供百度云盘链接,直接下载安装即可用。 点击下载 安装到电脑即可。

在Mac OS上使用Visual Studio Code创建C++ Qt的Hello World应用

引言 Qt是一个跨平台的应用程序和用户界面框架,而Visual Studio Code是一个功能强大的编辑器,两者结合可以极大地提升开发效率。本文将指导你在Mac OS上使用Visual Studio Code创建一个简单的Qt 'Hello World'窗口应用。 环境准备 确保你的MacBook OS运行最新的操作系统。安装Homebrew,Mac OS的包管理器。通过Homebrew安装

visual studio 2017使用libevent的准备步骤

本人使用的visual studio 2017为community版本,libevent为github上pull下来的最新版本,链接如下:https://github.com/libevent/libevent。 步骤一,编译libevent库 在开始菜单--->所有程序处打开VS 2017的开发人员命令提示符程序,如下图所示 使用cmd命令定位到libevent的目录,输入 nma

Spark算子:RDD行动Action操作(3)–aggregate、fold、lookup

aggregate def aggregate[U](zeroValue: U)(seqOp: (U, T) ⇒ U, combOp: (U, U) ⇒ U)(implicit arg0: ClassTag[U]): U aggregate用户聚合RDD中的元素,先使用seqOp将RDD中每个分区中的T类型元素聚合成U类型,再使用combOp将之前每个分区聚合后的U类型聚合成U类型,特别注意se

Visual C++ 和 C++ 有什么区别?

转】Visual C++ 和 C++ 有什么区别?       有位同学问我“Visual C++和C++有什么区别?”,这的确是初学者会感到困惑的问题,比较常见。除此之外,还有“先学C++好,还是先学Visual C++好?”,都属于同样的概念不明的问题,就比如问“英语和英语词典有什么区别”一样。要弄清这个问题的答案,就要明白语言,工具,库,标准的概念。可以参考我之前发的 Pr

Telegram 桌面端 Visual Studio 2019 编译 tdesktop 指南

编译该项目起初耗时 1 天半(1 个通宵 + 2 个白天),结果还失败了。 然后时隔 3 个月,又尝试重新编译,耗时 1 个白天,编译成功。 坑还是有(fei)点(chang)多的。 不多说了,进入正题。   1、准备环境 由于此开源项目较大,编译容易出错,一些第三方软件可能与您已安装的版本相冲突。 所以强烈建议在虚拟机中编译该项目,并保存多个时间点快照。 环境要求:16G 或以上