本文主要是介绍Action Recognition with Trajectory-Pooled Deep-Convolutional Descriptors,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
Action Recognition with Trajectory-Pooled Deep-Convolutional Descriptors
这篇文章提出了一种新的视频表示方法,叫做trajectory-pooled deep-convolutional descriptor(TDD)。他拥有手工设计的特征和深度学习的特征的优点。用深度结构来学习有区分的卷积特征映射。然后用轨迹控制的pooling方法来融合这些卷积特征。
本文设计了两种正则化的方法来转化卷积特征映射,即时空正则化和通道正则化。
我们提的特征的优点:1)能够自动的学习得到高可区分性的特征,2)考虑了时间维的本质特性,引进了轨迹控制策略来采样和pooling深度学习的特征。
改进的轨迹:首先,在8个不同的空间尺度上,用步长为5个像素的格子,密集采样一系列的点。然后,这些被采样的点被密集的光流区域的均值滤波器跟踪。最后,这些缺乏运动信息的静态轨迹被删除,其他有巨大变化的轨迹也被忽略,因为他们是明显的不正确的光流。
改进的轨迹能够促进密集轨迹的识别的性能,因为他考虑了相机的运动信息。我们对改进的轨迹做了一点点的改变。我们只跟踪原始空间尺度上的点的轨迹。我们发现在单个尺度上能够比较快速的实现。
深度卷积描述子:
(1)卷积网络:我们选择的是two-stream ConvNet,因为他的性能不错。我们做出了一点点的改进,我们使用相同的网络结构,原始的网络在时间网络上忽略了第二层上的局部响应正则化(LRN),我们加上了。
(2)卷积特征映射:一旦两路的卷积网络训练完成,我们把它看做是一般的特征提取器来得到视频的卷积特征映射。对于每一帧,我们都把他看作是空间网络和时间网络的输入。我们对空间网络和时间网络做出了两点的改变:第一,我们删除了特征提取目标层后面的所有层。第二,在每一个卷积或者pooling层之前,对每一层做一个0填充。
轨迹池化的描述子:从提取的轨迹和卷积特征映射中得到trajectory-pooled deep-convolutional descriptory(TDDs)。
提取TDD包括两个步骤:特征映射正则化和轨迹池化。
我们设计了两种正则化的方法:时空正则化和通道正则化。我们选择时空正则化。
基于轨迹和正则化后的卷积特征映射来提取TDDs。
多尺度的TDD提取:我们在一个单一的尺度上计算光流和跟踪点,然后我们用多尺度的金字塔表示视频的帧和光流。
特征编码:我们选择Fisher vector来编码TDDs。然后用一个线性的SVM做分类器。为了训练GMMs,我们首先用PCA来对TDD去耦合,减少他的维度。
原文转自:http://blog.csdn.net/lk798362252/article/details/48243657
- 顶
- 0
- 踩
这篇关于Action Recognition with Trajectory-Pooled Deep-Convolutional Descriptors的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!