本文主要是介绍文献阅读:Long-Term Temporal Convolutions(LTC)for Action Recognition,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
文献阅读:Long-Term Temporal Convolutions(LTC)for Action Recognition
IEEE Transactions on Pattern Analysis and Machine Intelligence 2018
task
动作识别,Action recognition, video analysis, representation learning, spatio-temporal convolutions, neural networks
提出问题:
当前用于动作识别的CNN方法通常扩展了静态图像的CNN架构,并学习1到16帧的短视频间隔的动作表示(C3D)。然而,典型的人类动作(例如握手和饮酒)以及重复性动作(例如步行和游泳)通常会持续几秒钟并跨越数十或数百个视频帧。一些动作通常包含具有特定空间和长期时间结构的特征模式。
本作者使用具有长期时间卷积 (LTC) 的神经网络来学习视频表示。证明了增加时间范围的LTC-CNN模型提高了动作识别的准确性。还研究了不同低级表示的影响,例如视频像素的原始值和光流矢量场,并证明了高质量光流估计对于学习准确动作模型的重要性。
阅读记录
文章认为不同种类的行为具有不同的时间和空间pattern,有些行为可能需要长时间的行为动态才能辨别,所以以前的将所有的视频裁剪成很多短时的视频段(16帧)并不是一种很好的方法。从而本文探索了3D卷积网络输入视频的时长对识别效果的影响,提出了 LTC 3D网络结构
和C3D很相似,网络含有5个3D卷积层,每个卷积层分别包含64,128,256,256,256个卷积核,最后包含3层全连接层,所有3D卷积核的大小为3x3x3,每一层卷积层都跟着relu激活和最大池化层,池化层的大小除了第一层为2x2x1,其余层大小都为为2x2x2,前两层全连接层后都跟着dropout。
对于16帧网络,我们从空间分辨率为171*128像素的视频中裁剪尺寸为112*112*16的输入小块。我们选择这个基线架构是为了直接与C3D进行比较。对于60帧网络,我们降低了空间分辨率以保持网络复杂性,并使用从89*67空间分辨率的视频中随机裁剪的58*58*60大小的输入块。
如图所示,我们的60f网络的时间分辨率分别对应于5个卷积层的每一个的60、30、15、7和3帧。相比之下,16f网络的时间分辨率更大幅度地降低到每个卷积层16、8、4、2和1帧(相差60/16倍)。我们认为,在更高的卷积层中保持时间分辨率应该能够学习更复杂的时间模式。
使用视频帧的原始RGB值作为输入。其中MPEG计算速度比较快,但是这种光流的空间分辨率不高。Farbeback的计算速度也挺块,但是噪声也比较大。Brox光流是目前表现最为准确的一种光流。
右边的表格显示了UCF101(拆分1)中不同输入的动作识别准确率。通过60f网络和从零开始的训练获得了结果
可以看到光流输入中Brox光流的效果最好,准确率最高,所以高质量的光流作为输入,对最终的识别率的提高还是很大的。而且所有光流输入的结果都大于RGB输入。
网络以60帧视频体积为输入,从头开始训练。我们首先观察到,即使是低质量的MPEG流也优于RGB。光流质量的提高导致了进一步的改进。使用Brox流可以使性能提高近20%。这表明,与原始像素值相比,动作识别更容易从动作中学习。
可以看到无论是RGB输入还是光流输入,60帧输入的效果都更好,文章首先验证了自己的猜想:增加输入视频的时长可以有效地提高行为识别的准确率。
表1展示了在用有限的数据量训练大型CNN时,数据增强的贡献。我们的基线使用75%重叠的滑动窗夹,在训练过程中dropout设为0.5。随机剪切的增益率为3.1%,多尺度剪切的增益率为1.6%,dropout-ratio较高的增益率为2%。当将数据增强和更高的dropout结合在一起时,UCF101 split 1上的视频分类获得了4%的增益。
表2比较了16f和60f网络在RGB和流输入以及应用在UCF101时不同的数据增强和dropout ratios的性能。我们观察到,在所有测试设置下,60f网络的长期时间卷积都得到了一致和显著的改善,当以剪辑和视频准确性衡量时。我们的60f架构显著改善了RGB和基于流的网络。正如预期的那样,由于视频评估汇总了整个视频的信息,因此对剪辑的改进更为突出。
我们对HMDB51的拆分重复了类似的实验,并在表3中报告了结果。与UCF101类似,基于流的网络具有长期的时间卷积,在剪辑和视频准确性方面显著改善了16f网络。
为了丰富实验结论,文章又做了不同输入时间长度 {20,40,60,80,100}和不同输入空间分辨率 {58x58,71x71} 的实验。
其中 H 表示高分辨率,L 表示低分辨率,可以看到,对于不同的空间分辨率,在时间长度较短的输入中,视频帧的空间分辨率越高,收益越大,但是随着输入视频帧长度的增长,这种收益变小了。文章认为是随着输入时间长度的增加,网络的参数量越来越多,所以两种分辨率都过拟合了。对于不同的时间长度输入,由上图可以看出,不论是RGB输入还是光流输入,不论是clip的准确率还是video的准确率,都是随着输入视频的长度的增加是逐渐提高的。
前面可以看到,clip或者video的平均识别率是随着输入时长的增加而增长的,那么具体到每一类行为,其准确率随着输入视频时长的增长是怎么变化的呢?文章同时挑选了几种典型行为的结果。
不存在随着视频帧长度增加而准确率单调降低的行为,但是存在先增加后减少的行为,文章认为是因为该行为的视频长度太短(只有90帧),所以在裁剪输入的时候需要首先将原视频循环到足够的长度,使行为失去了连贯性。所以对于不同类别的行为,有适合它的输入时长。
对于长时输入的效果的提升,文章认为 LTC 可以捕获不同长时行为中可分辨的行为,例如体操和标枪,都含有跑步,区分的动作在最后,所以 LTC 可以很轻松地辨别这些行为。体操和标枪的行为示意图如下图所示:
可以看到在前16帧中,两种行为都是助跑,不容易区分,而到第60帧时,我们就很容易区分两种行为了
我们观察到LTC在两个数据集上都优于2D卷积。此外,LTC Flow优于LTCRGB,尽管没有预训练。在UCF101和HMDB51数据集上,使用LTC Flow+RGB进行平均融合的结果显著优于双流平均融合基线[6],分别高出4.8和6.8%。[6]中的SVM融合基线仍然明显低于LTC Flow+RGB。总的来说,我们最好的网络LTC Flow +RGB与IDT方法的结合,在UCF101(92.7%)和HMDB51(67.2%)数据集上提供了最好的结果。值得注意的是,除了[25]研究结合RGB和流的最佳方法外,这两个结果都优于先前在这些数据集上发表的结果,因此是我们方法的补充。
密集采样DT,DT方法通过网格划分的方式在图片的多个尺度上分别密集采样特征点。提升的密集轨迹算法(IDT算法),主要改进在于对光流图像的优化,特征正则化方式的改进以及特征编码方式的改进。
FV,Fisher Vector 特征编码,本质上是用似然函数的梯度vector来表达一幅图像,这个梯度向量的物理意义就是数据拟合中对参数调优的过程。
说明
以上内容均为作者本人平时阅读并且汇报使用,内容整理全凭个人理解,如有侵权,请联系我;内容如有错误,欢迎留言交流。转载请注明出处,并附有原文链接,谢谢!
更多论文分享,请参考: 深度学习相关阅读论文汇总(持续更新)
这篇关于文献阅读:Long-Term Temporal Convolutions(LTC)for Action Recognition的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!