文献阅读:Long-Term Temporal Convolutions(LTC)for Action Recognition

2023-10-23 15:50

本文主要是介绍文献阅读:Long-Term Temporal Convolutions(LTC)for Action Recognition,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

文献阅读:Long-Term Temporal Convolutions(LTC)for Action Recognition

IEEE Transactions on Pattern Analysis and Machine Intelligence 2018

task

动作识别,Action recognition, video analysis, representation learning, spatio-temporal convolutions, neural networks

提出问题:

当前用于动作识别的CNN方法通常扩展了静态图像的CNN架构,并学习1到16帧的短视频间隔的动作表示(C3D)。然而,典型的人类动作(例如握手和饮酒)以及重复性动作(例如步行和游泳)通常会持续几秒钟并跨越数十或数百个视频帧。一些动作通常包含具有特定空间和长期时间结构的特征模式。
本作者使用具有长期时间卷积 (LTC) 的神经网络来学习视频表示。证明了增加时间范围的LTC-CNN模型提高了动作识别的准确性。还研究了不同低级表示的影响,例如视频像素的原始值和光流矢量场,并证明了高质量光流估计对于学习准确动作模型的重要性。

阅读记录

在这里插入图片描述
文章认为不同种类的行为具有不同的时间和空间pattern,有些行为可能需要长时间的行为动态才能辨别,所以以前的将所有的视频裁剪成很多短时的视频段(16帧)并不是一种很好的方法。从而本文探索了3D卷积网络输入视频的时长对识别效果的影响,提出了 LTC 3D网络结构
在这里插入图片描述
和C3D很相似,网络含有5个3D卷积层,每个卷积层分别包含64,128,256,256,256个卷积核,最后包含3层全连接层,所有3D卷积核的大小为3x3x3,每一层卷积层都跟着relu激活和最大池化层,池化层的大小除了第一层为2x2x1,其余层大小都为为2x2x2,前两层全连接层后都跟着dropout。
对于16帧网络,我们从空间分辨率为171*128像素的视频中裁剪尺寸为112*112*16的输入小块。我们选择这个基线架构是为了直接与C3D进行比较。对于60帧网络,我们降低了空间分辨率以保持网络复杂性,并使用从89*67空间分辨率的视频中随机裁剪的58*58*60大小的输入块。
如图所示,我们的60f网络的时间分辨率分别对应于5个卷积层的每一个的60、30、15、7和3帧。相比之下,16f网络的时间分辨率更大幅度地降低到每个卷积层16、8、4、2和1帧(相差60/16倍)。我们认为,在更高的卷积层中保持时间分辨率应该能够学习更复杂的时间模式。

在这里插入图片描述
使用视频帧的原始RGB值作为输入。其中MPEG计算速度比较快,但是这种光流的空间分辨率不高。Farbeback的计算速度也挺块,但是噪声也比较大。Brox光流是目前表现最为准确的一种光流。
右边的表格显示了UCF101(拆分1)中不同输入的动作识别准确率。通过60f网络和从零开始的训练获得了结果
可以看到光流输入中Brox光流的效果最好,准确率最高,所以高质量的光流作为输入,对最终的识别率的提高还是很大的。而且所有光流输入的结果都大于RGB输入。
在这里插入图片描述
网络以60帧视频体积为输入,从头开始训练。我们首先观察到,即使是低质量的MPEG流也优于RGB。光流质量的提高导致了进一步的改进。使用Brox流可以使性能提高近20%。这表明,与原始像素值相比,动作识别更容易从动作中学习。
可以看到无论是RGB输入还是光流输入,60帧输入的效果都更好,文章首先验证了自己的猜想:增加输入视频的时长可以有效地提高行为识别的准确率。

在这里插入图片描述
表1展示了在用有限的数据量训练大型CNN时,数据增强的贡献。我们的基线使用75%重叠的滑动窗夹,在训练过程中dropout设为0.5。随机剪切的增益率为3.1%,多尺度剪切的增益率为1.6%,dropout-ratio较高的增益率为2%。当将数据增强和更高的dropout结合在一起时,UCF101 split 1上的视频分类获得了4%的增益。
在这里插入图片描述
表2比较了16f和60f网络在RGB和流输入以及应用在UCF101时不同的数据增强和dropout ratios的性能。我们观察到,在所有测试设置下,60f网络的长期时间卷积都得到了一致和显著的改善,当以剪辑和视频准确性衡量时。我们的60f架构显著改善了RGB和基于流的网络。正如预期的那样,由于视频评估汇总了整个视频的信息,因此对剪辑的改进更为突出。
我们对HMDB51的拆分重复了类似的实验,并在表3中报告了结果。与UCF101类似,基于流的网络具有长期的时间卷积,在剪辑和视频准确性方面显著改善了16f网络。
为了丰富实验结论,文章又做了不同输入时间长度 {20,40,60,80,100}和不同输入空间分辨率 {58x58,71x71} 的实验。
其中 H 表示高分辨率,L 表示低分辨率,可以看到,对于不同的空间分辨率,在时间长度较短的输入中,视频帧的空间分辨率越高,收益越大,但是随着输入视频帧长度的增长,这种收益变小了。文章认为是随着输入时间长度的增加,网络的参数量越来越多,所以两种分辨率都过拟合了。对于不同的时间长度输入,由上图可以看出,不论是RGB输入还是光流输入,不论是clip的准确率还是video的准确率,都是随着输入视频的长度的增加是逐渐提高的。
前面可以看到,clip或者video的平均识别率是随着输入时长的增加而增长的,那么具体到每一类行为,其准确率随着输入视频时长的增长是怎么变化的呢?文章同时挑选了几种典型行为的结果。
不存在随着视频帧长度增加而准确率单调降低的行为,但是存在先增加后减少的行为,文章认为是因为该行为的视频长度太短(只有90帧),所以在裁剪输入的时候需要首先将原视频循环到足够的长度,使行为失去了连贯性。所以对于不同类别的行为,有适合它的输入时长。

在这里插入图片描述
对于长时输入的效果的提升,文章认为 LTC 可以捕获不同长时行为中可分辨的行为,例如体操和标枪,都含有跑步,区分的动作在最后,所以 LTC 可以很轻松地辨别这些行为。体操和标枪的行为示意图如下图所示:
可以看到在前16帧中,两种行为都是助跑,不容易区分,而到第60帧时,我们就很容易区分两种行为了
在这里插入图片描述
在这里插入图片描述
我们观察到LTC在两个数据集上都优于2D卷积。此外,LTC Flow优于LTCRGB,尽管没有预训练。在UCF101和HMDB51数据集上,使用LTC Flow+RGB进行平均融合的结果显著优于双流平均融合基线[6],分别高出4.8和6.8%。[6]中的SVM融合基线仍然明显低于LTC Flow+RGB。总的来说,我们最好的网络LTC Flow +RGB与IDT方法的结合,在UCF101(92.7%)和HMDB51(67.2%)数据集上提供了最好的结果。值得注意的是,除了[25]研究结合RGB和流的最佳方法外,这两个结果都优于先前在这些数据集上发表的结果,因此是我们方法的补充。
密集采样DT,DT方法通过网格划分的方式在图片的多个尺度上分别密集采样特征点。提升的密集轨迹算法(IDT算法),主要改进在于对光流图像的优化,特征正则化方式的改进以及特征编码方式的改进。
FV,Fisher Vector 特征编码,本质上是用似然函数的梯度vector来表达一幅图像,这个梯度向量的物理意义就是数据拟合中对参数调优的过程。

说明

以上内容均为作者本人平时阅读并且汇报使用,内容整理全凭个人理解,如有侵权,请联系我;内容如有错误,欢迎留言交流。转载请注明出处,并附有原文链接,谢谢!

更多论文分享,请参考: 深度学习相关阅读论文汇总(持续更新)

这篇关于文献阅读:Long-Term Temporal Convolutions(LTC)for Action Recognition的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/268840

相关文章

JAVA智听未来一站式有声阅读平台听书系统小程序源码

智听未来,一站式有声阅读平台听书系统 🌟 开篇:遇见未来,从“智听”开始 在这个快节奏的时代,你是否渴望在忙碌的间隙,找到一片属于自己的宁静角落?是否梦想着能随时随地,沉浸在知识的海洋,或是故事的奇幻世界里?今天,就让我带你一起探索“智听未来”——这一站式有声阅读平台听书系统,它正悄悄改变着我们的阅读方式,让未来触手可及! 📚 第一站:海量资源,应有尽有 走进“智听

论文阅读笔记: Segment Anything

文章目录 Segment Anything摘要引言任务模型数据引擎数据集负责任的人工智能 Segment Anything Model图像编码器提示编码器mask解码器解决歧义损失和训练 Segment Anything 论文地址: https://arxiv.org/abs/2304.02643 代码地址:https://github.com/facebookresear

软件架构模式:5 分钟阅读

原文: https://orkhanscience.medium.com/software-architecture-patterns-5-mins-read-e9e3c8eb47d2 软件架构模式:5 分钟阅读 当有人潜入软件工程世界时,有一天他需要学习软件架构模式的基础知识。当我刚接触编码时,我不知道从哪里获得简要介绍现有架构模式的资源,这样它就不会太详细和混乱,而是非常抽象和易

Unable to instantiate Action, goodsTypeAction, defined for 'goodsType_findAdvanced' in namespace '/

报错: Unable to instantiate Action, goodsTypeAction,  defined for 'goodsType_findAdvanced' in namespace '/'goodsTypeAction......... Caused by: java.lang.ClassNotFoundException: goodsTypeAction.......

【阅读文献】一个使用大语言模型的端到端语音概要

摘要 ssum框架(Speech Summarization)为了 从说话人的语音提出对应的文本二题出。 ssum面临的挑战: 控制长语音的输入捕捉 the intricate cross-mdoel mapping 在长语音输入和短文本之间。 ssum端到端模型框架 使用 Q-Former 作为 语音和文本的中介连接 ,并且使用LLMs去从语音特征正确地产生文本。 采取 multi-st

用ajax json给后台action传数据要注意的问题

必须要有get和set方法   1 action中定义bean变量,注意写get和set方法 2 js中写ajax方法,传json类型数据 3 配置action在struts2中

使用http-request 属性替代action绑定上传URL

在 Element UI 的 <el-upload> 组件中,如果你需要为上传的 HTTP 请求添加自定义的请求头(例如,为了通过身份验证或满足服务器端的特定要求),你不能直接在 <el-upload> 组件的属性中设置这些请求头。但是,你可以通过 http-request 属性来自定义上传的行为,包括设置请求头。 http-request 属性允许你完全控制上传的行为,包括如何构建请求、发送请

AI文献综述神器,有这一款就够了!

我是娜姐 @迪娜学姐 ,一个SCI医学期刊编辑,探索用AI工具提效论文写作和发表。 当前的AI辅助文献综述的工具有很多,如果说功能最强大的,娜姐无疑要推SciSpace了。 SciSpace利用强大的AI算法,理解并建立研究论文之间的联系,可以大大提升文献综述的质量和效率。并且其功能还在不断更新和完善。        1 强大的语义搜索功能 传统的关键词搜索可能会遗漏相关文献,Sc

天然药物化学史话:“四大光谱”在天然产物结构鉴定中的应用-文献精读46

天然药物化学史话:“四大光谱”在天然产物结构鉴定中的应用,天然产物化学及其生物合成必备基础知识~ 摘要 天然产物化学研究在药物研发中起着非常重要的作用,结构研究又是天然产物化学研究中最重要的工作之一。在天然药物化学史话系列文章的基础上,对在天然产物结构研究中起绝对主导作用的“四大光谱”分析技术,即红外光谱、紫外光谱、质谱、核磁共振波谱在天然产物结构鉴定中的应用历史进行回顾与总结,并对其发展

你读文献的方式可能错了!掌握这些技巧,让阅读事半功倍!

我是娜姐 @迪娜学姐 ,一个SCI医学期刊编辑,探索用AI工具提效论文写作和发表。 科研新手如何精读一篇论文? 很多科研新手,一上来就疯狂下载几十上百篇文献。囫囵吞枣看完了,还是什么都不知道,大脑一片空白。究竟该如何读文献收获最大? 大佬说,要积极阅读、频繁阅读。 什么是积极阅读? 相比被动阅读,积极阅读是指在阅读之前准备好问题、设置阅读目标、保持批判性,收获更多、进步更大的一种阅读