本文主要是介绍TEA论文阅读,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
1.时间建模
-
时间建模是视频中动作识别的关键,时间建模分为两个方面。
- short-range motions:相邻帧之间的特征融合。
- long-range aggregations:长时间序列的特征融合。
-
当前的方法以及缺点。
-
short-range motions
- 首先提取手工制作的光流,然后将其输入基于2D CNN的双流框架进行动作识别。
- 这样的双流架构分别处理每个流中的RGB图像和光流。光流的计算既耗时又需要存储。
- 空间和时间特征的学习是孤立的,并且仅在后期层执行融合。
- 首先提取手工制作的光流,然后将其输入基于2D CNN的双流框架进行动作识别。
-
long-range aggregations
-
对单帧数据通过2D CNN提取特征,然后对多帧的特征图pooling操作,融合结果。
缺点:这种简单的总结策略会导致时间信息的丢失/混乱
-
采用局部3D/(2+1)D卷积运算来处理局部时间窗。通过在深层网络中重复叠加局部卷积来间接模拟长期时间关系。
缺点:一般会使用若干CNN基本结构叠加从而提取特征,但叠加多了训练困难
-
-
2.模块提出
-
本文提出了Temporal Excitation and Aggregation (TEA) block。该模块由两个子模块组成。分别解决上述的两个问题。
- motion excitation (ME) module
- multipletemporal aggregation (MTA) module
2.1Motion Excitation (ME) Module
ME模块的架构如上图所示。输入时空特征X的形状为[N;T;C;H;W],其中N是批大小(batch size)。T和C分别表示时间维和特征通道。H和W对应于空间形状。所提出的ME模块是,在所有特征通道中,不同的通道将捕获不同的信息。一部分通道倾向于对与背景场景相关的静态信息进行建模,而其他通道则主要关注描述时间差异的动态运动模式。对于动作识别,使模型能够发现并增强这些运动敏感通道是有益的。
- 在给定输入特征X的情况下,首先采用1×1二维卷积层来减少特征通道,以提高效率。
- 将时间步长 t 处的特征级运动表示近似地看作两个相邻帧Xr(t)和Xr(t+1)之间的差。我们提出先对特征进行信道变换,然后利用变换后的特征计算运动,而不是直接减去原始特征。形式上
-
我们将时间步末的运动特征表示为零,即M(T)=0,并将所有的运动特征串联起来构造最终的运动矩阵M(1);:::;M(T)]。然后利用全局平均池层来总结空间信息,因为我们的目标是激发运动敏感通道,其中详细的空间布局并不重要:
-
利用另一个1×1二维卷积层将运动特征的通道维数扩展到原始通道维数C,并利用sigmoid函数得到运动注意权重A
- 最后,该模块的目标是激发运动敏感通道,因此,一个简单的方法是在输入特征X和注意权重a之间进行信道乘法,但是这种方法会抑制静态背景场景信息,这也有利于动作识别。为了解决这一问题,在提出的基于运动的激励模块中,我们提出采用残差连接来增强运动信息,同时保留场景信息。
2.2 Multiple Temporal Aggregation (MTA) Module
如上图的右上角所示,给定一个输入特征X,一个典型的方法是用一个局部时间卷积和另一个空间卷积来处理它。与此不同的是,我们沿着通道维度将特征分成四个片段,每个片段的形状就变成了[N;T;C/4;H;W]。局部卷积也被分成多个子卷积。最后三个片段依次用一个信道方向的时间子卷积层和另一个空间子卷积层进行处理。每一个参数只有原来的1/4。此外,在相邻的两个片段之间增加了剩余连接,将模块从并行结构转换为层次级联结构。
- 在这个模块中,不同的片段有不同的感受野。例如,第一片段的输出与输入片段相同,因此其感受野为1×1×1。通过将先前片段的信息串联起来,最后一个片段的等效感受野扩大了三倍。最后,采用一种简单的级联策略来组合多个输出。
- 得到的输出特征Xo涉及捕捉不同时间范围的时空表示。它优于典型方法中使用单个局部卷积得到的局部时间表示。
2.2.1.Res2Net
MTA模块受到Res2Net的启发。下面简单看一下Res2Net模型。它的模型结构如下图:
我们在更细粒度上提高了CNNs的多尺度表示能力。为了实现这一目标,我们使用一组w个通道,较小的滤波器组取代 n个通道大小为3×3 的滤波器(不失一般性,我们使用n = s×w),如图2所示,这些较小的滤波器组连接在一个分层类残差网络中来增加输出特性可以代表的尺度。具体来说,我们将输入特征映射划分为几个组。一组滤波器首先从一组输入特征映射中提取特征。然后,将前一组的输出特性与另一组输入特性映射一起发送到下一组滤波器。这个过程重复几次,直到处理完所有的输入特征映射。最后,将所有组的feature map连接起来,发送到另一组1×1的滤波器中,将所有信息融合在一起。随着输入特征转化为输出特征的任何可能路径的出现,当经过3×3滤波器时,等效感受野就会增大,由于组合效应导致了许多等效的特征尺度。
MTA模块根据Res2Net将图中3×3 CNN的卷积换成3D的卷积核,考虑到使用3D卷积会产生大量的参数以及对算力的要求。于是将3D卷积核替换为(2+1)D的这种形式。
2.2.2.R(2+1)D
R(2+1)D结构如下图所示:
单独用一个t×1×1的卷积核来融合时间维度上的信息。这个分解的好处,第一就是两个子卷积之间多出来一个非线性操作,和原来同样参数量的3维卷积相比double了非线性操作,给网络扩容。第二个好处就是时空分解让优化的过程也分解开来,事实上之前发现,3维时空卷积把空间信息和动态信息拧巴在一起,不容易优化。2+1维卷积更容易优化,loss更低。但是如果叠加过多的R(2+1)D结构也会造成训练困难的问题。
3.消融实验
论文中可以学习大佬是如何做消融实验的。
文中为了证明ME和MTA模块的有效性,在不损失通用性的前提下,模型在Something V1训练集中用8帧进行训练,并在验证集上进行评估。为了进行比较,考虑了六个基线网络,其相应的块如图4所示。比较结果,包括分类精度和推理协议,如表1所示:
- (2+1)D ResNet。在标准ResNet块的剩余分支中,在第一个2D空间卷积之后插入一维信道时间卷积。
- (2+1)D Res2Net。信道方向的时间卷积被集成到Res2Net块中[10]。在Res2Net中,ResNet块的3×3空间卷积变形为一组子卷积。
- Multiple Temporal Aggregation (MTA)。将运动激励模块从所提出的TEA网络中移除。
- Motion Excitation(ME)。与(2+1)D ResNet 基准相比,在剩余路径中增加了运动激励模块。
- (2+1)D SENet。SE模块[19,18]取代了ME基线中的运动激励模块。SE模块利用两个完全连接的层从原始特征中产生调制权重,然后应用所获得的权重来重新缩放特征。
- ME w/o Residual。将剩余连接从ME基准中移除。因此,通过直接将输入特征与运动敏感权重相乘来获得输出特征,即
得到的结果是:
3.1.Effect of Multiple Temporal Aggregation.
- Multiple Temporal Aggregation (MTA)与(2+1)D ResNet得到的结果进行比较。结果是(47.5%对46.0%)。体现了利用层次结构来扩大各块中时间维度的等效接收域,可以在MTA模块中构造出能够实现的长距离时间聚集,从而提高了性能。
- (2+1)D ResNet与(2+1)D Res2Net比较。考虑到提出的MTA模块变相的增大了空间和时间的感受野,因此有必要确定这两个方面的独立影响,为此提出了这一次的消融实验。在(2+1)D Res2Net中,只将子卷积组应用于空间维,且时间维的等效接收场不变。结果表明,两条基线的准确度相似,均低于MTA(46.0%/46.2%,47.5%)。这体现了MTA模块对时间信息聚集的能力。
3.2.Effect of Motion Modeling.
- Motion Excitation(ME)与(2+1)D ResNet比较。在表1的第二部分中,我们可以看到,考虑到运动编码,动作识别性能显著提高(48.1%对46.0%)。运动敏感特征的发现将迫使网络关注反映实际行动的动态信息。
- (2+1)D SENet与(2+1)D ResNet比较。因为加入ME模块引入了额外的参数和软注意力机制,为了证明不是因为引入了这些,提出了这次的消融实验。(2+1)D SENet在主干道的起始处加入SE块,以激发信息特征通道。然而,SE块独立地应用于视频的每一帧,并且不考虑时间信息。因此,(2+1)D SENet基线的性能与(2+1)D ResNet基线的性能相似(46.5%对46.0%)。改进是相当有限的。证实了ME模块有将相邻时间维度信息融合的能力。
- Motion Excitation(ME)与ME w/o残差基线比较。可以看出,在没有残留连接的情况下,性能从48.1%下降到47.2%,因为在没有残留连接的情况下,与静态信息相关的背景场景将被消除。结果表明,场景信息对动作识别也有一定的帮助,运动激励模块需要残差连接。
- Motion Excitation(ME)与STM比较。我们可以看到ME比STM有更高的精确度(48.4%比47.5%)这证明了本文方法中使用的激发机制优于STM中使用的简单加法方法。
通过引入MTA模块来考虑长程时间关系,我们的方法(TEA)的准确度可以进一步提高到48.9%。
4.Comparisons with the State-of-the-arts
在本节中,我们首先将TEA与现有最先进的动作识别方法(V1和Kinetics400数据集)进行比较。综合统计,包括分类结果、推理协议和相应的FLOPs,如下图所示:
第一个部分包含基于3D CNNs或2D和3D CNNs混合的方法,第二个部分中的方法都基于2D或(2+1)D CNNs。在现有的所有方法中,效率最高的是TSN8f[44]和TSM8f[27],只有33G的FLOPs。与这些方法相比,我们提出的TEA网络的浮点运算量略有增加,达到35G (1.06倍),但性能有很大提高,相对提高了5.4 % (48.8%对43.4%)。
在Kinetics400上,我们的方法(76.1%)的性能不如SlowFast[7](79.8%)。然而,慢速网络采用基于3D-CNNs的深层网络(ResNet101),并利用耗时的非本地[45]操作。当比较效率相似的方法时,如TSM[27]和STM[22],TEA获得了更好的性能。当采用8帧输入时,TEA比TSM提高了1%的准确率(75.0%比74.1%)。在使用16个输入帧的情况下,我们的TEA方法比TSM16f和STM 16f有更大的优势(76.1%对74.7%/73.7%)。
最后,在表4中报告了HMDB51和UCF101的比较结果。TEA在HMDB51上达到73.3%,在UCF101上达到96.9%。模型(TEA16f)的性能优于除I3D外的大多数现有方法[3]。I3D是基于3D-CNNs和附加的输入形式,因此,它的计算FLOPs将远远超TEA的。
最后,在表4中报告了HMDB51和UCF101的比较结果。TEA在HMDB51上达到73.3%,在UCF101上达到96.9%。模型(TEA16f)的性能优于除I3D外的大多数现有方法[3]。I3D是基于3D-CNNs和附加的输入形式,因此,它的计算FLOPs将远远超TEA的。
这篇关于TEA论文阅读的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!