本文主要是介绍2015-【精读】Fusing Multi-Stream Deep Networks for Video Classification,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
Fusing Multi-Stream Deep Networks for Video Classification 2015
arxiv: http://arxiv.org/abs/1509.06086
本文利用多模态线索进行视频分类,结合了音频信息进行建模,在UCF-101数据集上最后有音频与无音频信息实验结果相差0.4%。使用了三个卷积神经网络分别对空间、短期运动和音频线索进行建模,在卷积神经网络的空间和短期运动特征上进一步采用LSTM进行长期时间建模。然后使用提出的融合方法,自适应地学习每个类别的融合权重。
本文贡献:
1.介绍了一个多流框架,该框架整合了视频中的空间,短期运动,长期时间和听觉线索。我们证明了多流网络能够消化互补信息,从而显著提高性能。
2.提出了一种简单有效的融合方法来组合各个网络的输出。该方法针对每个类别自适应地学习融合权重,并且能够在权重学习过程中利用类别关系。我们从经验上证明,类关系正则化器非常有效。
摘要:
本文研究了深度网络架构来解决视频分类问题。提出了一种多流框架来充分利用视频中丰富的多模式信息。具体来说,首先训练三个卷积神经网络分别对空间、短期运动和音频线索进行建模。然后采用长短期记忆网络来探索长期时间动态。利用各个流的输出,我们提出了一种简单有效的融合方法来生成最终预测,其中针对每个类别自适应地学习最佳融合权重,并通过自动估计的类别关系对学习过程进行规范化。我们的贡献是双重的。首先,提出的多留框架能够利用比以前尝试的功能更全面的多模式功能。其次,我们证明了使用类关系作为正则化器的自适应融合方法优于以“自由”方式估算权重的传统替代方法。在两个流行的基准上我们的框架所产生的结果要比最新技术要好得多,UCF-101 的92.2%(不使用音频)和CCV的84.9%。
1.介绍
训练了三个ConvNet,分别对静态空间信息,短期运动和听觉线索进行建模。运动流是根据短时间窗口上的堆叠光流计算的,因此只能捕获短期运动。为了对长期的时间线索进行建模,我们对ConvNets提取的帧级空间和运动特征采用了递归神经网络(RNN)模型,即长短期记忆(LSTM)。LSTM将历史信息编码在用非线性门调节的存储单元中,以发现时间依赖性。为了合并来自不同网络的输出,我们开发了一种简单而有效的融合方法来自适应地学习每个类别的最佳融合权重。我们建议使用估计的类关系来规范权重学习过程,而不是用其他标签。这有助于将类上下文注入最终的预测中,从而可以显著改善结果。
3.方法
3.1多流卷积网
视频通常会承载大量的多模式信息,通常会显示某些场景下物体在一段时间内的运动和交互作用,伴随着人的声音或背景声音。因此,视频数据可以自然地分解为空间,运动和音频流。由单个帧组成的空间流描述了静态外观信息,而运动流捕获了由连续帧演示的对象或场景运动。此外,音频流中的声音提供了关键的线索,这些线索通常是视觉对应的补充。受最近的双流方法激励,我们训练了三个ConvNet以利用多模式信息。
简而言之,空间ConvNet使用原始帧作为输入,我们在图像识别任务中采用了具有卓越性能的深度架构。它可以有效地识别具有清晰可辨的外观特征的某些视频语义。对于运动流,我们根据训练在堆叠光流上运行的ConvNet模型。更具体地说,通过以水平和垂直方式计算位移矢量,光流对每个相对帧之间的对象的微妙运动模式进行编码,这些运动模式可以转换为两个流图像作为运动流ConvNet的输入。先前的研究表明,由于包含了相对更紧凑的运动,因此可以通过在短时间窗口内堆叠连续的光流图像来获得进一步的改进。为了利用音频信息,我们首先应用短时傅立叶变换将一维音轨转换为二维图像(声谱图),其水平轴和垂直轴分别为时间标度和频率标度。然后,使用ConvNet对频谱图进行操作。ConvNet非常适合基于频谱图的音频信号建模,并具有权重共享和最大池化机制,以努力实现小频移的不变性。
3.2长期时间建模
由于运动流ConvNet仅捕获短期运动模式,因此我们进一步采用LSTM对视频通道中的长期时间线索进行建模。LSTM是一种流行的RNN模型,该模型将存储单元与多个门结合在一起,以学习长期依赖性,而不会像传统RNN一样遭受梯度消失和爆炸的影响。通过将输入序列递归映射到具有隐藏LSTM单位的输入标签,它能够利用任意长度的数据序列的时间信息。每个单元都维护一个内置存储单元,该单元随时存储由几个非线性门单元保护的信息,以控制变化量和存储内容的影响。
图2说明了隐藏LSTM单元的典型结构。在我们框架中,我们将xt表示为第t个时间步的视频帧或堆叠的光流图像的特征表示。通常,LSTM通过从网络递归计算单元中的激活,将输入序列(x1,x2,。。。xT)映射到输出标签(y1,y2,。。。,yT)。t=1到t=T的时间t,存储单元ct的激活向量,输入门和因此状态ht计算过程:
其中wxc,whc,wxo,who,wco是连接两个不同单元的权重矩阵。bc,bo是偏差项,是s型函数,并且是元素方式的乘积算子。注意,it和ft是输入门和忘记门的激活向量,它们的权重矩阵计算:
根据以上等式,在第t时间步tc处的存储单元的内容被计算为当前输入和先前存储内容ct-1的加权和。输入和遗忘门(it和ft)强加正则化已确定是考虑新信息还是遗忘旧信息。另外,输出门ot控制来自存储器内容的信息量,该信息量传递给隐藏状态ht以影响下一时间步的计算。
作为神经网络,通过堆叠来自层L-1的隐藏状态作为下一层L的输入,可以轻松加深LSTM模型。为了在时间步长t上获得总共c个类别的预测得分,将softmax层放置在最后一个LSTM层L的顶部,以将第C个类别的后验概率pc估计为:
其中uc和bc代表相应的权重向量和第c类的偏差项。可以使用“时间反向传播”(BPTT)算法训练这种LSTM网络,该算法将模型展开到前馈神经网络中,然后反向传播以确定最佳网络参数。由于此输出是根据整个序列中的信息计算得出的,因此我们将最后一层的输出作为视频级预测得分。使用最后一层输出比在所有时间步长汇总预测要好。
3.3自适应多流融合
给定多个网络流(ConvNet和LSTM)的预测分数,我们能够从不同方面捕获视频特征。有效融合多流得分以生成最终预测至关重要。不同的语义类与具有不同强度的多个流相关联。例如,某些类别与可以在空间流中有效识别的特定对象紧密相关,而其他类别可能包含戏剧性的运动,因此短期运动和长期时间线索可以发挥更大作用。传统的融合方法通常在流级别执行,而不考虑特定于类的首选项。此外,大多数现有的模型融合研究都忽略了可以作为补充信息以提高性能的类关系。接下来,我们介绍所提出的自适应多流融合方法,该方法能够自适应地确定每个类别的最佳融合权重。还可以自动识别高度相关的类,并在方法中利用它们之间的关系。
形式上,我们将来自第m个流的预测分数表示为
c为类别数,令为最终的预测标签。后期融合的一种之间方法是将最终预测计算为
。在此,f是转换函数,可以是线性函数,对数函数等。但是,这种后期融合方法会统一处理所有类别,而无需考虑它们的不同特性。
与统一融合方法不同,我们尝试通过不仅组合流之间的分数,而且还利用类知识作为先验以提供附加信息,从而针对每个类别自适应地集成来自多个流的预测。为此,我们首先将训练样本n的多个得分向量堆叠为系数
然后可以了解最佳的特定于类别的融合权重与逻辑回归为:
其中yn,c是类别C的第n个样本的ground-truth标签,并且
但是,使用上述配方进行直接优化通常会导致过度拟合,并在测试集上产生有限的性能。为了减轻这种情况并考虑到类别关系,我们以关系为先导来指导权重的学习。更准确地说,我们首先使用相应的预测得分以第m个流计算类别的相关矩阵Vm,其中每个条目Vij表示具有类别i的真实标签的样本的真实标签的样本的百分比被错误地归类为j类。对每个流使用单独的相关矩阵的愿意是,不同流中捕获的类关系可能非常不同。接下来,我们堆叠所有所有流的相似性矩阵,以将权重学习过程正规化为:
其中,第一项是衡量真实标签Y与预测得分S之间差异的经验损失,第二项使用类别相关性作为先验对融合权重进行正则化。对于每个相似度矩阵Vm,非对角项表明了不同类别之间的相似性,可用于通过借鉴高度相关类别的信息来指导权重学习过程。
另外,我们还合并了1范数正则化,以在权重矩阵上施加稀疏性,这在某种程度上可以帮助避免无关类的信息共享。使用两个正则化术语,我们都有以下优化问题:(6)
综上所属,通过将类相关矩阵作为先验,我们的融合方法可将由系数约束规则化的经验损失将至最低,从而有效地得出类自适应融合权重。
尽管上述方程式中的损失函数是凸函数,但由于存在非光滑项,因此求解起来并不容易。为了有效地解决优化问题,我们采用近端梯度下降法将目标函数分为平滑部分和费平滑部分:
w在k+1迭代中的更新可以简单地计算为:
其中Proxh表示1范数的软阈值。额外的计算成本在对于近端算子的估计。由于可以在线性时间内进行解析,因此上述优化过程非常有效。
3.4实施细节和讨论
ConvNet模型。在这项工作中,我们采用了两种ConvNet架构:用于捕获短期运动和音频线索的CNN M 模型,以及针对空间流的最新的更深层次的VGG19架构。CNN M基本上是AlexNet的变体,其中包括更多的过滤器,其中包含五个卷积层,然后是三个完全连接的层。VGG19不仅减少了卷积滤波器的大小和步幅,而且将网络的深度扩展到总共19层,使体系结构具有学习更强大表示的能力。这两个深度网络在ImageNet ILSVRC-2012验证集上分别实现了13.5%和7.5%top-5错误率。所有ConvNet模型均使用固定为0.9的动量的小批量随机梯度下降训练。我们的实现是基于公开可用的caffe工具箱进行的一些修改。输入视频帧被统一固定位224*224的大小。另外,我们还执行简单的数据扩充,例如裁剪和翻转。
首先使用ILSVRC-2012训练集对空间和音频ConvNets进行预训练,获得120万张图像,然后使用训练视频数据进行微调。为了微调空间和音频ConvNet,我们将学习率从14-3迭代后的10-3逐渐降低到10-4,然后在20K迭代后降低到10-5.另外,对完全连接的层以0.5的比率施加压降,以避免过度拟合。
为了训练运动ConvNet,我们首先使用的GPU实现来计算光流,并将光流堆叠在每个10帧窗口中,以接收20通道光流图像作为输入(一个水平通道和一个垂直通道)。与恐惧ConvNet和音频ConvNet不同,我们通过采用0.7dropout率并将学习率初始设置为10-2从头开始训练运动ConvNet,在100K迭代后将其降低为10-3,然后在200K后降低为10-4.我们还尝试使用VGG19网络进行训练运动的ConvNet,但观察到的结果更糟,因为网络包含更多的参数,使用有限的训练视频数据无法对其进行很好地调整。
LSTM。我们采用[15]提出的两层LSTM模型进行时间建模。使用分别从空间和运动ConvNets的第一个完全连接层提取的特征作为输入来训练两个模型。每个LSTM在第一层中都有1024个隐藏单元,在第二层中有512个隐藏单元。我们利用最小批量大小为10的BPTT算法的并行实现来训练网络权重,其中学习率和动量设置为10-4和0.9.此外,我们将最大训练迭代次数设置为150K。在本文中,我们通过将音频信号作为单个流并用于视频分类来关注多流框架。进一步将音频轨道分解成多个片段以提取更详细的时间音频动力学是可行的。
融合,如公式6所示,提出的自适应融合策略在经验损失和两个正则项之间寻求折中。我们统一将λ2固定为10-3,以鼓励权重矩阵中的稀疏性。使用交叉验证从{10 -5,10 -4,10 -3,10 -2}中选择参数λ1。
讨论区,所提出的多流框架具有通过自适应地融合音频,静态空间,短期运动和长期时间想线索来对视频数据进行全面建模的能力。如上所述,这样的框架由多个单独训练的深度网络组成。尽管联合训练整个框架是可行的,但它很复杂且对计算要求很高。最近一项使用ConvNet进行LSTM联合训练的工作将UCF101基准测试的结果从70.5%(单独的网络训练)提高到71.1%,这不是很重要。此外,分别训练多个深度网络是方法更加灵活,可以在不重新训练整个框架的情况下更换组件。例如,人民可以利用更加具有判别力的ConvNet模型,例如GoogLeNet和更深的RNN模型,分别替换当前的ConvNet和LSTM不见,已获得更好的性能。因此在这项工作中,我们着重介绍多流视频分类的通用框架。通过提出的自适应融合方法,经验证明这种多流框架对于视频分类任务是有效的。
4.实验
4.1实验设置
数据集和评估措施,UCF-101 [38]是用于人类动作识别的广泛采用的数据集,包含注释为101个动作类别的13,320个视频剪辑。所有视频剪辑的固定帧速率均为25 fps,空间分辨率为320×240像素。 该数据集具有挑战性,因为大多数视频是在不受控制的环境下捕获的,其中包括摄像机运动,背景混乱和类内差异很大。 我们遵循建议的实验方案,并报告了三个训练和测试组的平均准确性。
哥伦比亚消费者视频(CCV)数据集[20]包含9,317个YouTube视频和20个类别。 大多数类别都是“篮球”,“毕业典礼”和“婚礼舞”之类的活动。 一些是场景和对象,例如“海滩”和“狗”。 按照[20],我们采用建议的训练和测试划分,并计算每个班级的平均精度(AP)。 平均AP(mAP)用于衡量此数据集的总体性能。
这两个数据集具有非常不同的特征。除了定义的语义类别不同之外,CCV的平均视频持续时间为80秒,是UCF-101的十倍左右。 对这两个数据集进行测试有助于评估我们的多流分类方法的有效性和泛化能力。
替代融合方法。为了验证我们的自适应多流融合方法的有效性,我们与以下备选方案进行了比较:(1)平均融合,其中将多个网络的平均得分用作最终预测; (2)加权融合,其中分数与通过交叉验证估算的权重线性融合; (3)内核平均融合,其中将分数用作特征,并对从不同网络得分计算出的内核进行平均以训练SVM分类器; (4)多重内核学习(MKL)融合,其中使用p范数MKL算法将内核进行组合[22]; (5)Logistic回归融合,其中训练了Logistic回归模型以估计融合权重。
4.2结果与讨论
4.2.1多流网络
我们首先报告两个数据集上每个流的能性能。此后,采用平均融合来研究两个或多个流是否互补。所提出的自适应融合方法将在以后进行评估。
表1报告了结果。 比较UCF-101上结果的前两个单元,有趣的是观察到空间LSTM优于空间ConvNet,并且运动LSTM也可与运动ConvNet相提并论。 这主要是由于以下事实:长期的时间线索在基于ConvNet的分类中被完全丢弃其中包含LSTM可以利用的有价值的信息。
在CCV数据集上,无论在空间流还是运动流上,ConvNet都比LSTM取得明显更好的结果。 这是因为CCV中的类要么是高级事件,要么是对象/场景。 与人类行为相比,这些类别的时间线索更加模糊,因此很难被捕获。 而且,CCV视频在时间上没有修剪,可能包含与类无关的重要内容部分,这使得时间建模任务更加困难。
使用频谱图操作的音频ConvNets在UCF-101上产生16.2%,在CCV上产生21.5%。 请注意,UCF-101中只有51类具有音频信号,而51类子集的性能实际上为32.1%。 音频流比两个数据集上的空间流和运动流都差得多,这证实了视觉通道比音频通道具有更多信息。
接下来,我们评估多个网络的组合,以研究融合是否可以补偿描述复杂视频数据时单个流的局限性。 采用简单的平均融合。 结果总结在表1的后三组中。我们首先评估通过整合分别由ConvNet和LSTM建模的空间和运动信息而获得的收益。 在UCF101上,与最佳单流结果相比,观察到了显着的改进(对于ConvNet,大约为6%,对于LSTM为3%)。 CCV的增益是一致的,但不如UCF-101的增益大,这表明短期运动对于人体行为分析更为关键。 请注意,空间和运动卷积网络的平均融合遵循[36]中提出的双流方法的相同思想。 我们采用这种方法所产生的性能比[36]中最初报告的要差一些(86.2%对88.0%)。
我们还将ConvNet和LSTM分别融合在两个流上,以研究长期时间建模的贡献。 总体而言,我们在两个数据集上均观察到非常一致的改进。 特别是在CCV上,尽管单个LSTM模型比ConvNet差,但将它们组合在一起可以带来显着的改进。特别是,在运动流上获得了近12%的增益。 这些结果表明,即使是在较长的CCV视频中对复杂内容进行建模的情况下,长期的时间线索也对基于ConvNet的预测高度互补。
最后,两个流上ConvNet和LSTM的组合(用“ ConvNet + LSTM(空间+运动)”表示)在UCF-101和CCV上分别达到90.1%和81.7%。 进一步添加音频ConvNet(“所有流”)可以改善结果,特别是在CCV上,CCV包含许多类,这些类可以通过听觉线索(例如,体育赛事中的欢呼声)部分显示出来。 总之,融合结果清楚地表明,我们方法中的所有多峰线索都是有用的,应该在成功的视频分类系统中采用。(将静态空间和运动融合起来,证明融合的结果是好的)
4.2.2自适应多流融合
在本小节中,我们评估提出的自适应多流融合方法,并将其与替代方法进行比较。 表2给出了结果。 我们看到,所有方法都比单个流产生更好的结果。 简单的平均融合和加权融合比基于学习的核融合和逻辑回归融合稍好,这表明以“自由”方式融合预测分数的学习容易过拟合。 内核平均融合显示出比MKL更好的结果,这与以前的一些研究(如[12])中的观察结果一致。
我们提出的自适应多流融合(底行)以明显的优势胜过所有替代方案。 为了研究我们的方法中两个正则化器的贡献,我们分别将λ1和λ2设为零。 可以看出,类关系正则化器(λ2 = 0)比稀疏性正则化器(λ1 = 0)扮演着更重要的角色。这证实了使用类关系的有效性,这不仅带来了有用的上下文信息,而且还有助于防止过度拟合。 这两个正则化器是互补的,因为稀疏性诱导规范通过减轻错误的信息共享而进一步增强了鲁棒性。 请注意,在消除两个正则化函数时,我们的融合方法会退化为标准逻辑回归融合。
音频线索的贡献在两个数据集上都相似(“ -A”表示不使用音频ConvNet的相同方法)。 音频在UCF101上仅提高了0.4%,因为只有一半的视频片段包含声音轨道。总体而言,在UCF-101上,自适应多流融合的收益更为重要,因为它具有更多的语义共享类。 图3进一步显示了CCV上每个类别的表现,从中我们可以看到,融合为所有类别带来了非常一致且显着的改进。
5.结论
我们提出了用于视频分类的深度网络的多流框架。 该框架利用了比以前采用的功能更全面的多模式功能。具体来说,标准ConvNets应用于音频频谱图,视觉框架和堆叠的光流分别利用视频中的音频,空间和短期运动线索。在ConvNets的空间和短期运动特征上进一步采用LSTM进行长期时间建模。 然后使用一种新颖的方法融合来自不同流的输出,该方法可以自适应地学习每个类别的融合权重。 通过对先验信息和稀疏性进行正则化,权重学习过程探索了语义类的相关性,同时抑制了无关类之间不适当的知识共享。 我们的结果证实,所有采用的流不仅可以有效地建模短片中的简单人类动作,而且可以有效地建模Internet上未经时间修剪的视频中的复杂事件。 通过我们提出的自适应融合方法将所有流组合在一起,在两个流行的基准上均以明显的优势胜过了同类方法。
这篇关于2015-【精读】Fusing Multi-Stream Deep Networks for Video Classification的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!