本文主要是介绍SlowFast学习,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
SlowFast简介
尽管图像分类的准确率已经很高,视频分类工作的准确度也仍达不到近似于人类的理解层次,因此不能用传统的卷积分类方法来对视频进行分类,于是Facebook的AI研究团队提出了一种新方法来SlowFast分析视频片段里的内容。该方法受启发于人类视网膜神经元的工作机制,使用了一个快通道来分析视频中人类的动作,还有一个慢通道来识别视频中人物活动的背景。
SlowFast工作原理
SlowFast卷积原理
上图是SlowFast网络的工作原理。卷积核的尺寸记作{T×S², C},其中T、S和C分别表示时序, 空间和频道的尺寸。速度比率(跳帧率) 为α,代表Fast通道帧率为Slow通道的α倍,频道比率为β,代表Fast通道的卷积核个数为Slow通道的1/β。
快慢通道进行多轮卷积、池化和侧向连接之后送入一个全连接层,该层使用softmax得出预测结果。
侧向连接
每一轮卷积之后,Fast通道要把提取好的动作特征融合到Slow通道中,这样子Slow通道在下一轮卷积中就可以分别按顺序提取背景特征和动作特征,用于更好地识别人物的动作,但是两个特征矩阵的大小并不一致,论文中给出了三种融合策略:
1.将Fast通道的{αT, S², βC} 特征矩阵变形转置为 {T , S², αβC},就是说把α帧压入一帧
2.简单地每隔α帧进行采样,{αT , S², βC} 就变换为 {T , S², βC}
3.用一个5×1^2的卷积核对Fast通道的特征矩阵进行3D卷积操作,输出时间维度与Slow通道一致的特征矩阵并进行拼接
SlowFast网络实例
上图为一个SlowFast网络实例,在拿到一个视频时,要先对其进行抽帧操作,使其分为Slow和Fast两个通道的数据,然后分别对两个通道的数据进行卷积,并进行侧向连接,为了减少模型训练过程中的过拟合现象,后几层网络采用resnet网络进行卷积操作。
这篇关于SlowFast学习的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!