本文主要是介绍E3D-LSTM,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
ConvLSTM利用的是Conv2D+LSTM,E3D-LSTM提出的是采取Conv3D+LSTM的结构,处理的问题都是视频预测。
在学习E3D-LSTM文章之前,先看一下C3D,C3D其实就是利用Conv3D的一个CNN的网络架构,主要针对的也是视频的数据集,不过处理的问题是识别和分割方面的。C3D文章主要讲Conv2D在池化卷积过程中会丢失时间信息,作为视频数据集,采用Conv3D主要是将“Frame”当做一维放到了Tensor当中去做卷积。
简单来说就是[B,C,F,H,W]的数据([batch,channel,frame,height,width])对后三维做卷积,卷积核自然就变成三维的卷积核了,C3D还对不同size的卷积核做了对比试验,最后3*3*3的卷积核最优。
回到E3D-LSTM,整体大网络的框架是这样的:
Cell的结构是这样的:
这篇关于E3D-LSTM的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!