PredRNN: Recurrent Neural Networks for Predictive Learning using Spatiotemporal LSTMs

本文主要是介绍PredRNN: Recurrent Neural Networks for Predictive Learning using Spatiotemporal LSTMs,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!



这是一篇2017年发表在顶级期刊NIPS上的文章,作者通过发现传统RNN/LSTM网络的不足,提出了一种新的网络结构PredRNN,并且为这一网络结构设计了一种新的RNN单元(ST-LSTM)。由于博主能力有限,通过阅读原文短时间能只是领悟到PredRNN这一网络结构的思想,而并未对ST-LSTM的设计灵感有更深的体会。

下面这篇博文主要是来介绍一下什么是PredRNN,以及通过作者的设计思路能带给我们的思考是什么。首先简单的说一下这篇文章的目的:这篇文章所要解决的问题同之前一篇博文所介绍的论文 Convolutional LSTM Network: A Machine Learning Approach for Precipitation Nowcasting 一样,都是通过对历史序列数据的训练学习来预测来下一时刻的结果,并且这类数据都是类“图片”形式的,也就是二维且多通道。例如前面说的降雨量预测模型(ConvLSTM),交通流量预测模型(DeepST)等都符合预测具有这类特征的数据。下面就是论文的大致内容:


1.对当前现有方法的总结

在论文中,作者首先对现有该领域的一些方法做了总结,并将之大体分为两类:

The RNN-based architectures: their predicted images tend to blur due to a loss of fine-grained visual appearances

The CNN-based architectures: prone to focus on spatial appearances and relatively weak in capturing long-term motions.

作者指出,基于RNN结构的缺点在于丢失了空间上的信息;基于CNN的结构则着重于空间上的特征而丢失了时间维度上的信息。但知晓ConvLSTM的朋友可能会问,那为什么不用ConvLSTM呢?而这就要从RNN/LSTM网络结构上的根源说起。虽然这篇论文有两个创新点:PredRNN网络结构和新的RNN单元ST-LSTM,但是在我自己看来最为重要的还是PredRNN这一网络结构的思想。同时,既然作者提出了PredRNN这一网络结构,那显然就是按照作者的意图,传统的结构丢失了某些东西,因而提出了新的网络结构。

2.PredRNN

以作者论文中所列举的4层ConvLSTM为例(图p0087),按照作者的观点这种结构的缺陷在于层与层之间是独立的,其忽略了顶层单元对底层单元的影响。

在这里插入图片描述

In this process, spatial representations are encoded layer-by-layer, with hidden states being delivered from bottom to top. However, the memory cells that belong to these four layers are mutually independent and updated merely in time domain. Under these circumstances, the bottom layer would totally ignore what had been memorized by the top layer at the previous time step.

也就是说,传统的多层RNN网络之间的连接方式忽略了 t 时刻顶层cell对 t+1 时刻底层cell的影响,并且在作者看来这种影响的作用是非常大的。那怎么办呢?于是乎作者就设计出了PredRNN这一网络结构(如图p0088).

在这里插入图片描述
图中的橙色箭头作者称之为"Spatiotemporal memory flow",这种连接方式就解决了前面所提到的问题。下图(p0089)是一个更直观的在ConvLSTM上以PredRNN连接方式的网络。

在这里插入图片描述

3.ST-LSTM

作者为了使得这种网络结构能够发挥出更好的效果,又重新设计了一种新的RNN单元,作者称之为"Spatiotemporal LSTM(ST-LSTM)"。至于作者提出ST-LSTM的原因我们放到后面再总结。

在这里插入图片描述

如图p0090就是ST-LSTM的结构图,为了便于理解我画成了如下形式(p0091)

在这里插入图片描述

可以发现,其总体的连接结构为两个LSTM的组合,且通过 M \mathcal{M} M来作为Spatiotemporal memory flow。同时,作者将图p0091中的上半部分称为’Standard Temporal Memory’,下半部分称为’Spatiotemporal Memory’。具体的计算公式如下:

g t = t a n h ( W g ∗ [ X t , H t − 1 l ] + b g ) i t = σ ( W i ∗ [ X t , H t − 1 l ] + b i ) f t = σ ( W f ∗ [ X t , H t − 1 l ] + b f ) C t l = f t ⊙ C t − 1 l + i t ⊙ g t g t ′ = tanh ⁡ ( W g ′ ∗ [ X t , M t l − 1 ] + b g ′ ) i t ′ = σ ( W i ′ ∗ [ X t , M t l − 1 ] + b i ′ ) f t ′ = σ ( W i ′ ∗ [ X t , M t l − 1 ] + b f ′ ) M t l = f t ′ ⊙ M t l − 1 + i t ′

这篇关于PredRNN: Recurrent Neural Networks for Predictive Learning using Spatiotemporal LSTMs的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/860020

相关文章

MonoHuman: Animatable Human Neural Field from Monocular Video 翻译

MonoHuman:来自单目视频的可动画人类神经场 摘要。利用自由视图控制来动画化虚拟化身对于诸如虚拟现实和数字娱乐之类的各种应用来说是至关重要的。已有的研究试图利用神经辐射场(NeRF)的表征能力从单目视频中重建人体。最近的工作提出将变形网络移植到NeRF中,以进一步模拟人类神经场的动力学,从而动画化逼真的人类运动。然而,这种流水线要么依赖于姿态相关的表示,要么由于帧无关的优化而缺乏运动一致性

简单的Q-learning|小明的一维世界(3)

简单的Q-learning|小明的一维世界(1) 简单的Q-learning|小明的一维世界(2) 一维的加速度世界 这个世界,小明只能控制自己的加速度,并且只能对加速度进行如下三种操作:增加1、减少1、或者不变。所以行动空间为: { u 1 = − 1 , u 2 = 0 , u 3 = 1 } \{u_1=-1, u_2=0, u_3=1\} {u1​=−1,u2​=0,u3​=1}

简单的Q-learning|小明的一维世界(2)

上篇介绍了小明的一维世界模型 、Q-learning的状态空间、行动空间、奖励函数、Q-table、Q table更新公式、以及从Q值导出策略的公式等。最后给出最简单的一维位置世界的Q-learning例子,从给出其状态空间、行动空间、以及稠密与稀疏两种奖励函数的设置方式。下面将继续深入,GO! 一维的速度世界 这个世界,小明只能控制自己的速度,并且只能对速度进行如下三种操作:增加1、减

A Comprehensive Survey on Graph Neural Networks笔记

一、摘要-Abstract 1、传统的深度学习模型主要处理欧几里得数据(如图像、文本),而图神经网络的出现和发展是为了有效处理和学习非欧几里得域(即图结构数据)的信息。 2、将GNN划分为四类:recurrent GNNs(RecGNN), convolutional GNNs,(GCN), graph autoencoders(GAE), and spatial–temporal GNNs(S

OpenSNN推文:神经网络(Neural Network)相关论文最新推荐(九月份)(一)

基于卷积神经网络的活动识别分析系统及应用 论文链接:oalib简介:  活动识别技术在智能家居、运动评估和社交等领域得到广泛应用。本文设计了一种基于卷积神经网络的活动识别分析与应用系统,通过分析基于Android搭建的前端采所集的三向加速度传感器数据,对用户的当前活动进行识别。实验表明活动识别准确率满足了应用需求。本文基于识别的活动进行卡路里消耗计算,根据用户具体的活动、时间以及体重计算出相应活

Complex Networks Package for MatLab

http://www.levmuchnik.net/Content/Networks/ComplexNetworksPackage.html 翻译: 复杂网络的MATLAB工具包提供了一个高效、可扩展的框架,用于在MATLAB上的网络研究。 可以帮助描述经验网络的成千上万的节点,生成人工网络,运行鲁棒性实验,测试网络在不同的攻击下的可靠性,模拟任意复杂的传染病的传

Convolutional Neural Networks for Sentence Classification论文解读

基本信息 作者Yoon Kimdoi发表时间2014期刊EMNLP网址https://doi.org/10.48550/arXiv.1408.5882 研究背景 1. What’s known 既往研究已证实 CV领域著名的CNN。 2. What’s new 创新点 将CNN应用于NLP,打破了传统NLP任务主要依赖循环神经网络(RNN)及其变体的局面。 用预训练的词向量(如word2v

【机器学习】生成对抗网络(Generative Adversarial Networks, GANs)详解

🌈个人主页: 鑫宝Code 🔥热门专栏: 闲话杂谈| 炫酷HTML | JavaScript基础 ​💫个人格言: "如无必要,勿增实体" 文章目录 生成对抗网络(Generative Adversarial Networks, GANs)详解GANs的基本原理GANs的训练过程GANs的发展历程GANs在实际任务中的应用小结 生成对

Learning Memory-guided Normality for Anomaly Detection——学习记忆引导的常态异常检测

又是一篇在自编码器框架中研究使用记忆模块的论文,可以看做19年的iccv的论文的衍生,在我的博客中对19年iccv这篇论文也做了简单介绍。韩国人写的,应该是吧,这名字听起来就像。 摘要abstract 我们解决异常检测的问题,即检测视频序列中的异常事件。基于卷积神经网络的异常检测方法通常利用代理任务(如重建输入视频帧)来学习描述正常情况的模型,而在训练时看不到异常样本,并在测试时使用重建误

Learning Temporal Regularity in Video Sequences——视频序列的时间规则性学习

Learning Temporal Regularity in Video Sequences CVPR2016 无监督视频异常事件检测早期工作 摘要 由于对“有意义”的定义不明确以及场景混乱,因此在较长的视频序列中感知有意义的活动是一个具有挑战性的问题。我们通过在非常有限的监督下使用多种来源学习常规运动模式的生成模型(称为规律性)来解决此问题。体来说,我们提出了两种基于自动编码器的方法,以