Mxnet (19): 循环神经网络（RNN）上

本文主要是介绍Mxnet (19): 循环神经网络（RNN）上，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

在生活中经常能够遇见序列数据，有些是根据时间更改，例如天气，股票，经济指数等，有些是有上下文关联的，如音乐、文章。为了更好的处理这些数据，从业工作者设计出了循环神经网络。它通过引入状态变量来存储过去的信息，并通过其与输入共同决定当前输出，咋感觉有点像残差块。

循环神经网络常用于处理序列数据，如一段文字或声音、购物或观影的顺序，甚至是图像中的一行或一列像素。因此，循环神经网络有这广泛的实际应用，如语音模型、文本分类、机器翻译、语音识别、图像分析、手写识别和推荐系统。

许多循环网络的示例都是基于文本数据。主要介绍模型。

1. 序列模型

对序列数据往往没有我们想象的那么简单，能够更好的理解序列：

涉及到打开程序的时间，许多用户会有非常特殊的行为。如社交媒体应用在放学后更受到学生的欢迎。当市场开放时，股票交易软件使用更频繁。
预测明天的股价要比推算昨天遗漏的股价要难得多，远见要比后见难得多，马后炮还是好放的。预测超出已知的观测值称为外推法，估计现有观测值之间称为内插法。
音乐、语音、文字和视频本质上都是有顺序的。如果我们将他们的顺序调换，他们的意义就变了，如牛吃草和草吃牛，意义完全不一样。
地震之间的相关性很强，即在发生大地震后，很可能会发生几次较小的余震，比没有发生强烈的余震要严重的多。实际上，地震是时空相关的，也就是说，余震通常发生在很短的时间范围内并且非常接近。
人与人之间的互动也是具有时序的，如辩论，battle。

对于序列模型的处理，需要对应的统计工具。

假设通过如下方程预测t位置的值 $x_t$

$x_t∼P(x_t∣x_{t−1},…,x_1)$

为了实现预测，可以使用回归模型。这里存在一个问题就是：输入的数量取决于t。就是说如果数据量越大那么输入量也就跟着变大，因此输入值无法确定，处理这个问题有如下两种思路：

设定一个定长τ，只通过 $x_{t−1},…,x_{t−τ}$ 观察。这样做的好处是，在t>τ,输入数量可以确定。这样的模型被称为自回归模型，因为他们实际上是对其自身进行回归。
通过对之前数据进行总结。 $h_t$ 是过去的数据，在预测 $\hat{x}_t$ 时，也更新 $h_t$ 。这样模型通过 $\hat{x}_t = P(x_t \mid h_{t})$ 和不断更新的 $h_t=g(h_{t−1},x_{t−1})$ 预测 $x_t$ 。由于自始至终 $h_t$ 都没有被观测到，这个模型也称为潜在自回归模型。