本文主要是介绍Mxnet (19): 循环神经网络(RNN)上,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
在生活中经常能够遇见序列数据,有些是根据时间更改,例如天气,股票,经济指数等,有些是有上下文关联的,如音乐、文章。为了更好的处理这些数据,从业工作者设计出了循环神经网络。它通过引入状态变量来存储过去的信息,并通过其与输入共同决定当前输出,咋感觉有点像残差块。
循环神经网络常用于处理序列数据,如一段文字或声音、购物或观影的顺序,甚至是图像中的一行或一列像素。因此,循环神经网络有这广泛的实际应用,如语音模型、文本分类、机器翻译、语音识别、图像分析、手写识别和推荐系统。
许多循环网络的示例都是基于文本数据。主要介绍模型。
1. 序列模型
对序列数据往往没有我们想象的那么简单,能够更好的理解序列:
- 涉及到打开程序的时间,许多用户会有非常特殊的行为。如社交媒体应用在放学后更受到学生的欢迎。当市场开放时,股票交易软件使用更频繁。
- 预测明天的股价要比推算昨天遗漏的股价要难得多,远见要比后见难得多,马后炮还是好放的。预测超出已知的观测值称为外推法,估计现有观测值之间称为内插法。
- 音乐、语音、文字和视频本质上都是有顺序的。如果我们将他们的顺序调换,他们的意义就变了,如牛吃草和草吃牛,意义完全不一样。
- 地震之间的相关性很强,即在发生大地震后,很可能会发生几次较小的余震,比没有发生强烈的余震要严重的多。实际上,地震是时空相关的,也就是说,余震通常发生在很短的时间范围内并且非常接近。
- 人与人之间的互动也是具有时序的,如辩论,battle。
1.1 统计工具
对于序列模型的处理,需要对应的统计工具。
假设通过如下方程预测t位置的值 x t x_t xt
x t ∼ P ( x t ∣ x t − 1 , … , x 1 ) x_t∼P(x_t∣x_{t−1},…,x_1) xt∼P(xt∣xt−1,…,x1)
1.1.1 自回归模型
为了实现预测,可以使用回归模型。这里存在一个问题就是:输入的数量取决于t。就是说如果数据量越大那么输入量也就跟着变大,因此输入值无法确定,处理这个问题有如下两种思路:
- 设定一个定长τ,只通过 x t − 1 , … , x t − τ x_{t−1},…,x_{t−τ} xt−1,…,xt−τ 观察。这样做的好处是,在t>τ,输入数量可以确定。这样的模型被称为自回归模型,因为他们实际上是对其自身进行回归。
- 通过对之前数据进行总结。 h t h_t ht是过去的数据,在预测 x ^ t \hat{x}_t x^t时,也更新 h t h_t ht。这样模型通过 x ^ t = P ( x t ∣ h t ) \hat{x}_t = P(x_t \mid h_{t}) x^t=P(xt∣ht)和不断更新的 h t = g ( h t − 1 , x t − 1 ) h_t=g(h_{t−1},x_{t−1}) ht=g(ht−1,xt−1)预测 x t x_t xt。由于自始至终 h t h_t ht都没有被观测到,这个模型也称为潜在自回归模型。
那么如何生成训练数据呢,到目前为止都是通过使用历史观测值来预测下一个观测值。假设序列 w 1 w_1 w1, w 2 w_2 w2,…, w T w_T wT中的每个词是依次生成的:
P ( x 1 , … , x T ) = ∏ t = 1 T P ( x t ∣ x t − 1 , … , x 1 ) P(x_1, \ldots, x_T) = \prod_{t=1}^T P(x_t \mid x_{t-1}, \ldots, x_1) P(x1,…,xT)=t=1∏TP(xt∣xt−1,…,x1)
一段含有4个词的文本序列的概率:
P ( w 1 , w 2 , w 3 , w 4 ) = P ( w 1 ) P ( w 2 ∣ w 1 ) P ( w 3 ∣ w
这篇关于Mxnet (19): 循环神经网络(RNN)上的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!