本文主要是介绍白话RNN系列(二),希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
紧接白话谈RNN系列(一)
上文讨论了基础的全连接神经网络,本文,我们来说说RNN。
首先,RNN相比于普通的神经网络,有什么改进?
两点比较突出:权值共享和隐层神经元节点的有序连接。
直接上图,浅显易懂:
上图,摘自深度学习(花书),左侧图和右侧图表达了相同的含义,我们以右侧图为例,并配合实例,对RNN进行透彻的分析,我尽可能以很通俗移动的方式把RNN讲明白。
从本图中,我们很清晰能够看到权值共享的痕迹,我们可以把X理解为一句话,一个字符序列,后面的字符依赖于前面的字符(当然,这种结构肯定是不完善的,所以会有一些双向RNN等,这里咱不讨论)。
"I love you" 当成一句话,来作为我们RNN的输入,即x,那按照时间序列,第一次输入的就是I, 第二次输入的就是love, 第三次输入的则是you。
这里多说一句,大家会发现图中展示的结构好像与全连接网络有很大的不同,但实际上,我们仔细思考下全连接神经网络,实质就是输入向量与权重矩阵相乘,再经过隐藏层的激活函数,得到下一隐藏层的输入,而实际上,这里的U,如上图,其实就是我们前面所定义的权重矩阵。
而在自然语言处理内部,我们每个词输入的时候,其实输入的是一个one-hot向量,其大小为词表的大小,比如词表大小为100,而I 在其中排在第60的位置,我们输入的x1,其实就是一个一维向量,其大部分元素都是0,仅在index=60的位置上有一个1,当然,这种表达方式不尽完善,大家可以了解下词向量等,可能比one-hot效果好很多。
从上图中,我们看到每个隐藏层神经元都有两个输入,即h和x,这就是RNN隐藏层神经元的神秘之处,除了第一个神经元,余下的神经元都会把前一个神经元的隐藏状态拿来使用,配合本次输入x,拼接成一个大的输入向量使用。
而对于第一个神经元,其使用到的隐藏状态通常是自定义的全零的向量。
OK,我们继续。
重申下上面的定义:输入向量列向量:维度为100。
这里,假设我们的RNN隐藏神经元的数目是128,大家一定要注意,上面右侧的图是分解来来的,他们实际上用到的权值矩阵是完全一样的,其实更深层来说,他们所经过的神经元就是完全一样的,只是我按照时间序列,不断地把输入和上一次隐藏层状态的输入拼接在一起,再次填充给隐藏层的神经元。
输入向量是100维度,隐藏层神经元数目是128维,则之间的权重矩阵U应该是128 * 100 的矩阵,则 U * X 得到一个128 * 1的向量,这一步,跟全连接神经网络完全一致。
我们说了,t时刻的隐藏层的输出,会作为t+1时刻的输入,举个例子,最开始我输入了100维度的向量,得到了128维度的输出,那在第二秒的时候,我就会把这128维的向量,作为隐藏状态,再次输入到隐藏层中去。
因此,U和W是不同的,因为其处理的往往是不同维度的向量,U负责处理x,而W负责处理隐藏状态。
我们确定了U(100 * 128)的维度,现在来说下W的维度。
看看W接收到的输入是128 * 1的隐藏状态,所以W 肯定是N * 128 维度的矩阵。
我们知道: U * x + W * h(t-1) ,通常,我们会把x和h(t-1) 进行拼接,拼接出228 * 1的向量,同时把U和W进行堆叠,最终输出的才是隐层状态(其维度为128 * 1)。
则U和W的堆叠应该为128 * 228的矩阵,而实际上,这个拼接出来的矩阵应该是分块矩阵,其左上角是U,右下角是W。
形如: 而同时x和h(t-1)的拼接则形如:
后面的x和h(t-1) 均为列向量,拼接出来的维度为228 * 1。
则前面的矩阵大小,应该为128 * 228 ,最终产出的是128 * 1的隐藏层向量,其中U的大小为128 * 100, 则W的大小毫无疑问为128 * 128。
很好理解,因为W处理的是隐层状态到隐层状态,其维度很容易确定(这些分析看似无意义,但对于实现代码是很有帮助的)。
稍微总结下:W的维度为128 * 128 ,U的维度为128 * 100 ,隐藏层神经元同时处理上一隐藏层的状态和本次的输入向量(228 * 1),最终得到隐藏层的输出向量:128 * 1。
而这个隐藏层的输出,又会不断地向后面的神经元进行传递。
OK,到这里我们分析清楚了RNN产生的隐藏层输出的来龙,我们再看下隐藏层输出的去脉。
从解释图中可以看出,隐藏层的输出去了两个方向,一个产生了本次的输出,一个流向下一次状态,流向下一次状态的我们不讨论了,看下流向本次输出的隐层状态:
这里涉及到了一个新的矩阵:V,毫无疑问,又是一个全连接:V * h(t-1) 再加上激活函数,得到最终的输出o(t)。
看到了吧,RNN与普通的全连接神经网络区别并不大,只是其加上了权值共享(这里的权值共享的利用与卷积神经网络不完全一样,重要的是循环输入)。
上图中的大部分参数都说清楚了,但还有一个参数没详细介绍,即 t ,其表示当前输入的时刻,也代表了当前RNN循环的次数。
讲清楚了这个过程,RNN的前向传播很容易理解,我们这里举个使用RNN的例子,看下在实际实现中,RNN是如何发挥作用的;
直接找个代码例子进行分析,方便快捷:以下例子是从吴金洪老师的《深度学习之Tensorflow》一书拿到的例子:
需求:搭建一个简单的RNN神经网络,使用一串随机的模拟数据作为原始信号,让RNN来拟合其对应的回声序列,比如我们输入的样本数据为随机的由0,1组成的数字,将其当成发射出去的一串信号,当碰到阻拦会反弹回来后,会收到原始信号的回音
这个例子,需要几个步骤来进行,本文只介绍样本数据的产出,后续系列详情介绍程序的完整实现:
total_series_length = 50000
echo_step = 3
batch_size = 5
def generateData():x = np.array(np.random.choice(2, total_series_length, p=[0.5, 0.5])) # 在0 和1 中选择total_series_length个数y = np.roll(x, echo_step) # 向右循环移位【1111000】---【0001111】y[0:echo_step] = 0# 原本50000个元素,拆分成5个批次,每个批次是1000个x = x.reshape((batch_size, -1)) # 5,10000print(x.shape)y = y.reshape((batch_size, -1)) # 同样是5,10000print(y.shape)return (x, y)
这里,我们定义了一个产生数据的函数:
echo_step定义了我们产生回音的时间,比如我们输入50000个数字,在第三步才产生回音,则回音的前三个数字都会默认定义为0。
上面的np.random.choice函数,其参数中,2等同于range的作用,定义序列中数字为0,1;total_series_length定义序列总长度,p代表概率,即序列中每个元素为0和为1的概率均为0.5。
产生长度均为50000的输入序列x和回声序列y后,我们对齐进行reshape操作,变换为5*10000的矩阵,这里的reshape和numpy.reshape用途是一致的。
系列下文将对程序进行分析。
这篇关于白话RNN系列(二)的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!