白话RNN系列(二)

2024-09-06 05:38
文章标签 系列 rnn 白话

本文主要是介绍白话RNN系列(二),希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

紧接白话谈RNN系列(一)

上文讨论了基础的全连接神经网络,本文,我们来说说RNN。

首先,RNN相比于普通的神经网络,有什么改进?

两点比较突出:权值共享和隐层神经元节点的有序连接。

直接上图,浅显易懂:

è¿éåå¾çæè¿°

上图,摘自深度学习(花书),左侧图和右侧图表达了相同的含义,我们以右侧图为例,并配合实例,对RNN进行透彻的分析,我尽可能以很通俗移动的方式把RNN讲明白。

从本图中,我们很清晰能够看到权值共享的痕迹,我们可以把X理解为一句话,一个字符序列,后面的字符依赖于前面的字符(当然,这种结构肯定是不完善的,所以会有一些双向RNN等,这里咱不讨论)。

"I love you" 当成一句话,来作为我们RNN的输入,即x,那按照时间序列,第一次输入的就是I, 第二次输入的就是love, 第三次输入的则是you。

这里多说一句,大家会发现图中展示的结构好像与全连接网络有很大的不同,但实际上,我们仔细思考下全连接神经网络,实质就是输入向量与权重矩阵相乘,再经过隐藏层的激活函数,得到下一隐藏层的输入,而实际上,这里的U,如上图,其实就是我们前面所定义的权重矩阵。

而在自然语言处理内部,我们每个词输入的时候,其实输入的是一个one-hot向量,其大小为词表的大小,比如词表大小为100,而I 在其中排在第60的位置,我们输入的x1,其实就是一个一维向量,其大部分元素都是0,仅在index=60的位置上有一个1,当然,这种表达方式不尽完善,大家可以了解下词向量等,可能比one-hot效果好很多。

从上图中,我们看到每个隐藏层神经元都有两个输入,即h和x,这就是RNN隐藏层神经元的神秘之处,除了第一个神经元,余下的神经元都会把前一个神经元的隐藏状态拿来使用,配合本次输入x,拼接成一个大的输入向量使用。

而对于第一个神经元,其使用到的隐藏状态通常是自定义的全零的向量。

OK,我们继续。

重申下上面的定义:输入向量列向量:维度为100。

这里,假设我们的RNN隐藏神经元的数目是128,大家一定要注意,上面右侧的图是分解来来的,他们实际上用到的权值矩阵是完全一样的,其实更深层来说,他们所经过的神经元就是完全一样的,只是我按照时间序列,不断地把输入和上一次隐藏层状态的输入拼接在一起,再次填充给隐藏层的神经元。

输入向量是100维度,隐藏层神经元数目是128维,则之间的权重矩阵U应该是128 * 100 的矩阵,则 U * X 得到一个128 * 1的向量,这一步,跟全连接神经网络完全一致。

我们说了,t时刻的隐藏层的输出,会作为t+1时刻的输入,举个例子,最开始我输入了100维度的向量,得到了128维度的输出,那在第二秒的时候,我就会把这128维的向量,作为隐藏状态,再次输入到隐藏层中去。

因此,U和W是不同的,因为其处理的往往是不同维度的向量,U负责处理x,而W负责处理隐藏状态。

我们确定了U(100 * 128)的维度,现在来说下W的维度。

看看W接收到的输入是128 * 1的隐藏状态,所以W 肯定是N * 128 维度的矩阵。

我们知道: U * x + W *  h(t-1) ,通常,我们会把x和h(t-1) 进行拼接,拼接出228 * 1的向量,同时把U和W进行堆叠,最终输出的才是隐层状态(其维度为128 * 1)。

则U和W的堆叠应该为128 * 228的矩阵,而实际上,这个拼接出来的矩阵应该是分块矩阵,其左上角是U,右下角是W。

形如:\begin{bmatrix} U & W \end{bmatrix} 而同时x和h(t-1)的拼接则形如:\begin{pmatrix} x\\ h(t-1) \end{pmatrix}

后面的x和h(t-1) 均为列向量,拼接出来的维度为228 * 1。

则前面的矩阵大小,应该为128 * 228 ,最终产出的是128 * 1的隐藏层向量,其中U的大小为128 * 100, 则W的大小毫无疑问为128 * 128。

很好理解,因为W处理的是隐层状态到隐层状态,其维度很容易确定(这些分析看似无意义,但对于实现代码是很有帮助的)。

稍微总结下:W的维度为128 * 128 ,U的维度为128 * 100 ,隐藏层神经元同时处理上一隐藏层的状态和本次的输入向量(228 * 1),最终得到隐藏层的输出向量:128 * 1。

而这个隐藏层的输出,又会不断地向后面的神经元进行传递。

OK,到这里我们分析清楚了RNN产生的隐藏层输出的来龙,我们再看下隐藏层输出的去脉。

从解释图中可以看出,隐藏层的输出去了两个方向,一个产生了本次的输出,一个流向下一次状态,流向下一次状态的我们不讨论了,看下流向本次输出的隐层状态:

这里涉及到了一个新的矩阵:V,毫无疑问,又是一个全连接:V * h(t-1) 再加上激活函数,得到最终的输出o(t)。

看到了吧,RNN与普通的全连接神经网络区别并不大,只是其加上了权值共享(这里的权值共享的利用与卷积神经网络不完全一样,重要的是循环输入)。

上图中的大部分参数都说清楚了,但还有一个参数没详细介绍,即 t ,其表示当前输入的时刻,也代表了当前RNN循环的次数。

讲清楚了这个过程,RNN的前向传播很容易理解,我们这里举个使用RNN的例子,看下在实际实现中,RNN是如何发挥作用的;

直接找个代码例子进行分析,方便快捷:以下例子是从吴金洪老师的《深度学习之Tensorflow》一书拿到的例子:

需求:搭建一个简单的RNN神经网络,使用一串随机的模拟数据作为原始信号,让RNN来拟合其对应的回声序列,比如我们输入的样本数据为随机的由0,1组成的数字,将其当成发射出去的一串信号,当碰到阻拦会反弹回来后,会收到原始信号的回音

这个例子,需要几个步骤来进行,本文只介绍样本数据的产出,后续系列详情介绍程序的完整实现:

total_series_length = 50000
echo_step = 3
batch_size = 5
def generateData():x = np.array(np.random.choice(2, total_series_length, p=[0.5, 0.5]))  # 在0 和1 中选择total_series_length个数y = np.roll(x, echo_step)  # 向右循环移位【1111000】---【0001111】y[0:echo_step] = 0# 原本50000个元素,拆分成5个批次,每个批次是1000个x = x.reshape((batch_size, -1))  # 5,10000print(x.shape)y = y.reshape((batch_size, -1))  # 同样是5,10000print(y.shape)return (x, y)

这里,我们定义了一个产生数据的函数:

echo_step定义了我们产生回音的时间,比如我们输入50000个数字,在第三步才产生回音,则回音的前三个数字都会默认定义为0。

上面的np.random.choice函数,其参数中,2等同于range的作用,定义序列中数字为0,1;total_series_length定义序列总长度,p代表概率,即序列中每个元素为0和为1的概率均为0.5。

产生长度均为50000的输入序列x和回声序列y后,我们对齐进行reshape操作,变换为5*10000的矩阵,这里的reshape和numpy.reshape用途是一致的。

系列下文将对程序进行分析。

这篇关于白话RNN系列(二)的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1141153

相关文章

Spring Security 从入门到进阶系列教程

Spring Security 入门系列 《保护 Web 应用的安全》 《Spring-Security-入门(一):登录与退出》 《Spring-Security-入门(二):基于数据库验证》 《Spring-Security-入门(三):密码加密》 《Spring-Security-入门(四):自定义-Filter》 《Spring-Security-入门(五):在 Sprin

科研绘图系列:R语言扩展物种堆积图(Extended Stacked Barplot)

介绍 R语言的扩展物种堆积图是一种数据可视化工具,它不仅展示了物种的堆积结果,还整合了不同样本分组之间的差异性分析结果。这种图形表示方法能够直观地比较不同物种在各个分组中的显著性差异,为研究者提供了一种有效的数据解读方式。 加载R包 knitr::opts_chunk$set(warning = F, message = F)library(tidyverse)library(phyl

【生成模型系列(初级)】嵌入(Embedding)方程——自然语言处理的数学灵魂【通俗理解】

【通俗理解】嵌入(Embedding)方程——自然语言处理的数学灵魂 关键词提炼 #嵌入方程 #自然语言处理 #词向量 #机器学习 #神经网络 #向量空间模型 #Siri #Google翻译 #AlexNet 第一节:嵌入方程的类比与核心概念【尽可能通俗】 嵌入方程可以被看作是自然语言处理中的“翻译机”,它将文本中的单词或短语转换成计算机能够理解的数学形式,即向量。 正如翻译机将一种语言

flume系列之:查看flume系统日志、查看统计flume日志类型、查看flume日志

遍历指定目录下多个文件查找指定内容 服务器系统日志会记录flume相关日志 cat /var/log/messages |grep -i oom 查找系统日志中关于flume的指定日志 import osdef search_string_in_files(directory, search_string):count = 0

GPT系列之:GPT-1,GPT-2,GPT-3详细解读

一、GPT1 论文:Improving Language Understanding by Generative Pre-Training 链接:https://cdn.openai.com/research-covers/languageunsupervised/language_understanding_paper.pdf 启发点:生成loss和微调loss同时作用,让下游任务来适应预训

Java基础回顾系列-第七天-高级编程之IO

Java基础回顾系列-第七天-高级编程之IO 文件操作字节流与字符流OutputStream字节输出流FileOutputStream InputStream字节输入流FileInputStream Writer字符输出流FileWriter Reader字符输入流字节流与字符流的区别转换流InputStreamReaderOutputStreamWriter 文件复制 字符编码内存操作流(

Java基础回顾系列-第五天-高级编程之API类库

Java基础回顾系列-第五天-高级编程之API类库 Java基础类库StringBufferStringBuilderStringCharSequence接口AutoCloseable接口RuntimeSystemCleaner对象克隆 数字操作类Math数学计算类Random随机数生成类BigInteger/BigDecimal大数字操作类 日期操作类DateSimpleDateForma

Java基础回顾系列-第三天-Lambda表达式

Java基础回顾系列-第三天-Lambda表达式 Lambda表达式方法引用引用静态方法引用实例化对象的方法引用特定类型的方法引用构造方法 内建函数式接口Function基础接口DoubleToIntFunction 类型转换接口Consumer消费型函数式接口Supplier供给型函数式接口Predicate断言型函数式接口 Stream API 该篇博文需重点了解:内建函数式

Java基础回顾系列-第二天-面向对象编程

面向对象编程 Java类核心开发结构面向对象封装继承多态 抽象类abstract接口interface抽象类与接口的区别深入分析类与对象内存分析 继承extends重写(Override)与重载(Overload)重写(Override)重载(Overload)重写与重载之间的区别总结 this关键字static关键字static变量static方法static代码块 代码块String类特

Java基础回顾系列-第六天-Java集合

Java基础回顾系列-第六天-Java集合 集合概述数组的弊端集合框架的优点Java集合关系图集合框架体系图java.util.Collection接口 List集合java.util.List接口java.util.ArrayListjava.util.LinkedListjava.util.Vector Set集合java.util.Set接口java.util.HashSetjava