循环神经网络系列(六)基于LSTM的唐诗生成

2024-03-30 00:08

本文主要是介绍循环神经网络系列(六)基于LSTM的唐诗生成,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!


1. 思路

这个示例在很多地方都出现过,对于学习理解LSTM的原理极有帮助,因此我们下面就来一步一步地弄清楚其中的奥秘所在!

对于循环神经网络来说,我们首先需要做的仍旧是找到一种将数据序列化的方法。当然,对于古诗词来说,每个字的出现顺序就是天然的一个序列,因此我们就可以直接按照这个序列来处理。并且一首古诗词可以看成是一个样本(为了叙述方便,我们下面仅以一首诗的第一句为例子),例如[[床前明月光],[小时不识月]]为两个样本。

1.1 网络训练模型

现在暂时假设我们的训练集中只有两个样本x=[[床前明月光],[小时不识月]],那么想想此时对应的标签应该是什么?回想一下,我们的目的是利用循环网络来写诗,也就是说当我们把模型训练好了之后,直接喂给模型第一个字,它就能写出一句(或一首)诗了;既然如此,那么我们的训练过程就应该是学习每首古诗中,所有字的一个出现顺序。所以,对于床前明月光这个样本来说,其对应的标签值就应该是前明月光光。由此可知,我们的网络模型就应该大致长这样:

接下来,为了能更清晰的叙述网络结构而不被其它因素影响,我们在这个小节中就直接用一个汉字来表示一个维度(实际中要将一个汉字转为n维的词向量)。此时,训练样本的维度就应该是shape=[2,5,1]。在这个示例中,我们采用了两层的LSTM网络外加一个softmax的全连接层,并且LSTM网络的输出维度output_size=32,于是我们就可以画出下面这个网络示意图:

从图中可以看到,第一步:我们是将shape = [2,5,1]的训练集喂给LSTM网络,然后从网络得到shape=[2,5,32]的输出;第二步:我们将LSTM网络得到的输出reshape成[10,32]的矩阵;第三步:再将上一步的结果喂给最后一个softmax全连接网络,这样就能完成对于每个字的分类任务了。

对于第二步为什么要reshape然后喂给第三部的全连接网络,我们可以这样想:假如是一个样本的话,那么LSTM的输出大小就为[1,5,32],也就是说第一步喂进去的每一个字通过LSTM这个网络处理之后都变成一个[1,32]的向量化表示方式,只是第2个字保留了第一个字里面的信息,第3个字保留了跟前面的信息等等。这也就有点类似于卷积网络中先用卷积层对图片进行特征提取,然后再做一个分类处理。于是乎我们就可以发现,其实LSTM网络的本质也是在做一个特征提取的工作,区别于卷积网络的就是:卷积网络提取的是基于空间上的特征,而循环网络提取的是基于时间序列上的特征。至于最后以层,该分类就分类处理,该回归就回归处理。

1.2 网络预测模型

当网络经过训练完成后就可以拿来预测了,只不过在预测的时候我们喂给网络的就只是一个字了;然后用当前预测得到的字作为下一个字;如下图所示:

1.3 数据处理

经过上面的讲解,我们大致明白了基于LSTM网络古诗生成原理:先用LSTM做特征提取,然后分类。既然最后我们要完成的是一个分类任务,那么我们不得不做的就是将所有的类别给整理处理,也就是所有的数据集中一共包含了多少个不同的字,因为我们来做的就是根据上一个字预测下一个字。

同时由于我们处理的是文本信息,因此我们需要将每个字都采用词(字)向量的形式表示,由于没有现成的词向量,所有我们要再LSTM的前面假加入一个词嵌入层。

最后,为了避免最终的分类数过于庞大,可以选择去掉出现频率较小的字,比如可以去掉只出现过一次的字。

总结一下数据预处理的步骤:

  • 1.统计出所有不同的字,并做成一个字典;
  • 2.对于每首诗,将每个字、标点都转换为字典中对应的编号,构成X;
  • 3.将X整体左移动以为构成Y

2. 代码讲解

在此首先感谢Github上的jinfagang,hzy46这两位作者,因为整体代码都是参照的他们的,加了一点点自己的元素。

2.1 数据预处理

先来看看原始的数据集长什么样:

首春:寒随穷律变,春逐鸟声开。初风飘带柳,晚雪间花梅。碧林青旧竹,绿沼翠新苔。芝田初雁去,绮树巧莺来。
初晴落景:晚霞聊自怡,初晴弥可喜。日晃百花色,风动千林翠。池鱼跃不同,园鸟声还异。寄言博通者,知予物外志。

而我们需要得到的是类似于这样的:

X:
[[1,4,6,3,2,5,3,0,0,0],[5,6,4,3,9,1,0,0,0,0]]Y:
[[4,6,3,2,5,3,0,0,0,0],[6,4,3,9,1,0,0,0,0,0]]

其中的0表示,我设定了一首诗的最大长度,如果不足就补0(因为每首诗的长度不一样);而其它的数字则表示诗中每个字以及标点在字典中的索引。同时,为了后面的生成诗时候的转换,我们还需要得到字典。

而这只需要tensorflow中的几行代码就能搞定(友情提示:在统计词频使用Counter()这个类时,对于同一词频的词在字典中的排列顺序window平台和linux平台的处理结果不一样)。以下只是部分代码,完整参见源码中的data_helper.py模块

    vocab_processor = VocabularyProcessor(max_document_length

这篇关于循环神经网络系列(六)基于LSTM的唐诗生成的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/860013

相关文章

MySQL中动态生成SQL语句去掉所有字段的空格的操作方法

《MySQL中动态生成SQL语句去掉所有字段的空格的操作方法》在数据库管理过程中,我们常常会遇到需要对表中字段进行清洗和整理的情况,本文将详细介绍如何在MySQL中动态生成SQL语句来去掉所有字段的空... 目录在mysql中动态生成SQL语句去掉所有字段的空格准备工作原理分析动态生成SQL语句在MySQL

Java利用docx4j+Freemarker生成word文档

《Java利用docx4j+Freemarker生成word文档》这篇文章主要为大家详细介绍了Java如何利用docx4j+Freemarker生成word文档,文中的示例代码讲解详细,感兴趣的小伙伴... 目录技术方案maven依赖创建模板文件实现代码技术方案Java 1.8 + docx4j + Fr

Java编译生成多个.class文件的原理和作用

《Java编译生成多个.class文件的原理和作用》作为一名经验丰富的开发者,在Java项目中执行编译后,可能会发现一个.java源文件有时会产生多个.class文件,从技术实现层面详细剖析这一现象... 目录一、内部类机制与.class文件生成成员内部类(常规内部类)局部内部类(方法内部类)匿名内部类二、

使用Jackson进行JSON生成与解析的新手指南

《使用Jackson进行JSON生成与解析的新手指南》这篇文章主要为大家详细介绍了如何使用Jackson进行JSON生成与解析处理,文中的示例代码讲解详细,感兴趣的小伙伴可以跟随小编一起学习一下... 目录1. 核心依赖2. 基础用法2.1 对象转 jsON(序列化)2.2 JSON 转对象(反序列化)3.

springboot循环依赖问题案例代码及解决办法

《springboot循环依赖问题案例代码及解决办法》在SpringBoot中,如果两个或多个Bean之间存在循环依赖(即BeanA依赖BeanB,而BeanB又依赖BeanA),会导致Spring的... 目录1. 什么是循环依赖?2. 循环依赖的场景案例3. 解决循环依赖的常见方法方法 1:使用 @La

java中使用POI生成Excel并导出过程

《java中使用POI生成Excel并导出过程》:本文主要介绍java中使用POI生成Excel并导出过程,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录需求说明及实现方式需求完成通用代码版本1版本2结果展示type参数为atype参数为b总结注:本文章中代码均为

在java中如何将inputStream对象转换为File对象(不生成本地文件)

《在java中如何将inputStream对象转换为File对象(不生成本地文件)》:本文主要介绍在java中如何将inputStream对象转换为File对象(不生成本地文件),具有很好的参考价... 目录需求说明问题解决总结需求说明在后端中通过POI生成Excel文件流,将输出流(outputStre

Python循环缓冲区的应用详解

《Python循环缓冲区的应用详解》循环缓冲区是一个线性缓冲区,逻辑上被视为一个循环的结构,本文主要为大家介绍了Python中循环缓冲区的相关应用,有兴趣的小伙伴可以了解一下... 目录什么是循环缓冲区循环缓冲区的结构python中的循环缓冲区实现运行循环缓冲区循环缓冲区的优势应用案例Python中的实现库

C/C++随机数生成的五种方法

《C/C++随机数生成的五种方法》C++作为一种古老的编程语言,其随机数生成的方法已经经历了多次的变革,早期的C++版本使用的是rand()函数和RAND_MAX常量,这种方法虽然简单,但并不总是提供... 目录C/C++ 随机数生成方法1. 使用 rand() 和 srand()2. 使用 <random

Flask 验证码自动生成的实现示例

《Flask验证码自动生成的实现示例》本文主要介绍了Flask验证码自动生成的实现示例,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习... 目录生成图片以及结果处理验证码蓝图html页面展示想必验证码大家都有所了解,但是可以自己定义图片验证码