R语言文本分析《三国演义》

2023-11-04 09:59

本文主要是介绍R语言文本分析《三国演义》,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

数据读取与包的加载

由于最近对文本分析比较感兴趣,所以分析三国演义的文本。

getwd()
setwd("E:\\三国")
library(jiebaR)
library(ggplot2)
library(jpeg)
library(reshape2)
library(wordcloud)

读取前十行

> sanguo <- readLines("E:/三国/三国演义白话文版.txt")#逐行读取数据
> sanguo[1:10]#展现数据前十行[1] "三国演义明?罗贯中"                                                                     [2] "致读者"                                                                                [3] " “大江东去,浪淘尽,千古风流人物……”北宋大文学家苏东坡的一首《念奴娇.赤壁》"           [4] "  ,仅用百字,就生动地使三国英雄的形象跃然纸上,再现了三国时火烧赤壁的悲壮惨烈、波澜"[5] "  壮阔的战争场面。"                                                                  [6] "  《三国演义》是中国历史上继《水浒传》之后的又一部伟大的现实主义巨著,是中国古典"    [7] "  文学宝库中的又一灿烂的瑰宝,波澜壮阔,气象万千。《三国演义》全名《三国志通俗演义"  [8] "  》,取材于三国时近百年的历史事实,经作者进行了文学创作,终成一部浩瀚的鸿篇巨帙,"  [9] "  流传至今,脍炙人口。东汉末年是诸侯割据、天下大乱的年代,英雄造时势,时势出英雄,"  
[10] "  政"     

分词处理

> dictpath <- "三国停词.txt"
> stoppath <- "stopwords.dat" #设置停用词
> cutter <- worker(user="E:/三国/三国停词.txt", bylines = TRUE, stop_word="E:/三国/stopwords.dat")#进行分词
res <- cutter[sanguo]#分词 
> head(res)#展示前六行
[[1]]
[1] "三国演义" "明"       "罗贯中"  [[2]]
[1] "读者"[[3]][1] " "       "大江东去" "浪淘尽"   "千古"     "风流人物" "北宋"    [7] "文学家"   "苏东坡"   "一首"     "念奴娇"   "赤壁"    [[4]][1] " "       " "       "仅用"     "百字"     "生动"     "地使"    [7] "三国"     "英雄"     "形象"     "跃然纸上" "再现"     "三国"    
[13] "时"       "火烧"     "赤壁"     "悲壮"     "惨烈"     "波澜"    [[5]]
[1] " "       " "       "壮阔"     "战争场面"[[6]][1] " "       " "       "三国演义" "中国"     "历史"     "上继"    [7] "水浒传"   "一部"     "现实主义" "巨著"     "中国"     "古典"    

词频统计

> text <- unlist(res)#设置数据类型
> freq <- data.frame(table(text))#设置数据框
> freq <- freq[nchar(as.character(freq$text))>=2,]#提取字符串大于等于2的词
> freq <- freq[order(-freq$Freq),]#对词频进行排序
> str(freq)#浏览freq对象的存储类型和结构
>  head(freq)#读取前六行数据text Freq
1176  曹操 2430
6792  刘备 2266
6130  孔明 1794
3936  关公  862
7023  吕布  692
14075 张飞  602

描绘词频图


roles <- c("曹操|孟德|阿瞒","刘备|玄德|刘玄德","孔明|诸葛亮|卧龙|诸葛孔明","关公|关羽|云长|关云长|长生","吕布|奉先|飞将军","翼德|张飞") #输入人物称谓
role_name = c("曹操","刘备","孔明","关公", "吕布","张飞")#输入人物称谓
role_paras = sapply(roles, grepl, text) #判断
colnames(role_paras) = role_name #修改列名
role_counts = data.frame(role = factor(colnames(role_paras), levels = c("曹操","刘备","孔明","关公", "吕布","张飞")), count = colSums(role_paras)) #统计library(ggplot2)  #加载程序包
ggplot(role_counts, aes(x = role, y = count, fill = role)) + geom_bar(stat = "identity", width = 0.75) + xlab("人物")+ylab("频数")

在这里插入图片描述

这篇关于R语言文本分析《三国演义》的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/345000

相关文章

Spring事务中@Transactional注解不生效的原因分析与解决

《Spring事务中@Transactional注解不生效的原因分析与解决》在Spring框架中,@Transactional注解是管理数据库事务的核心方式,本文将深入分析事务自调用的底层原理,解释为... 目录1. 引言2. 事务自调用问题重现2.1 示例代码2.2 问题现象3. 为什么事务自调用会失效3

找不到Anaconda prompt终端的原因分析及解决方案

《找不到Anacondaprompt终端的原因分析及解决方案》因为anaconda还没有初始化,在安装anaconda的过程中,有一行是否要添加anaconda到菜单目录中,由于没有勾选,导致没有菜... 目录问题原因问http://www.chinasem.cn题解决安装了 Anaconda 却找不到 An

Spring定时任务只执行一次的原因分析与解决方案

《Spring定时任务只执行一次的原因分析与解决方案》在使用Spring的@Scheduled定时任务时,你是否遇到过任务只执行一次,后续不再触发的情况?这种情况可能由多种原因导致,如未启用调度、线程... 目录1. 问题背景2. Spring定时任务的基本用法3. 为什么定时任务只执行一次?3.1 未启用

使用Python实现文本转语音(TTS)并播放音频

《使用Python实现文本转语音(TTS)并播放音频》在开发涉及语音交互或需要语音提示的应用时,文本转语音(TTS)技术是一个非常实用的工具,下面我们来看看如何使用gTTS和playsound库将文本... 目录什么是 gTTS 和 playsound安装依赖库实现步骤 1. 导入库2. 定义文本和语言 3

C语言中的数据类型强制转换

《C语言中的数据类型强制转换》:本文主要介绍C语言中的数据类型强制转换方式,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录C语言数据类型强制转换自动转换强制转换类型总结C语言数据类型强制转换强制类型转换:是通过类型转换运算来实现的,主要的数据类型转换分为自动转换

利用Go语言开发文件操作工具轻松处理所有文件

《利用Go语言开发文件操作工具轻松处理所有文件》在后端开发中,文件操作是一个非常常见但又容易出错的场景,本文小编要向大家介绍一个强大的Go语言文件操作工具库,它能帮你轻松处理各种文件操作场景... 目录为什么需要这个工具?核心功能详解1. 文件/目录存javascript在性检查2. 批量创建目录3. 文件

C语言实现两个变量值交换的三种方式

《C语言实现两个变量值交换的三种方式》两个变量值的交换是编程中最常见的问题之一,以下将介绍三种变量的交换方式,其中第一种方式是最常用也是最实用的,后两种方式一般只在特殊限制下使用,需要的朋友可以参考下... 目录1.使用临时变量(推荐)2.相加和相减的方式(值较大时可能丢失数据)3.按位异或运算1.使用临时

使用C语言实现交换整数的奇数位和偶数位

《使用C语言实现交换整数的奇数位和偶数位》在C语言中,要交换一个整数的二进制位中的奇数位和偶数位,重点需要理解位操作,当我们谈论二进制位的奇数位和偶数位时,我们是指从右到左数的位置,本文给大家介绍了使... 目录一、问题描述二、解决思路三、函数实现四、宏实现五、总结一、问题描述使用C语言代码实现:将一个整

Python实现常用文本内容提取

《Python实现常用文本内容提取》在日常工作和学习中,我们经常需要从PDF、Word文档中提取文本,本文将介绍如何使用Python编写一个文本内容提取工具,有需要的小伙伴可以参考下... 目录一、引言二、文本内容提取的原理三、文本内容提取的设计四、文本内容提取的实现五、完整代码示例一、引言在日常工作和学

C++ 各种map特点对比分析

《C++各种map特点对比分析》文章比较了C++中不同类型的map(如std::map,std::unordered_map,std::multimap,std::unordered_multima... 目录特点比较C++ 示例代码 ​​​​​​代码解释特点比较1. std::map底层实现:基于红黑