R语言文本分析《三国演义》

2023-11-04 09:59

本文主要是介绍R语言文本分析《三国演义》,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

数据读取与包的加载

由于最近对文本分析比较感兴趣,所以分析三国演义的文本。

getwd()
setwd("E:\\三国")
library(jiebaR)
library(ggplot2)
library(jpeg)
library(reshape2)
library(wordcloud)

读取前十行

> sanguo <- readLines("E:/三国/三国演义白话文版.txt")#逐行读取数据
> sanguo[1:10]#展现数据前十行[1] "三国演义明?罗贯中"                                                                     [2] "致读者"                                                                                [3] " “大江东去,浪淘尽,千古风流人物……”北宋大文学家苏东坡的一首《念奴娇.赤壁》"           [4] "  ,仅用百字,就生动地使三国英雄的形象跃然纸上,再现了三国时火烧赤壁的悲壮惨烈、波澜"[5] "  壮阔的战争场面。"                                                                  [6] "  《三国演义》是中国历史上继《水浒传》之后的又一部伟大的现实主义巨著,是中国古典"    [7] "  文学宝库中的又一灿烂的瑰宝,波澜壮阔,气象万千。《三国演义》全名《三国志通俗演义"  [8] "  》,取材于三国时近百年的历史事实,经作者进行了文学创作,终成一部浩瀚的鸿篇巨帙,"  [9] "  流传至今,脍炙人口。东汉末年是诸侯割据、天下大乱的年代,英雄造时势,时势出英雄,"  
[10] "  政"     

分词处理

> dictpath <- "三国停词.txt"
> stoppath <- "stopwords.dat" #设置停用词
> cutter <- worker(user="E:/三国/三国停词.txt", bylines = TRUE, stop_word="E:/三国/stopwords.dat")#进行分词
res <- cutter[sanguo]#分词 
> head(res)#展示前六行
[[1]]
[1] "三国演义" "明"       "罗贯中"  [[2]]
[1] "读者"[[3]][1] " "       "大江东去" "浪淘尽"   "千古"     "风流人物" "北宋"    [7] "文学家"   "苏东坡"   "一首"     "念奴娇"   "赤壁"    [[4]][1] " "       " "       "仅用"     "百字"     "生动"     "地使"    [7] "三国"     "英雄"     "形象"     "跃然纸上" "再现"     "三国"    
[13] "时"       "火烧"     "赤壁"     "悲壮"     "惨烈"     "波澜"    [[5]]
[1] " "       " "       "壮阔"     "战争场面"[[6]][1] " "       " "       "三国演义" "中国"     "历史"     "上继"    [7] "水浒传"   "一部"     "现实主义" "巨著"     "中国"     "古典"    

词频统计

> text <- unlist(res)#设置数据类型
> freq <- data.frame(table(text))#设置数据框
> freq <- freq[nchar(as.character(freq$text))>=2,]#提取字符串大于等于2的词
> freq <- freq[order(-freq$Freq),]#对词频进行排序
> str(freq)#浏览freq对象的存储类型和结构
>  head(freq)#读取前六行数据text Freq
1176  曹操 2430
6792  刘备 2266
6130  孔明 1794
3936  关公  862
7023  吕布  692
14075 张飞  602

描绘词频图


roles <- c("曹操|孟德|阿瞒","刘备|玄德|刘玄德","孔明|诸葛亮|卧龙|诸葛孔明","关公|关羽|云长|关云长|长生","吕布|奉先|飞将军","翼德|张飞") #输入人物称谓
role_name = c("曹操","刘备","孔明","关公", "吕布","张飞")#输入人物称谓
role_paras = sapply(roles, grepl, text) #判断
colnames(role_paras) = role_name #修改列名
role_counts = data.frame(role = factor(colnames(role_paras), levels = c("曹操","刘备","孔明","关公", "吕布","张飞")), count = colSums(role_paras)) #统计library(ggplot2)  #加载程序包
ggplot(role_counts, aes(x = role, y = count, fill = role)) + geom_bar(stat = "identity", width = 0.75) + xlab("人物")+ylab("频数")

在这里插入图片描述

这篇关于R语言文本分析《三国演义》的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/345000

相关文章

SpringBoot中六种批量更新Mysql的方式效率对比分析

《SpringBoot中六种批量更新Mysql的方式效率对比分析》文章比较了MySQL大数据量批量更新的多种方法,指出REPLACEINTO和ONDUPLICATEKEY效率最高但存在数据风险,MyB... 目录效率比较测试结构数据库初始化测试数据批量修改方案第一种 for第二种 case when第三种

解决1093 - You can‘t specify target table报错问题及原因分析

《解决1093-Youcan‘tspecifytargettable报错问题及原因分析》MySQL1093错误因UPDATE/DELETE语句的FROM子句直接引用目标表或嵌套子查询导致,... 目录报js错原因分析具体原因解决办法方法一:使用临时表方法二:使用JOIN方法三:使用EXISTS示例总结报错原

深入理解Go语言中二维切片的使用

《深入理解Go语言中二维切片的使用》本文深入讲解了Go语言中二维切片的概念与应用,用于表示矩阵、表格等二维数据结构,文中通过示例代码介绍的非常详细,需要的朋友们下面随着小编来一起学习学习吧... 目录引言二维切片的基本概念定义创建二维切片二维切片的操作访问元素修改元素遍历二维切片二维切片的动态调整追加行动态

MySQL中的LENGTH()函数用法详解与实例分析

《MySQL中的LENGTH()函数用法详解与实例分析》MySQLLENGTH()函数用于计算字符串的字节长度,区别于CHAR_LENGTH()的字符长度,适用于多字节字符集(如UTF-8)的数据验证... 目录1. LENGTH()函数的基本语法2. LENGTH()函数的返回值2.1 示例1:计算字符串

Android kotlin中 Channel 和 Flow 的区别和选择使用场景分析

《Androidkotlin中Channel和Flow的区别和选择使用场景分析》Kotlin协程中,Flow是冷数据流,按需触发,适合响应式数据处理;Channel是热数据流,持续发送,支持... 目录一、基本概念界定FlowChannel二、核心特性对比数据生产触发条件生产与消费的关系背压处理机制生命周期

Go语言中make和new的区别及说明

《Go语言中make和new的区别及说明》:本文主要介绍Go语言中make和new的区别及说明,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录1 概述2 new 函数2.1 功能2.2 语法2.3 初始化案例3 make 函数3.1 功能3.2 语法3.3 初始化

怎样通过分析GC日志来定位Java进程的内存问题

《怎样通过分析GC日志来定位Java进程的内存问题》:本文主要介绍怎样通过分析GC日志来定位Java进程的内存问题,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录一、GC 日志基础配置1. 启用详细 GC 日志2. 不同收集器的日志格式二、关键指标与分析维度1.

Go语言中nil判断的注意事项(最新推荐)

《Go语言中nil判断的注意事项(最新推荐)》本文给大家介绍Go语言中nil判断的注意事项,本文给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的朋友参考下吧... 目录1.接口变量的特殊行为2.nil的合法类型3.nil值的实用行为4.自定义类型与nil5.反射判断nil6.函数返回的

Go语言数据库编程GORM 的基本使用详解

《Go语言数据库编程GORM的基本使用详解》GORM是Go语言流行的ORM框架,封装database/sql,支持自动迁移、关联、事务等,提供CRUD、条件查询、钩子函数、日志等功能,简化数据库操作... 目录一、安装与初始化1. 安装 GORM 及数据库驱动2. 建立数据库连接二、定义模型结构体三、自动迁

MySQL中的表连接原理分析

《MySQL中的表连接原理分析》:本文主要介绍MySQL中的表连接原理分析,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录1、背景2、环境3、表连接原理【1】驱动表和被驱动表【2】内连接【3】外连接【4编程】嵌套循环连接【5】join buffer4、总结1、背景