R语言文本分析《三国演义》

2024-04-17 12:38

本文主要是介绍R语言文本分析《三国演义》,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

数据读取与包的加载

由于最近对文本分析比较感兴趣,所以分析三国演义的文本。

getwd()
setwd("E:\\三国")
library(jiebaR)
library(ggplot2)
library(jpeg)
library(reshape2)
library(wordcloud)

读取前十行

> sanguo <- readLines("E:/三国/三国演义白话文版.txt")#逐行读取数据
> sanguo[1:10]#展现数据前十行[1] "三国演义明?罗贯中"                                                                     [2] "致读者"                                                                                [3] " “大江东去,浪淘尽,千古风流人物……”北宋大文学家苏东坡的一首《念奴娇.赤壁》"           [4] "  ,仅用百字,就生动地使三国英雄的形象跃然纸上,再现了三国时火烧赤壁的悲壮惨烈、波澜"[5] "  壮阔的战争场面。"                                                                  [6] "  《三国演义》是中国历史上继《水浒传》之后的又一部伟大的现实主义巨著,是中国古典"    [7] "  文学宝库中的又一灿烂的瑰宝,波澜壮阔,气象万千。《三国演义》全名《三国志通俗演义"  [8] "  》,取材于三国时近百年的历史事实,经作者进行了文学创作,终成一部浩瀚的鸿篇巨帙,"  [9] "  流传至今,脍炙人口。东汉末年是诸侯割据、天下大乱的年代,英雄造时势,时势出英雄,"  
[10] "  政"     

分词处理

> dictpath <- "三国停词.txt"
> stoppath <- "stopwords.dat" #设置停用词
> cutter <- worker(user="E:/三国/三国停词.txt", bylines = TRUE, stop_word="E:/三国/stopwords.dat")#进行分词
res <- cutter[sanguo]#分词 
> head(res)#展示前六行
[[1]]
[1] "三国演义" "明"       "罗贯中"  [[2]]
[1] "读者"[[3]][1] " "       "大江东去" "浪淘尽"   "千古"     "风流人物" "北宋"    [7] "文学家"   "苏东坡"   "一首"     "念奴娇"   "赤壁"    [[4]][1] " "       " "       "仅用"     "百字"     "生动"     "地使"    [7] "三国"     "英雄"     "形象"     "跃然纸上" "再现"     "三国"    
[13] "时"       "火烧"     "赤壁"     "悲壮"     "惨烈"     "波澜"    [[5]]
[1] " "       " "       "壮阔"     "战争场面"[[6]][1] " "       " "       "三国演义" "中国"     "历史"     "上继"    [7] "水浒传"   "一部"     "现实主义" "巨著"     "中国"     "古典"    

词频统计

> text <- unlist(res)#设置数据类型
> freq <- data.frame(table(text))#设置数据框
> freq <- freq[nchar(as.character(freq$text))>=2,]#提取字符串大于等于2的词
> freq <- freq[order(-freq$Freq),]#对词频进行排序
> str(freq)#浏览freq对象的存储类型和结构
>  head(freq)#读取前六行数据text Freq
1176  曹操 2430
6792  刘备 2266
6130  孔明 1794
3936  关公  862
7023  吕布  692
14075 张飞  602

描绘词频图


roles <- c("曹操|孟德|阿瞒","刘备|玄德|刘玄德","孔明|诸葛亮|卧龙|诸葛孔明","关公|关羽|云长|关云长|长生","吕布|奉先|飞将军","翼德|张飞") #输入人物称谓
role_name = c("曹操","刘备","孔明","关公", "吕布","张飞")#输入人物称谓
role_paras = sapply(roles, grepl, text) #判断
colnames(role_paras) = role_name #修改列名
role_counts = data.frame(role = factor(colnames(role_paras), levels = c("曹操","刘备","孔明","关公", "吕布","张飞")), count = colSums(role_paras)) #统计library(ggplot2)  #加载程序包
ggplot(role_counts, aes(x = role, y = count, fill = role)) + geom_bar(stat = "identity", width = 0.75) + xlab("人物")+ylab("频数")

在这里插入图片描述

这篇关于R语言文本分析《三国演义》的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/911824

相关文章

Linux使用cut进行文本提取的操作方法

《Linux使用cut进行文本提取的操作方法》Linux中的cut命令是一个命令行实用程序,用于从文件或标准输入中提取文本行的部分,本文给大家介绍了Linux使用cut进行文本提取的操作方法,文中有详... 目录简介基础语法常用选项范围选择示例用法-f:字段选择-d:分隔符-c:字符选择-b:字节选择--c

使用Go语言开发一个命令行文件管理工具

《使用Go语言开发一个命令行文件管理工具》这篇文章主要为大家详细介绍了如何使用Go语言开发一款命令行文件管理工具,支持批量重命名,删除,创建,移动文件,需要的小伙伴可以了解下... 目录一、工具功能一览二、核心代码解析1. 主程序结构2. 批量重命名3. 批量删除4. 创建文件/目录5. 批量移动三、如何安

python使用fastapi实现多语言国际化的操作指南

《python使用fastapi实现多语言国际化的操作指南》本文介绍了使用Python和FastAPI实现多语言国际化的操作指南,包括多语言架构技术栈、翻译管理、前端本地化、语言切换机制以及常见陷阱和... 目录多语言国际化实现指南项目多语言架构技术栈目录结构翻译工作流1. 翻译数据存储2. 翻译生成脚本

Springboot中分析SQL性能的两种方式详解

《Springboot中分析SQL性能的两种方式详解》文章介绍了SQL性能分析的两种方式:MyBatis-Plus性能分析插件和p6spy框架,MyBatis-Plus插件配置简单,适用于开发和测试环... 目录SQL性能分析的两种方式:功能介绍实现方式:实现步骤:SQL性能分析的两种方式:功能介绍记录

最长公共子序列问题的深度分析与Java实现方式

《最长公共子序列问题的深度分析与Java实现方式》本文详细介绍了最长公共子序列(LCS)问题,包括其概念、暴力解法、动态规划解法,并提供了Java代码实现,暴力解法虽然简单,但在大数据处理中效率较低,... 目录最长公共子序列问题概述问题理解与示例分析暴力解法思路与示例代码动态规划解法DP 表的构建与意义动

Go语言中三种容器类型的数据结构详解

《Go语言中三种容器类型的数据结构详解》在Go语言中,有三种主要的容器类型用于存储和操作集合数据:本文主要介绍三者的使用与区别,感兴趣的小伙伴可以跟随小编一起学习一下... 目录基本概念1. 数组(Array)2. 切片(Slice)3. 映射(Map)对比总结注意事项基本概念在 Go 语言中,有三种主要

C语言中自动与强制转换全解析

《C语言中自动与强制转换全解析》在编写C程序时,类型转换是确保数据正确性和一致性的关键环节,无论是隐式转换还是显式转换,都各有特点和应用场景,本文将详细探讨C语言中的类型转换机制,帮助您更好地理解并在... 目录类型转换的重要性自动类型转换(隐式转换)强制类型转换(显式转换)常见错误与注意事项总结与建议类型

C#使用DeepSeek API实现自然语言处理,文本分类和情感分析

《C#使用DeepSeekAPI实现自然语言处理,文本分类和情感分析》在C#中使用DeepSeekAPI可以实现多种功能,例如自然语言处理、文本分类、情感分析等,本文主要为大家介绍了具体实现步骤,... 目录准备工作文本生成文本分类问答系统代码生成翻译功能文本摘要文本校对图像描述生成总结在C#中使用Deep

Go语言利用泛型封装常见的Map操作

《Go语言利用泛型封装常见的Map操作》Go语言在1.18版本中引入了泛型,这是Go语言发展的一个重要里程碑,它极大地增强了语言的表达能力和灵活性,本文将通过泛型实现封装常见的Map操作,感... 目录什么是泛型泛型解决了什么问题Go泛型基于泛型的常见Map操作代码合集总结什么是泛型泛型是一种编程范式,允

Android kotlin语言实现删除文件的解决方案

《Androidkotlin语言实现删除文件的解决方案》:本文主要介绍Androidkotlin语言实现删除文件的解决方案,在项目开发过程中,尤其是需要跨平台协作的项目,那么删除用户指定的文件的... 目录一、前言二、适用环境三、模板内容1.权限申请2.Activity中的模板一、前言在项目开发过程中,尤