Python 中文词频分析——红楼梦人物出场次数

2024-02-19 08:40

本文主要是介绍Python 中文词频分析——红楼梦人物出场次数,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

本篇文档,带大家用Python做一下词频统计

本章需要用到Python的jieba模块
jieba模块是一个经典的用于中文分词的模块

首先呢 我们需要读取文章的内容,并用jieba库的lcut进行分词

import jieba# 读取红楼梦的文本内容
txt = open('红楼梦.txt', 'r', encoding='utf-8').read()
# 运用jieba库对文本内容进行分词
words = jieba.lcut(txt)

然后 我们去统计人名的出现次数
这里需要分析什么词语是人名,我们去创建一个文档,当做字典存储人名信息
人名还会有其他的表示,我们将它转化成一样的名字

# 初始化count字典 用于存放人名出现频率
counts = {}
# 读取红楼梦人名信息
names = open('人名.txt', 'r', encoding='utf-8').read().split('、')
# 对分词数据进行筛选 将不需要的数据跳过  只保存有效数据
for word in words:if len(word) == 1:continueelif word == '贾母' or word == '老太太':word = '贾母'elif word in '贾珍—尤氏'.split('—'):word = '贾珍'elif word in '贾蓉—秦可卿'.split('-'):word = '贾蓉'elif word in '贾赦—邢夫人'.split('-'):word = '贾赦'elif word in '贾政—王夫人'.split('-'):word = '贾政'elif word in '袭人-蕊珠'.split('-'):word = '袭人'elif word in '贾琏—王熙凤'.split('-'):word = '贾琏'elif word in '紫鹃-鹦哥'.split('-'):word = '紫鹃'elif word in '翠缕-缕儿'.split('-'):word = '翠缕'elif word in '香菱-甄英莲'.split('-'):word = '香菱'elif word in '豆官-豆童'.split('-'):word = '豆官'elif word in '薛蝌—邢岫烟'.split('-'):word = '薛蝌'elif word in '薛蟠—夏金桂'.split('-'):word = '薛蟠'elif word in '贾宝玉-宝玉'.split('-'):word = '贾宝玉'elif word in '林黛玉-林姑娘-黛玉'.split('-'):word = '林黛玉'if word not in names:continuecounts[word] = counts.get(word, 0)+1

最后我们将数据排序整理一下

# 将人名按照次数排序 降序
items = list(counts.items())
# 排序规则 以次数为参考进行排序
items.sort(key=lambda x: x[1], reverse=True)

完整代码如下:

import jieba# 读取红楼梦的文本内容
txt = open('红楼梦.txt', 'r', encoding='utf-8').read()
# 运用jieba库对文本内容进行分词
words = jieba.lcut(txt)
# 初始化count字典 用于存放人名出现频率
counts = {}
# 读取红楼梦人名信息
names = open('人名.txt', 'r', encoding='utf-8').read().split('、')
# 对分词数据进行筛选 将不需要的数据跳过  只保存有效数据
for word in words:if len(word) == 1:continueelif word == '贾母' or word == '老太太':word = '贾母'elif word in '贾珍—尤氏'.split('—'):word = '贾珍'elif word in '贾蓉—秦可卿'.split('-'):word = '贾蓉'elif word in '贾赦—邢夫人'.split('-'):word = '贾赦'elif word in '贾政—王夫人'.split('-'):word = '贾政'elif word in '袭人-蕊珠'.split('-'):word = '袭人'elif word in '贾琏—王熙凤'.split('-'):word = '贾琏'elif word in '紫鹃-鹦哥'.split('-'):word = '紫鹃'elif word in '翠缕-缕儿'.split('-'):word = '翠缕'elif word in '香菱-甄英莲'.split('-'):word = '香菱'elif word in '豆官-豆童'.split('-'):word = '豆官'elif word in '薛蝌—邢岫烟'.split('-'):word = '薛蝌'elif word in '薛蟠—夏金桂'.split('-'):word = '薛蟠'elif word in '贾宝玉-宝玉'.split('-'):word = '贾宝玉'elif word in '林黛玉-林姑娘-黛玉'.split('-'):word = '林黛玉'if word not in names:continuecounts[word] = counts.get(word, 0)+1# 将人名按照次数排序 降序
items = list(counts.items())
# 排序规则 以次数为参考进行排序
items.sort(key=lambda x: x[1], reverse=True)
# print(items)
print('出现次数最多的是:', items[0][0], '出现了:', items[0][1], '次')
print('出现次数最少的是:', items[-1][0], '出现了:', items[-1][1], '次')
for item in items:print(item[0], '出现了:', item[1], '次')

效果图如下:
在这里插入图片描述
Python问题解答私信我

这篇关于Python 中文词频分析——红楼梦人物出场次数的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!


原文地址:https://blog.csdn.net/Miku_wx/article/details/111866161
http://www.chinasem.cn/article/724133

相关文章

使用Python将JSON,XML和YAML数据写入Excel文件

《使用Python将JSON,XML和YAML数据写入Excel文件》JSON、XML和YAML作为主流结构化数据格式,因其层次化表达能力和跨平台兼容性,已成为系统间数据交换的通用载体,本文将介绍如何... 目录如何使用python写入数据到Excel工作表用Python导入jsON数据到Excel工作表用

Python基础语法中defaultdict的使用小结

《Python基础语法中defaultdict的使用小结》Python的defaultdict是collections模块中提供的一种特殊的字典类型,它与普通的字典(dict)有着相似的功能,本文主要... 目录示例1示例2python的defaultdict是collections模块中提供的一种特殊的字

利用Python快速搭建Markdown笔记发布系统

《利用Python快速搭建Markdown笔记发布系统》这篇文章主要为大家详细介绍了使用Python生态的成熟工具,在30分钟内搭建一个支持Markdown渲染、分类标签、全文搜索的私有化知识发布系统... 目录引言:为什么要自建知识博客一、技术选型:极简主义开发栈二、系统架构设计三、核心代码实现(分步解析

基于Python实现高效PPT转图片工具

《基于Python实现高效PPT转图片工具》在日常工作中,PPT是我们常用的演示工具,但有时候我们需要将PPT的内容提取为图片格式以便于展示或保存,所以本文将用Python实现PPT转PNG工具,希望... 目录1. 概述2. 功能使用2.1 安装依赖2.2 使用步骤2.3 代码实现2.4 GUI界面3.效

Python获取C++中返回的char*字段的两种思路

《Python获取C++中返回的char*字段的两种思路》有时候需要获取C++函数中返回来的不定长的char*字符串,本文小编为大家找到了两种解决问题的思路,感兴趣的小伙伴可以跟随小编一起学习一下... 有时候需要获取C++函数中返回来的不定长的char*字符串,目前我找到两种解决问题的思路,具体实现如下:

C++ Sort函数使用场景分析

《C++Sort函数使用场景分析》sort函数是algorithm库下的一个函数,sort函数是不稳定的,即大小相同的元素在排序后相对顺序可能发生改变,如果某些场景需要保持相同元素间的相对顺序,可使... 目录C++ Sort函数详解一、sort函数调用的两种方式二、sort函数使用场景三、sort函数排序

python连接本地SQL server详细图文教程

《python连接本地SQLserver详细图文教程》在数据分析领域,经常需要从数据库中获取数据进行分析和处理,下面:本文主要介绍python连接本地SQLserver的相关资料,文中通过代码... 目录一.设置本地账号1.新建用户2.开启双重验证3,开启TCP/IP本地服务二js.python连接实例1.

基于Python和MoviePy实现照片管理和视频合成工具

《基于Python和MoviePy实现照片管理和视频合成工具》在这篇博客中,我们将详细剖析一个基于Python的图形界面应用程序,该程序使用wxPython构建用户界面,并结合MoviePy、Pill... 目录引言项目概述代码结构分析1. 导入和依赖2. 主类:PhotoManager初始化方法:__in

Python从零打造高安全密码管理器

《Python从零打造高安全密码管理器》在数字化时代,每人平均需要管理近百个账号密码,本文将带大家深入剖析一个基于Python的高安全性密码管理器实现方案,感兴趣的小伙伴可以参考一下... 目录一、前言:为什么我们需要专属密码管理器二、系统架构设计2.1 安全加密体系2.2 密码强度策略三、核心功能实现详解

Python Faker库基本用法详解

《PythonFaker库基本用法详解》Faker是一个非常强大的库,适用于生成各种类型的伪随机数据,可以帮助开发者在测试、数据生成、或其他需要随机数据的场景中提高效率,本文给大家介绍PythonF... 目录安装基本用法主要功能示例代码语言和地区生成多条假数据自定义字段小结Faker 是一个 python