使用jieba分析小说太古神王中,男主更爱谁?去文章中找答案吧!#华为云·寻找黑马程序员#

本文主要是介绍使用jieba分析小说太古神王中,男主更爱谁?去文章中找答案吧!#华为云·寻找黑马程序员#,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

特大好消息

周三晚上,我媳妇儿就要带着俩小爷去重庆姐姐家玩了,我又可以一个人开心的学习、玩耍了,想着都开心到失眠啊…失眠怎么办?写公众号啊,哈哈。

文本分析

很多时候,我们会去统计一片文章中的高频词汇,以此来作为文章的关键词条,那么词频分析在python中,该用什么模块做?jieba
第一次听到这个词就乐了,一个**“结巴”,帮助我们统计词频…但仔细了解这个模块后,你会发现它的强大。怎么证明?来看看github。
jieba github
19K的star,5000+fork你就知道它多受欢迎了!让我们先来学学
jieba**。

jieba介绍

jieba的github上readme写的非常详细,如果大家喜欢可以去仔细学习:jieba gihub地址。这里挑我们代码需要用到的地方讲解下…
安装: pip install jieba
以下内容引用自jieba github

“结巴”中文分词:做最好的 Python 中文分词组件

分词
  • jieba.cut 方法接受三个输入参数: 需要分词的字符串;cut_all 参数用来控制是否采用全模式;HMM 参数用来控制是否使用 HMM 模型
  • jieba.cut_for_search 方法接受两个参数:需要分词的字符串;是否使用 HMM 模型。该方法适合用于搜索引擎构建倒排索引的分词,粒度比较细
  • 待分词的字符串可以是 unicode 或 UTF-8 字符串、GBK 字符串。注意:不建议直接输入 GBK 字符串,可能无法预料地错误解码成 UTF-8
  • jieba.cut 以及 jieba.cut_for_search 返回的结构都是一个可迭代的 generator,可以使用 for 循环来获得分词后得到的每一个词语(unicode),或者用
  • jieba.lcut 以及 jieba.lcut_for_search 直接返回 list
  • jieba.Tokenizer(dictionary=DEFAULT_DICT) 新建自定义分词器,可用于同时使用不同词典。jieba.dt 为默认分词器,所有全局分词相关函数都是该分词器的映射。
代码示例# encoding=utf-8
import jiebaseg_list = jieba.cut("我来到北京清华大学", cut_all=True)
print("Full Mode: " + "/ ".join(seg_list))  # 全模式seg_list = jieba.cut("我来到北京清华大学", cut_all=False)
print("Default Mode: " + "/ ".join(seg_list))  # 精确模式seg_list = jieba.cut("他来到了网易杭研大厦")  # 默认是精确模式
print(", ".join(seg_list))seg_list = jieba.cut_for_search("小明硕士毕业于中国科学院计算所,后在日本京都大学深造")  # 搜索引擎模式
print(", ".join(seg_list))
输出:【全模式】:/ 来到/ 北京/ 清华/ 清华大学/ 华大/ 大学【精确模式】:/ 来到/ 北京/ 清华大学【新词识别】:他, 来到,, 网易, 杭研, 大厦    (此处,“杭研”并没有在词典中,但是也被Viterbi算法识别出来了)【搜索引擎模式】: 小明, 硕士, 毕业,, 中国, 科学, 学院, 科学院, 中国科学院, 计算, 计算所,,, 日本, 京都, 大学, 日本京都大学, 深造
设置解析词语

add_word(word, freq=None, tag=None) 添加词语
比如上面的实力,我们想将中国科学院作为一个整体让jieba分析,那么我们可以jieba.add_word(‘中国科学院’)

jieba.load_userdict(file_name) 用户可以自定义分词字典
如果我们有成套的字典来提升词语识别,可以创建一个文本,将这些词语存储在文本中。具体格式如下:

词语、词频(可省略)、词性(可省略)
创新办 3 i
云计算 5
凱特琳 nz
台中

关键字抽取

刚才看到分词,不管我们是使用哪种方式,最终获得的都是迭代器或者的表,那我们如果想无脑输出词频权重较高的top多少次,如何做?
使用import jieba.analyse

import jieba.analysejieba.analyse.extract_tags(sentence, topK=20, withWeight=False, allowPOS=())
sentence 为待提取的文本
topK 为返回几个 TF/IDF 权重最大的关键词,默认值为 20
withWeight 为是否一并返回关键词权重值,默认值为 False
allowPOS 仅包括指定词性的词,默认值为空,即不筛选
jieba.analyse.TFIDF(idf_path=None) 新建 TFIDF 实例,idf_path 为 IDF 频率文件

但这种统计过于无脑,更多的情况下,还是要我们自己来配置…

分析什么?

说过了如何分词,获取词频。可我们没有数据,到底该分析什么?分析python书籍未免太过逗比,所以嘛还是分析点有意思的东西吧!前几天看新闻中国的玄幻小说,在老外的眼里简直就是至宝,什么掉下悬崖捡宝、穿越远古修仙、犀利哥重生附身,在我们看来俗到掉渣的剧情,老外看到都觉得是神来之笔!那么今天我们就来分析一部修仙小说吧…个人比较喜欢净无痕的书,绝世武神、太古神王到如今的伏天氏。但最近感觉写的越来越水。所以今天我们就来分析太古神王这部小说吧,貌似它已经拍成电视剧了。怎么获取全本内容?之前写的文章使用Python开发小说下载器,不再为下载小说而发愁就派上用场了,2000+章的小说全本下载。话说刚开始用写好的工具是,平均1秒3章,最近很多朋友反馈工具很慢,进来自己用了下两三秒才一章,难道跟我有关系?还是收敛点的好…边写着文章,手机边下载着,总算完了:
小说下载
那分析什么内容呢,太古神王里面有两个女主叶倾城、长青青儿。那么秦问天到底更爱谁?让我们看看她俩的出场频率吧…

代码实现

只统计主角和两个女主,有些太过无趣,所以咱们多统计点词汇给50个吧…看看会有哪些:

# -*- coding: utf-8 -*-
# @Author   : 王翔
# @JianShu  : 清风Python
# @Date     : 2019/7/24 2:23
# @Software : PyCharm
# @version  :Python 3.7.3
# @File     : DearestGirl.py
import jiebaclass DearestGirl:ROLES = "秦问天 倾城 青儿"def __init__(self):self.result = dict()def add_key_word(self):for user in self.ROLES.split():jieba.add_word(user)def cut_word(self):data = open("太古神王全本.txt", encoding='utf-8').read()jieba_cut = jieba.cut(data)for word in jieba_cut:if word not in self.ROLES.split():continueelse:self.result[word] = self.result.get(word, 0) + 1def sort_words(self):print(sorted(self.result.items(), key=lambda x: x[1], reverse=True))if __name__ == '__main__':main = DearestGirl()main.add_key_word()main.cut_word()main.sort_words()output:
[('秦问天', 35182), ('倾城', 2085), ('青儿', 2028)]

这就懵逼了,这俩女主居然词频这相近,可再看看男主的词频…有一个问题呼之欲出,这部小说是一部男主自恋的小说,他最爱的是自己!通篇都是他…哈哈。
那么这样就完了?不行不行,既然词频都出来了,顺带生成一下词云呗…

wordcloud

今天上班苗妹子还问到了关于这个模块,当然得用用了…
最终代码如下:

# -*- coding: utf-8 -*-
# @Author   : 王翔
# @JianShu  : 清风Python
# @Date     : 2019/7/24 2:23
# @Software : PyCharm
# @version  :Python 3.7.3
# @File     : DearestGirl.py
import jieba
from wordcloud import WordCloud, ImageColorGenerator, STOPWORDS
import numpy as np
from PIL import Imageclass DearestGirl:ROLES = "秦问天 倾城 青儿"def __init__(self):self.result = dict()def add_key_word(self):for user in self.ROLES.split():jieba.add_word(user)def cut_word(self):data = open("太古神王全本.txt", encoding='utf-8').read()jieba_cut = jieba.cut(data)for word in jieba_cut:if word not in self.ROLES.split():continueelse:self.result[word] = self.result.get(word, 0) + 1def sort_words(self):print(sorted(self.result.items(), key=lambda x: x[1], reverse=True))def word_cloud(self):mask = np.array(Image.open('bk.png'))wc = WordCloud(font_path='C:/Windows/Fonts/simhei.ttf',  # 设置字体格式mask=mask,max_words=200,max_font_size=100)wc.generate_from_frequencies(self.result)image_colors = ImageColorGenerator(mask)wc.recolor(color_func=image_colors)wc.to_file('result.jpg')if __name__ == '__main__':main = DearestGirl()main.add_key_word()main.cut_word()main.sort_words()

词云

The End

OK,今天的内容就到这里,如果觉得内容对你有所帮助,欢迎点击文章右下角的“在看”。
期待你关注我的公众号**清风Python**,如果你觉得不错,希望能动动手指转发给你身边的朋友们。

这篇关于使用jieba分析小说太古神王中,男主更爱谁?去文章中找答案吧!#华为云·寻找黑马程序员#的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/583891

相关文章

中文分词jieba库的使用与实景应用(一)

知识星球:https://articles.zsxq.com/id_fxvgc803qmr2.html 目录 一.定义: 精确模式(默认模式): 全模式: 搜索引擎模式: paddle 模式(基于深度学习的分词模式): 二 自定义词典 三.文本解析   调整词出现的频率 四. 关键词提取 A. 基于TF-IDF算法的关键词提取 B. 基于TextRank算法的关键词提取

使用SecondaryNameNode恢复NameNode的数据

1)需求: NameNode进程挂了并且存储的数据也丢失了,如何恢复NameNode 此种方式恢复的数据可能存在小部分数据的丢失。 2)故障模拟 (1)kill -9 NameNode进程 [lytfly@hadoop102 current]$ kill -9 19886 (2)删除NameNode存储的数据(/opt/module/hadoop-3.1.4/data/tmp/dfs/na

Hadoop数据压缩使用介绍

一、压缩原则 (1)运算密集型的Job,少用压缩 (2)IO密集型的Job,多用压缩 二、压缩算法比较 三、压缩位置选择 四、压缩参数配置 1)为了支持多种压缩/解压缩算法,Hadoop引入了编码/解码器 2)要在Hadoop中启用压缩,可以配置如下参数

Makefile简明使用教程

文章目录 规则makefile文件的基本语法:加在命令前的特殊符号:.PHONY伪目标: Makefilev1 直观写法v2 加上中间过程v3 伪目标v4 变量 make 选项-f-n-C Make 是一种流行的构建工具,常用于将源代码转换成可执行文件或者其他形式的输出文件(如库文件、文档等)。Make 可以自动化地执行编译、链接等一系列操作。 规则 makefile文件

性能分析之MySQL索引实战案例

文章目录 一、前言二、准备三、MySQL索引优化四、MySQL 索引知识回顾五、总结 一、前言 在上一讲性能工具之 JProfiler 简单登录案例分析实战中已经发现SQL没有建立索引问题,本文将一起从代码层去分析为什么没有建立索引? 开源ERP项目地址:https://gitee.com/jishenghua/JSH_ERP 二、准备 打开IDEA找到登录请求资源路径位置

使用opencv优化图片(画面变清晰)

文章目录 需求影响照片清晰度的因素 实现降噪测试代码 锐化空间锐化Unsharp Masking频率域锐化对比测试 对比度增强常用算法对比测试 需求 对图像进行优化,使其看起来更清晰,同时保持尺寸不变,通常涉及到图像处理技术如锐化、降噪、对比度增强等 影响照片清晰度的因素 影响照片清晰度的因素有很多,主要可以从以下几个方面来分析 1. 拍摄设备 相机传感器:相机传

pdfmake生成pdf的使用

实际项目中有时会有根据填写的表单数据或者其他格式的数据,将数据自动填充到pdf文件中根据固定模板生成pdf文件的需求 文章目录 利用pdfmake生成pdf文件1.下载安装pdfmake第三方包2.封装生成pdf文件的共用配置3.生成pdf文件的文件模板内容4.调用方法生成pdf 利用pdfmake生成pdf文件 1.下载安装pdfmake第三方包 npm i pdfma

零基础学习Redis(10) -- zset类型命令使用

zset是有序集合,内部除了存储元素外,还会存储一个score,存储在zset中的元素会按照score的大小升序排列,不同元素的score可以重复,score相同的元素会按照元素的字典序排列。 1. zset常用命令 1.1 zadd  zadd key [NX | XX] [GT | LT]   [CH] [INCR] score member [score member ...]

git使用的说明总结

Git使用说明 下载安装(下载地址) macOS: Git - Downloading macOS Windows: Git - Downloading Windows Linux/Unix: Git (git-scm.com) 创建新仓库 本地创建新仓库:创建新文件夹,进入文件夹目录,执行指令 git init ,用以创建新的git 克隆仓库 执行指令用以创建一个本地仓库的

【北交大信息所AI-Max2】使用方法

BJTU信息所集群AI_MAX2使用方法 使用的前提是预约到相应的算力卡,拥有登录权限的账号密码,一般为导师组共用一个。 有浏览器、ssh工具就可以。 1.新建集群Terminal 浏览器登陆10.126.62.75 (如果是1集群把75改成66) 交互式开发 执行器选Terminal 密码随便设一个(需记住) 工作空间:私有数据、全部文件 加速器选GeForce_RTX_2080_Ti