文章分词/jieba的应用

2024-05-12 15:52
文章标签 应用 文章 分词 jieba

本文主要是介绍文章分词/jieba的应用,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

1.将字符串中的单词找出,并输出

str1 = "The life is short,you need python"
str1.split()
print(str1.split())['The', 'life', 'is', 'short,you', 'need', 'python']

2.jieba:中文第三方库

pip install jieba(CMD)  //jieba安装

3.jieba分词原理
**依靠中文词库确定汉字之间的组成概率
**汉字之间组成频率大的结果,输出形成分词
**除了分词,还可以自定义添加分词

4.模式类型及描述
精确模式——文本精确分开,不存在冗余单词
全模式——文本中可能存在的词语均会分开,可能会存在冗余单词
搜索引擎模式——在精准分词的基础上,对长词再次进行切割

5.jieba库常用函数
1>精确模式 -jieba.lcut()

 import jieba
c=jieba.lcut("中国是一个伟大的国家")
print(c)['中国', '是', '一个', '伟大', '的', '国家']

2>全模式 -jieba.lcut(s,True)

import jieba
c=jieba.lcut("中国是一个伟大的国家",cut_all = "True")
print(c)
['中国', '国是', '一个', '伟大', '的', '国家']

3>搜索引擎模式 -jieba.lcut_for_search(ss)

import jieba
c=jieba.lcut_for_search("中华人民共和国是伟大的")
print(c)['中华', '华人', '人民', '共和', '共和国', '中华人民共和国', '是', '伟大', '的']

4>jieba.add_word(s)

import jieba
c=jieba.add_word("帝光锡华")
print(c)

5>利用分词统计三国演义人物出场次数

I
文件 ->长字符串;read() 定义空字典;counts = {} P(操作):
使用jieba库将文章进行分词,放到列表中,然后遍历列表中的每个词组,同时判断该词组是否在定义的字典中,如果存在,则其计数值+1,否则,将该此作为键值,加入到字典中。
添加

-修改字典元素的方法:counts[key] = 1修改字典元素值的方法:counts[key] = counts[key] +1

“---------------------------------------------------------------------------------------”

import jieba
text = open("三国演义.txt","r",encoding = "utf-8").read()
words = jieba.lcut(text)
counts = {}
for word in words:if len(word) == 1:continueelse:counts[word] = counts.get(word,0) + 1
items = list(counts.items())
items.sort(key = lambda x:x[1],reserve = True)
for i in range(15):word,count = items[i]print("{0:<10}{1:>5}".format(word,count))

“------------------------------------------------------------------------------------”

import jieba
excludes = {"将军",“却说”,“荆州”,“???”,“???”}
text = open("三国演义","r",enconding="utf-8").read()
words = jieba.lcut(text)
counts = {}
for word in words:
if len(word==1):continue
elif word =="诸葛亮 "  or word == “孔明曰":reword  == "孔明"
elif word =="云长 "  or word == “关公":reword  == "关羽"elif word =="玄德"  or word == “玄德曰":reword  == "刘备”elif word =="孟德 "  or word == “丞相":reword  == "曹操"
else:rword = wordcounts[word] = counts.get(rword,0) + 1for word in excludes:del(counts[word])items = list(counts.items())items.sort(key = lambda x:x[1],reverse = True)for i in range(5)word,count = items[i]print("{0:<10}{1:>5}".format(word,count))

<<百年孤独>>

这篇关于文章分词/jieba的应用的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/983067

相关文章

亮相WOT全球技术创新大会,揭秘火山引擎边缘容器技术在泛CDN场景的应用与实践

2024年6月21日-22日,51CTO“WOT全球技术创新大会2024”在北京举办。火山引擎边缘计算架构师李志明受邀参与,以“边缘容器技术在泛CDN场景的应用和实践”为主题,与多位行业资深专家,共同探讨泛CDN行业技术架构以及云原生与边缘计算的发展和展望。 火山引擎边缘计算架构师李志明表示:为更好地解决传统泛CDN类业务运行中的问题,火山引擎边缘容器团队参考行业做法,结合实践经验,打造火山

自制的浏览器主页,可以是最简单的桌面应用,可以把它当成备忘录桌面应用

自制的浏览器主页,可以是最简单的桌面应用,可以把它当成备忘录桌面应用。如果你看不懂,请留言。 完整代码: <!DOCTYPE html><html lang="zh-CN"><head><meta charset="UTF-8"><meta name="viewport" content="width=device-width, initial-scale=1.0"><ti

Python应用开发——30天学习Streamlit Python包进行APP的构建(9)

st.area_chart 显示区域图。 这是围绕 st.altair_chart 的语法糖。主要区别在于该命令使用数据自身的列和指数来计算图表的 Altair 规格。因此,在许多 "只需绘制此图 "的情况下,该命令更易于使用,但可定制性较差。 如果 st.area_chart 无法正确猜测数据规格,请尝试使用 st.altair_chart 指定所需的图表。 Function signa

气象站的种类和应用范围可以根据不同的分类标准进行详细的划分和描述

气象站的种类和应用范围可以根据不同的分类标准进行详细的划分和描述。以下是从不同角度对气象站的种类和应用范围的介绍: 一、气象站的种类 根据用途和安装环境分类: 农业气象站:专为农业生产服务,监测土壤温度、湿度等参数,为农业生产提供科学依据。交通气象站:用于公路、铁路、机场等交通场所的气象监测,提供实时气象数据以支持交通运营和调度。林业气象站:监测林区风速、湿度、温度等气象要素,为林区保护和

PyTorch模型_trace实战:深入理解与应用

pytorch使用trace模型 1、使用trace生成torchscript模型2、使用trace的模型预测 1、使用trace生成torchscript模型 def save_trace(model, input, save_path):traced_script_model = torch.jit.trace(model, input)<

哺乳细胞重组表达人鼠嵌合抗体:制备与应用

重组抗体是一类具有广泛应用价值的蛋白质,在药物研发和生物医学研究中发挥着重要作用。本文将介绍重组抗体的表达方式,重点关注嵌合抗体制备和哺乳细胞重组表达人鼠嵌合抗体的技术原理和应用。 重组抗体表达的原理和方法 重组抗体表达是通过将人或动物源的免疫球蛋白基因导入表达宿主细胞,并使其表达出特异性抗体蛋白质。常用的表达系统包括细菌、哺乳细胞和真核微生物等。 嵌合抗体制备的步骤和优势 选择适当的抗原

个人博客文章目录索引(持续更新中...)

文章目录 一、Java基础二、Java相关三、MySql基础四、Mybatis基础及源码五、MybatisPlus基础六、Spring基础及源码七、Tomcat源码八、SpringMVC基础及源码   随着文章数量多起来,每次着急翻找半天,而是新申请的域名下来了,决定整理下最近几年的文章目录索引。(红色标记为常检索文章) 一、Java基础 1、Java基础(一):语言概述2、J

【Qt6.3 基础教程 16】 掌握Qt中的时间和日期:QTimer和QDateTime的高效应用

文章目录 前言QTimer:定时任务的强大工具QTimer的基本用法高级特性:单次定时器 QDateTime:处理日期和时间获取当前日期和时间日期和时间的格式化输出日期和时间计算 用例:创建一个倒计时应用结论 前言 在开发桌面应用程序时,处理时间和日期是一个常见且重要的任务。Qt框架提供了强大的工具来处理与时间相关的功能,其中QTimer和QDateTime是最核心的类。本

基于Spring Boot的企业级应用架构设计

基于Spring Boot的企业级应用架构设计 大家好,我是免费搭建查券返利机器人省钱赚佣金就用微赚淘客系统3.0的小编,也是冬天不穿秋裤,天冷也要风度的程序猿!今天,我想和大家分享一下基于Spring Boot的企业级应用架构设计,希望对大家有所帮助。 一、Spring Boot概述 Spring Boot是由Pivotal团队提供的全新框架,它简化了Spring应用程序的创建和开发过程。

LoRaWAN在嵌入式网络通信中的应用:打造高效远程监控系统(附代码示例)

引言 随着物联网(IoT)技术的发展,远程监控系统在各个领域的应用越来越广泛。LoRaWAN(Long Range Wide Area Network)作为一种低功耗广域网通信协议,因其长距离传输、低功耗和高可靠性等特点,成为实现远程监控的理想选择。本文将详细介绍LoRaWAN的基本原理、应用场景,并通过一个具体的项目展示如何使用LoRaWAN实现远程监控系统。希望通过图文并茂的讲解,帮助读