文章分词/jieba的应用

2024-05-12 15:52
文章标签 应用 文章 分词 jieba

本文主要是介绍文章分词/jieba的应用,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

1.将字符串中的单词找出,并输出

str1 = "The life is short,you need python"
str1.split()
print(str1.split())['The', 'life', 'is', 'short,you', 'need', 'python']

2.jieba:中文第三方库

pip install jieba(CMD)  //jieba安装

3.jieba分词原理
**依靠中文词库确定汉字之间的组成概率
**汉字之间组成频率大的结果,输出形成分词
**除了分词,还可以自定义添加分词

4.模式类型及描述
精确模式——文本精确分开,不存在冗余单词
全模式——文本中可能存在的词语均会分开,可能会存在冗余单词
搜索引擎模式——在精准分词的基础上,对长词再次进行切割

5.jieba库常用函数
1>精确模式 -jieba.lcut()

 import jieba
c=jieba.lcut("中国是一个伟大的国家")
print(c)['中国', '是', '一个', '伟大', '的', '国家']

2>全模式 -jieba.lcut(s,True)

import jieba
c=jieba.lcut("中国是一个伟大的国家",cut_all = "True")
print(c)
['中国', '国是', '一个', '伟大', '的', '国家']

3>搜索引擎模式 -jieba.lcut_for_search(ss)

import jieba
c=jieba.lcut_for_search("中华人民共和国是伟大的")
print(c)['中华', '华人', '人民', '共和', '共和国', '中华人民共和国', '是', '伟大', '的']

4>jieba.add_word(s)

import jieba
c=jieba.add_word("帝光锡华")
print(c)

5>利用分词统计三国演义人物出场次数

I
文件 ->长字符串;read() 定义空字典;counts = {} P(操作):
使用jieba库将文章进行分词,放到列表中,然后遍历列表中的每个词组,同时判断该词组是否在定义的字典中,如果存在,则其计数值+1,否则,将该此作为键值,加入到字典中。
添加

-修改字典元素的方法:counts[key] = 1修改字典元素值的方法:counts[key] = counts[key] +1

“---------------------------------------------------------------------------------------”

import jieba
text = open("三国演义.txt","r",encoding = "utf-8").read()
words = jieba.lcut(text)
counts = {}
for word in words:if len(word) == 1:continueelse:counts[word] = counts.get(word,0) + 1
items = list(counts.items())
items.sort(key = lambda x:x[1],reserve = True)
for i in range(15):word,count = items[i]print("{0:<10}{1:>5}".format(word,count))

“------------------------------------------------------------------------------------”

import jieba
excludes = {"将军",“却说”,“荆州”,“???”,“???”}
text = open("三国演义","r",enconding="utf-8").read()
words = jieba.lcut(text)
counts = {}
for word in words:
if len(word==1):continue
elif word =="诸葛亮 "  or word == “孔明曰":reword  == "孔明"
elif word =="云长 "  or word == “关公":reword  == "关羽"elif word =="玄德"  or word == “玄德曰":reword  == "刘备”elif word =="孟德 "  or word == “丞相":reword  == "曹操"
else:rword = wordcounts[word] = counts.get(rword,0) + 1for word in excludes:del(counts[word])items = list(counts.items())items.sort(key = lambda x:x[1],reverse = True)for i in range(5)word,count = items[i]print("{0:<10}{1:>5}".format(word,count))

<<百年孤独>>

这篇关于文章分词/jieba的应用的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/983067

相关文章

Redis中Stream详解及应用小结

《Redis中Stream详解及应用小结》RedisStreams是Redis5.0引入的新功能,提供了一种类似于传统消息队列的机制,但具有更高的灵活性和可扩展性,本文给大家介绍Redis中Strea... 目录1. Redis Stream 概述2. Redis Stream 的基本操作2.1. XADD

Spring Boot 结合 WxJava 实现文章上传微信公众号草稿箱与群发

《SpringBoot结合WxJava实现文章上传微信公众号草稿箱与群发》本文将详细介绍如何使用SpringBoot框架结合WxJava开发工具包,实现文章上传到微信公众号草稿箱以及群发功能,... 目录一、项目环境准备1.1 开发环境1.2 微信公众号准备二、Spring Boot 项目搭建2.1 创建

JSONArray在Java中的应用操作实例

《JSONArray在Java中的应用操作实例》JSONArray是org.json库用于处理JSON数组的类,可将Java对象(Map/List)转换为JSON格式,提供增删改查等操作,适用于前后端... 目录1. jsONArray定义与功能1.1 JSONArray概念阐释1.1.1 什么是JSONA

nginx -t、nginx -s stop 和 nginx -s reload 命令的详细解析(结合应用场景)

《nginx-t、nginx-sstop和nginx-sreload命令的详细解析(结合应用场景)》本文解析Nginx的-t、-sstop、-sreload命令,分别用于配置语法检... 以下是关于 nginx -t、nginx -s stop 和 nginx -s reload 命令的详细解析,结合实际应

PostgreSQL的扩展dict_int应用案例解析

《PostgreSQL的扩展dict_int应用案例解析》dict_int扩展为PostgreSQL提供了专业的整数文本处理能力,特别适合需要精确处理数字内容的搜索场景,本文给大家介绍PostgreS... 目录PostgreSQL的扩展dict_int一、扩展概述二、核心功能三、安装与启用四、字典配置方法

Python中re模块结合正则表达式的实际应用案例

《Python中re模块结合正则表达式的实际应用案例》Python中的re模块是用于处理正则表达式的强大工具,正则表达式是一种用来匹配字符串的模式,它可以在文本中搜索和匹配特定的字符串模式,这篇文章主... 目录前言re模块常用函数一、查看文本中是否包含 A 或 B 字符串二、替换多个关键词为统一格式三、提

Java MQTT实战应用

《JavaMQTT实战应用》本文详解MQTT协议,涵盖其发布/订阅机制、低功耗高效特性、三种服务质量等级(QoS0/1/2),以及客户端、代理、主题的核心概念,最后提供Linux部署教程、Sprin... 目录一、MQTT协议二、MQTT优点三、三种服务质量等级四、客户端、代理、主题1. 客户端(Clien

CSS中的Static、Relative、Absolute、Fixed、Sticky的应用与详细对比

《CSS中的Static、Relative、Absolute、Fixed、Sticky的应用与详细对比》CSS中的position属性用于控制元素的定位方式,不同的定位方式会影响元素在页面中的布... css 中的 position 属性用于控制元素的定位方式,不同的定位方式会影响元素在页面中的布局和层叠关

SpringBoot3应用中集成和使用Spring Retry的实践记录

《SpringBoot3应用中集成和使用SpringRetry的实践记录》SpringRetry为SpringBoot3提供重试机制,支持注解和编程式两种方式,可配置重试策略与监听器,适用于临时性故... 目录1. 简介2. 环境准备3. 使用方式3.1 注解方式 基础使用自定义重试策略失败恢复机制注意事项

Python使用Tkinter打造一个完整的桌面应用

《Python使用Tkinter打造一个完整的桌面应用》在Python生态中,Tkinter就像一把瑞士军刀,它没有花哨的特效,却能快速搭建出实用的图形界面,作为Python自带的标准库,无需安装即可... 目录一、界面搭建:像搭积木一样组合控件二、菜单系统:给应用装上“控制中枢”三、事件驱动:让界面“活”