jieba--做最好用的中文分词组件详解【5】(自定义停止词语料库)

2024-01-29 15:48

本文主要是介绍jieba--做最好用的中文分词组件详解【5】(自定义停止词语料库),希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

写在最前面:

 

这回真的是最后一篇关于jieba的用法介绍了

 

关键词提取所使用停止词(停止词)文本语料库切换成自定义语料库的路径

 

这是使用自带的停用词语料库,使用TF-IDF算法提取20个关键词。

import jieba
import jieba.analysejieba.load_userdict("userdict.txt")
jieba.analyse.set_idf_path("./jieba-master/extra_dict/idf.txt.big")test_sent = ("这个李小福是那个云计算专家,他这个掌握了很多滑雪运动的那个知识,因此这个他那个当上了那个创新办什么主任"
)tags = jieba.analyse.extract_tags(test_sent, topK=20, withWeight=True)
for i in tags:print(i[0],i[1])

 

结果如下:

这个 1.8875948688789472
那个 0.9991485692126316
李小福 0.6291982896263157
云计算 0.6291982896263157
掌握 0.6291982896263157
很多 0.6291982896263157
知识 0.6291982896263157
当上 0.6291982896263157
创新办 0.6291982896263157
什么 0.6291982896263157
主任 0.6291982896263157
滑雪运动 0.6159712144526316
专家 0.29483627671210527
因此 0.21391291445421054

 

然后使用自定义的停止词语料库,我们在语料库里加了这些停用关键词。

这个
那个
什么

 

加载自定义停用语料库

jieba.analyse.set_stop_words("./jieba-master/extra_dict/stop_words.txt")

 

输出结果如下:

李小福 1.0867970457181817
云计算 1.0867970457181817
掌握 1.0867970457181817
很多 1.0867970457181817
知识 1.0867970457181817
当上 1.0867970457181817
创新办 1.0867970457181817
主任 1.0867970457181817
滑雪运动 1.063950279509091
专家 0.5092626597754545
因此 0.36948594314818184

 

可以看到,啰嗦的这个、那个、什么被去掉了,仅此而已。

这篇关于jieba--做最好用的中文分词组件详解【5】(自定义停止词语料库)的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/657394

相关文章

C#数据结构之字符串(string)详解

《C#数据结构之字符串(string)详解》:本文主要介绍C#数据结构之字符串(string),具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录转义字符序列字符串的创建字符串的声明null字符串与空字符串重复单字符字符串的构造字符串的属性和常用方法属性常用方法总结摘

使用Sentinel自定义返回和实现区分来源方式

《使用Sentinel自定义返回和实现区分来源方式》:本文主要介绍使用Sentinel自定义返回和实现区分来源方式,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录Sentinel自定义返回和实现区分来源1. 自定义错误返回2. 实现区分来源总结Sentinel自定

Java中StopWatch的使用示例详解

《Java中StopWatch的使用示例详解》stopWatch是org.springframework.util包下的一个工具类,使用它可直观的输出代码执行耗时,以及执行时间百分比,这篇文章主要介绍... 目录stopWatch 是org.springframework.util 包下的一个工具类,使用它

Java进行文件格式校验的方案详解

《Java进行文件格式校验的方案详解》这篇文章主要为大家详细介绍了Java中进行文件格式校验的相关方案,文中的示例代码讲解详细,感兴趣的小伙伴可以跟随小编一起学习一下... 目录一、背景异常现象原因排查用户的无心之过二、解决方案Magandroidic Number判断主流检测库对比Tika的使用区分zip

Java实现时间与字符串互相转换详解

《Java实现时间与字符串互相转换详解》这篇文章主要为大家详细介绍了Java中实现时间与字符串互相转换的相关方法,文中的示例代码讲解详细,感兴趣的小伙伴可以跟随小编一起学习一下... 目录一、日期格式化为字符串(一)使用预定义格式(二)自定义格式二、字符串解析为日期(一)解析ISO格式字符串(二)解析自定义

springboot security快速使用示例详解

《springbootsecurity快速使用示例详解》:本文主要介绍springbootsecurity快速使用示例,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝... 目录创www.chinasem.cn建spring boot项目生成脚手架配置依赖接口示例代码项目结构启用s

Python中随机休眠技术原理与应用详解

《Python中随机休眠技术原理与应用详解》在编程中,让程序暂停执行特定时间是常见需求,当需要引入不确定性时,随机休眠就成为关键技巧,下面我们就来看看Python中随机休眠技术的具体实现与应用吧... 目录引言一、实现原理与基础方法1.1 核心函数解析1.2 基础实现模板1.3 整数版实现二、典型应用场景2

一文详解SpringBoot响应压缩功能的配置与优化

《一文详解SpringBoot响应压缩功能的配置与优化》SpringBoot的响应压缩功能基于智能协商机制,需同时满足很多条件,本文主要为大家详细介绍了SpringBoot响应压缩功能的配置与优化,需... 目录一、核心工作机制1.1 自动协商触发条件1.2 压缩处理流程二、配置方案详解2.1 基础YAML

Python实现无痛修改第三方库源码的方法详解

《Python实现无痛修改第三方库源码的方法详解》很多时候,我们下载的第三方库是不会有需求不满足的情况,但也有极少的情况,第三方库没有兼顾到需求,本文将介绍几个修改源码的操作,大家可以根据需求进行选择... 目录需求不符合模拟示例 1. 修改源文件2. 继承修改3. 猴子补丁4. 追踪局部变量需求不符合很

java中反射(Reflection)机制举例详解

《java中反射(Reflection)机制举例详解》Java中的反射机制是指Java程序在运行期间可以获取到一个对象的全部信息,:本文主要介绍java中反射(Reflection)机制的相关资料... 目录一、什么是反射?二、反射的用途三、获取Class对象四、Class类型的对象使用场景1五、Class