jieba--做最好用的中文分词组件详解【5】(自定义停止词语料库)

2024-01-29 15:48

本文主要是介绍jieba--做最好用的中文分词组件详解【5】(自定义停止词语料库),希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

写在最前面:

 

这回真的是最后一篇关于jieba的用法介绍了

 

关键词提取所使用停止词(停止词)文本语料库切换成自定义语料库的路径

 

这是使用自带的停用词语料库,使用TF-IDF算法提取20个关键词。

import jieba
import jieba.analysejieba.load_userdict("userdict.txt")
jieba.analyse.set_idf_path("./jieba-master/extra_dict/idf.txt.big")test_sent = ("这个李小福是那个云计算专家,他这个掌握了很多滑雪运动的那个知识,因此这个他那个当上了那个创新办什么主任"
)tags = jieba.analyse.extract_tags(test_sent, topK=20, withWeight=True)
for i in tags:print(i[0],i[1])

 

结果如下:

这个 1.8875948688789472
那个 0.9991485692126316
李小福 0.6291982896263157
云计算 0.6291982896263157
掌握 0.6291982896263157
很多 0.6291982896263157
知识 0.6291982896263157
当上 0.6291982896263157
创新办 0.6291982896263157
什么 0.6291982896263157
主任 0.6291982896263157
滑雪运动 0.6159712144526316
专家 0.29483627671210527
因此 0.21391291445421054

 

然后使用自定义的停止词语料库,我们在语料库里加了这些停用关键词。

这个
那个
什么

 

加载自定义停用语料库

jieba.analyse.set_stop_words("./jieba-master/extra_dict/stop_words.txt")

 

输出结果如下:

李小福 1.0867970457181817
云计算 1.0867970457181817
掌握 1.0867970457181817
很多 1.0867970457181817
知识 1.0867970457181817
当上 1.0867970457181817
创新办 1.0867970457181817
主任 1.0867970457181817
滑雪运动 1.063950279509091
专家 0.5092626597754545
因此 0.36948594314818184

 

可以看到,啰嗦的这个、那个、什么被去掉了,仅此而已。

这篇关于jieba--做最好用的中文分词组件详解【5】(自定义停止词语料库)的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/657394

相关文章

基于C++的UDP网络通信系统设计与实现详解

《基于C++的UDP网络通信系统设计与实现详解》在网络编程领域,UDP作为一种无连接的传输层协议,以其高效、低延迟的特性在实时性要求高的应用场景中占据重要地位,下面我们就来看看如何从零开始构建一个完整... 目录前言一、UDP服务器UdpServer.hpp1.1 基本框架设计1.2 初始化函数Init详解

springboot+redis实现订单过期(超时取消)功能的方法详解

《springboot+redis实现订单过期(超时取消)功能的方法详解》在SpringBoot中使用Redis实现订单过期(超时取消)功能,有多种成熟方案,本文为大家整理了几个详细方法,文中的示例代... 目录一、Redis键过期回调方案(推荐)1. 配置Redis监听器2. 监听键过期事件3. Redi

SpringBoot全局异常拦截与自定义错误页面实现过程解读

《SpringBoot全局异常拦截与自定义错误页面实现过程解读》本文介绍了SpringBoot中全局异常拦截与自定义错误页面的实现方法,包括异常的分类、SpringBoot默认异常处理机制、全局异常拦... 目录一、引言二、Spring Boot异常处理基础2.1 异常的分类2.2 Spring Boot默

Springboot配置文件相关语法及读取方式详解

《Springboot配置文件相关语法及读取方式详解》本文主要介绍了SpringBoot中的两种配置文件形式,即.properties文件和.yml/.yaml文件,详细讲解了这两种文件的语法和读取方... 目录配置文件的形式语法1、key-value形式2、数组形式读取方式1、通过@value注解2、通过

自定义注解SpringBoot防重复提交AOP方法详解

《自定义注解SpringBoot防重复提交AOP方法详解》该文章描述了一个防止重复提交的流程,通过HttpServletRequest对象获取请求信息,生成唯一标识,使用Redis分布式锁判断请求是否... 目录防重复提交流程引入依赖properties配置自定义注解切面Redis工具类controller

Python容器转换与共有函数举例详解

《Python容器转换与共有函数举例详解》Python容器是Python编程语言中非常基础且重要的概念,它们提供了数据的存储和组织方式,下面:本文主要介绍Python容器转换与共有函数的相关资料,... 目录python容器转换与共有函数详解一、容器类型概览二、容器类型转换1. 基本容器转换2. 高级转换示

HTML5的input标签的`type`属性值详解和代码示例

《HTML5的input标签的`type`属性值详解和代码示例》HTML5的`input`标签提供了多种`type`属性值,用于创建不同类型的输入控件,满足用户输入的多样化需求,从文本输入、密码输入、... 目录一、引言二、文本类输入类型2.1 text2.2 password2.3 textarea(严格

C++ move 的作用详解及陷阱最佳实践

《C++move的作用详解及陷阱最佳实践》文章详细介绍了C++中的`std::move`函数的作用,包括为什么需要它、它的本质、典型使用场景、以及一些常见陷阱和最佳实践,感兴趣的朋友跟随小编一起看... 目录C++ move 的作用详解一、一句话总结二、为什么需要 move?C++98/03 的痛点⚡C++

MySQL中between and的基本用法、范围查询示例详解

《MySQL中betweenand的基本用法、范围查询示例详解》BETWEENAND操作符在MySQL中用于选择在两个值之间的数据,包括边界值,它支持数值和日期类型,示例展示了如何使用BETWEEN... 目录一、between and语法二、使用示例2.1、betwphpeen and数值查询2.2、be

python中的flask_sqlalchemy的使用及示例详解

《python中的flask_sqlalchemy的使用及示例详解》文章主要介绍了在使用SQLAlchemy创建模型实例时,通过元类动态创建实例的方式,并说明了如何在实例化时执行__init__方法,... 目录@orm.reconstructorSQLAlchemy的回滚关联其他模型数据库基本操作将数据添