jieba--做最好用的中文分词组件详解【5】(自定义停止词语料库)

2024-01-29 15:48

本文主要是介绍jieba--做最好用的中文分词组件详解【5】(自定义停止词语料库),希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

写在最前面:

 

这回真的是最后一篇关于jieba的用法介绍了

 

关键词提取所使用停止词(停止词)文本语料库切换成自定义语料库的路径

 

这是使用自带的停用词语料库,使用TF-IDF算法提取20个关键词。

import jieba
import jieba.analysejieba.load_userdict("userdict.txt")
jieba.analyse.set_idf_path("./jieba-master/extra_dict/idf.txt.big")test_sent = ("这个李小福是那个云计算专家,他这个掌握了很多滑雪运动的那个知识,因此这个他那个当上了那个创新办什么主任"
)tags = jieba.analyse.extract_tags(test_sent, topK=20, withWeight=True)
for i in tags:print(i[0],i[1])

 

结果如下:

这个 1.8875948688789472
那个 0.9991485692126316
李小福 0.6291982896263157
云计算 0.6291982896263157
掌握 0.6291982896263157
很多 0.6291982896263157
知识 0.6291982896263157
当上 0.6291982896263157
创新办 0.6291982896263157
什么 0.6291982896263157
主任 0.6291982896263157
滑雪运动 0.6159712144526316
专家 0.29483627671210527
因此 0.21391291445421054

 

然后使用自定义的停止词语料库,我们在语料库里加了这些停用关键词。

这个
那个
什么

 

加载自定义停用语料库

jieba.analyse.set_stop_words("./jieba-master/extra_dict/stop_words.txt")

 

输出结果如下:

李小福 1.0867970457181817
云计算 1.0867970457181817
掌握 1.0867970457181817
很多 1.0867970457181817
知识 1.0867970457181817
当上 1.0867970457181817
创新办 1.0867970457181817
主任 1.0867970457181817
滑雪运动 1.063950279509091
专家 0.5092626597754545
因此 0.36948594314818184

 

可以看到,啰嗦的这个、那个、什么被去掉了,仅此而已。

这篇关于jieba--做最好用的中文分词组件详解【5】(自定义停止词语料库)的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/657394

相关文章

C++使用栈实现括号匹配的代码详解

《C++使用栈实现括号匹配的代码详解》在编程中,括号匹配是一个常见问题,尤其是在处理数学表达式、编译器解析等任务时,栈是一种非常适合处理此类问题的数据结构,能够精确地管理括号的匹配问题,本文将通过C+... 目录引言问题描述代码讲解代码解析栈的状态表示测试总结引言在编程中,括号匹配是一个常见问题,尤其是在

Debezium 与 Apache Kafka 的集成方式步骤详解

《Debezium与ApacheKafka的集成方式步骤详解》本文详细介绍了如何将Debezium与ApacheKafka集成,包括集成概述、步骤、注意事项等,通过KafkaConnect,D... 目录一、集成概述二、集成步骤1. 准备 Kafka 环境2. 配置 Kafka Connect3. 安装 D

Java中ArrayList和LinkedList有什么区别举例详解

《Java中ArrayList和LinkedList有什么区别举例详解》:本文主要介绍Java中ArrayList和LinkedList区别的相关资料,包括数据结构特性、核心操作性能、内存与GC影... 目录一、底层数据结构二、核心操作性能对比三、内存与 GC 影响四、扩容机制五、线程安全与并发方案六、工程

Spring Cloud LoadBalancer 负载均衡详解

《SpringCloudLoadBalancer负载均衡详解》本文介绍了如何在SpringCloud中使用SpringCloudLoadBalancer实现客户端负载均衡,并详细讲解了轮询策略和... 目录1. 在 idea 上运行多个服务2. 问题引入3. 负载均衡4. Spring Cloud Load

Springboot中分析SQL性能的两种方式详解

《Springboot中分析SQL性能的两种方式详解》文章介绍了SQL性能分析的两种方式:MyBatis-Plus性能分析插件和p6spy框架,MyBatis-Plus插件配置简单,适用于开发和测试环... 目录SQL性能分析的两种方式:功能介绍实现方式:实现步骤:SQL性能分析的两种方式:功能介绍记录

在 Spring Boot 中使用 @Autowired和 @Bean注解的示例详解

《在SpringBoot中使用@Autowired和@Bean注解的示例详解》本文通过一个示例演示了如何在SpringBoot中使用@Autowired和@Bean注解进行依赖注入和Bean... 目录在 Spring Boot 中使用 @Autowired 和 @Bean 注解示例背景1. 定义 Stud

如何通过海康威视设备网络SDK进行Java二次开发摄像头车牌识别详解

《如何通过海康威视设备网络SDK进行Java二次开发摄像头车牌识别详解》:本文主要介绍如何通过海康威视设备网络SDK进行Java二次开发摄像头车牌识别的相关资料,描述了如何使用海康威视设备网络SD... 目录前言开发流程问题和解决方案dll库加载不到的问题老旧版本sdk不兼容的问题关键实现流程总结前言作为

SQL 中多表查询的常见连接方式详解

《SQL中多表查询的常见连接方式详解》本文介绍SQL中多表查询的常见连接方式,包括内连接(INNERJOIN)、左连接(LEFTJOIN)、右连接(RIGHTJOIN)、全外连接(FULLOUTER... 目录一、连接类型图表(ASCII 形式)二、前置代码(创建示例表)三、连接方式代码示例1. 内连接(I

Go路由注册方法详解

《Go路由注册方法详解》Go语言中,http.NewServeMux()和http.HandleFunc()是两种不同的路由注册方式,前者创建独立的ServeMux实例,适合模块化和分层路由,灵活性高... 目录Go路由注册方法1. 路由注册的方式2. 路由器的独立性3. 灵活性4. 启动服务器的方式5.

Java中八大包装类举例详解(通俗易懂)

《Java中八大包装类举例详解(通俗易懂)》:本文主要介绍Java中的包装类,包括它们的作用、特点、用途以及如何进行装箱和拆箱,包装类还提供了许多实用方法,如转换、获取基本类型值、比较和类型检测,... 目录一、包装类(Wrapper Class)1、简要介绍2、包装类特点3、包装类用途二、装箱和拆箱1、装