AIOPS 自然语义处理之TF-IDF代码实现(Python)

2024-03-02 20:08

本文主要是介绍AIOPS 自然语义处理之TF-IDF代码实现(Python),希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

关于理论讲TF-IDF可以查看上篇文章

要点讲解:

1、利用python第三方插件 jieba分词对输入的语句进行分析

2、利用python第三方插件 requests获取分词在中文文档中出现的文档数

3、利用python自带表中的Counter类对分词进行统计

4、测试语句:'查看一下亚马逊服务器硬盘'

代码见下:

# -*- coding: utf-8  -*-
import jieba
import math
import operator
import re
import requests
from collections import Counterclass SimilarityCalculator(object):def __init__(self):self.total_chinese_doc = 60000000000  # 假设所有的中文文档有60亿def cut_context(self, context):"""调用结巴分词进行切分:return:seg_list 包含分析的迭代器"""seg_list = jieba.cut(context, cut_all=False)return seg_listdef get_tf(self, context):"""计算每个词的词频term frequency 计算公式tf=count of word / total number of context:param context: 文本内容:return: 根据词频从高到底排列的OrderedDict字典, key为word, value为tf值"""word_tf_dict = {}# step 1: 针对语句进行分析, 此处利用结巴进行分析seg_list = self.cut_context(context)# step 2: 统计每隔分词的次数, 计算tffor word, count in Counter(seg_list).iteritems():word_tf_dict[word] = operator.div(float(count), len(context))return word_tf_dictdef get_idf(self, context):"""计算输入文本中每隔分词的逆文档频率 idf, 在此处假设中文总文档为D=65亿各个分词出现文档为:param context: 输入分文:return:"""word_idf_dict = {}seg_list = self.cut_context(context)for seg in seg_list:seg_doc_count = self.get_doc_count(seg)idf = math.log(operator.div(self.total_chinese_doc, operator.add(seg_doc_count, 1)), 10)print seg, seg_doc_count, idfword_idf_dict[seg] = idfreturn word_idf_dictdef get_df_idf_values(self, word_idf_dict, word_tf_dict):"""计算df_idf的值:param word_idf_dict: 逆文档频率数据:param word_tf_dict: 词频数据:return: df_idf的数据"""df_idf_value_dict = {}for word in word_idf_dict:df_idf_value_dict[word] = operator.mul(word_idf_dict.get(word), word_tf_dict.get(word))return df_idf_value_dictdef get_doc_count(self, word):"""通过百度上进行搜索,获取每个分词出现在的中文文档的个数:param word::return:"""doc_count = 0try:url = r'http://www.baidu.com/s?wd=' + wordres = requests.get(url)word_count_list = re.findall(ur'百度为您找到相关结果约(.*)个', res.text)if word_count_list:doc_count = re.sub(r'\D', '', word_count_list[0]).strip()except:doc_count = 0return int(doc_count)if __name__ == '__main__':similar_calculator = SimilarityCalculator()context = u'查看一下亚马逊服务器硬盘'word_idf_dict = similar_calculator.get_idf(context)word_tf_dict = similar_calculator.get_tf(context)idf_values = similar_calculator.get_df_idf_values(word_idf_dict, word_tf_dict)idf_values = sorted(idf_values.iteritems(), key=lambda x: x[1], reverse=True)for key, value in idf_values:print key, round(value, 2)

运行结果:

亚马逊 0.29
服务器 0.25
硬盘 0.25
一下 0.23
查看 0.23

具体过程数据:

分词出现的文档数IDFTFTF-IDF
查看1000000002.7774270.0830.23
一下939000002.8048210.0830.23
亚马逊188000003.5039270.0830.29
服务器630000002.9786370.0830.25
硬盘645000002.9684830.0830.25

这篇关于AIOPS 自然语义处理之TF-IDF代码实现(Python)的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/767277

相关文章

Oracle查询优化之高效实现仅查询前10条记录的方法与实践

《Oracle查询优化之高效实现仅查询前10条记录的方法与实践》:本文主要介绍Oracle查询优化之高效实现仅查询前10条记录的相关资料,包括使用ROWNUM、ROW_NUMBER()函数、FET... 目录1. 使用 ROWNUM 查询2. 使用 ROW_NUMBER() 函数3. 使用 FETCH FI

Python脚本实现自动删除C盘临时文件夹

《Python脚本实现自动删除C盘临时文件夹》在日常使用电脑的过程中,临时文件夹往往会积累大量的无用数据,占用宝贵的磁盘空间,下面我们就来看看Python如何通过脚本实现自动删除C盘临时文件夹吧... 目录一、准备工作二、python脚本编写三、脚本解析四、运行脚本五、案例演示六、注意事项七、总结在日常使用

Java实现Excel与HTML互转

《Java实现Excel与HTML互转》Excel是一种电子表格格式,而HTM则是一种用于创建网页的标记语言,虽然两者在用途上存在差异,但有时我们需要将数据从一种格式转换为另一种格式,下面我们就来看看... Excel是一种电子表格格式,广泛用于数据处理和分析,而HTM则是一种用于创建网页的标记语言。虽然两

Java中Springboot集成Kafka实现消息发送和接收功能

《Java中Springboot集成Kafka实现消息发送和接收功能》Kafka是一个高吞吐量的分布式发布-订阅消息系统,主要用于处理大规模数据流,它由生产者、消费者、主题、分区和代理等组件构成,Ka... 目录一、Kafka 简介二、Kafka 功能三、POM依赖四、配置文件五、生产者六、消费者一、Kaf

Python将大量遥感数据的值缩放指定倍数的方法(推荐)

《Python将大量遥感数据的值缩放指定倍数的方法(推荐)》本文介绍基于Python中的gdal模块,批量读取大量多波段遥感影像文件,分别对各波段数据加以数值处理,并将所得处理后数据保存为新的遥感影像... 本文介绍基于python中的gdal模块,批量读取大量多波段遥感影像文件,分别对各波段数据加以数值处

python管理工具之conda安装部署及使用详解

《python管理工具之conda安装部署及使用详解》这篇文章详细介绍了如何安装和使用conda来管理Python环境,它涵盖了从安装部署、镜像源配置到具体的conda使用方法,包括创建、激活、安装包... 目录pytpshheraerUhon管理工具:conda部署+使用一、安装部署1、 下载2、 安装3

Python进阶之Excel基本操作介绍

《Python进阶之Excel基本操作介绍》在现实中,很多工作都需要与数据打交道,Excel作为常用的数据处理工具,一直备受人们的青睐,本文主要为大家介绍了一些Python中Excel的基本操作,希望... 目录概述写入使用 xlwt使用 XlsxWriter读取修改概述在现实中,很多工作都需要与数据打交

使用Python实现在Word中添加或删除超链接

《使用Python实现在Word中添加或删除超链接》在Word文档中,超链接是一种将文本或图像连接到其他文档、网页或同一文档中不同部分的功能,本文将为大家介绍一下Python如何实现在Word中添加或... 在Word文档中,超链接是一种将文本或图像连接到其他文档、网页或同一文档中不同部分的功能。通过添加超

windos server2022里的DFS配置的实现

《windosserver2022里的DFS配置的实现》DFS是WindowsServer操作系统提供的一种功能,用于在多台服务器上集中管理共享文件夹和文件的分布式存储解决方案,本文就来介绍一下wi... 目录什么是DFS?优势:应用场景:DFS配置步骤什么是DFS?DFS指的是分布式文件系统(Distr

NFS实现多服务器文件的共享的方法步骤

《NFS实现多服务器文件的共享的方法步骤》NFS允许网络中的计算机之间共享资源,客户端可以透明地读写远端NFS服务器上的文件,本文就来介绍一下NFS实现多服务器文件的共享的方法步骤,感兴趣的可以了解一... 目录一、简介二、部署1、准备1、服务端和客户端:安装nfs-utils2、服务端:创建共享目录3、服