AIOPS 自然语义处理之TF-IDF代码实现(Python)

2024-03-02 20:08

本文主要是介绍AIOPS 自然语义处理之TF-IDF代码实现(Python),希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

关于理论讲TF-IDF可以查看上篇文章

要点讲解:

1、利用python第三方插件 jieba分词对输入的语句进行分析

2、利用python第三方插件 requests获取分词在中文文档中出现的文档数

3、利用python自带表中的Counter类对分词进行统计

4、测试语句:'查看一下亚马逊服务器硬盘'

代码见下:

# -*- coding: utf-8  -*-
import jieba
import math
import operator
import re
import requests
from collections import Counterclass SimilarityCalculator(object):def __init__(self):self.total_chinese_doc = 60000000000  # 假设所有的中文文档有60亿def cut_context(self, context):"""调用结巴分词进行切分:return:seg_list 包含分析的迭代器"""seg_list = jieba.cut(context, cut_all=False)return seg_listdef get_tf(self, context):"""计算每个词的词频term frequency 计算公式tf=count of word / total number of context:param context: 文本内容:return: 根据词频从高到底排列的OrderedDict字典, key为word, value为tf值"""word_tf_dict = {}# step 1: 针对语句进行分析, 此处利用结巴进行分析seg_list = self.cut_context(context)# step 2: 统计每隔分词的次数, 计算tffor word, count in Counter(seg_list).iteritems():word_tf_dict[word] = operator.div(float(count), len(context))return word_tf_dictdef get_idf(self, context):"""计算输入文本中每隔分词的逆文档频率 idf, 在此处假设中文总文档为D=65亿各个分词出现文档为:param context: 输入分文:return:"""word_idf_dict = {}seg_list = self.cut_context(context)for seg in seg_list:seg_doc_count = self.get_doc_count(seg)idf = math.log(operator.div(self.total_chinese_doc, operator.add(seg_doc_count, 1)), 10)print seg, seg_doc_count, idfword_idf_dict[seg] = idfreturn word_idf_dictdef get_df_idf_values(self, word_idf_dict, word_tf_dict):"""计算df_idf的值:param word_idf_dict: 逆文档频率数据:param word_tf_dict: 词频数据:return: df_idf的数据"""df_idf_value_dict = {}for word in word_idf_dict:df_idf_value_dict[word] = operator.mul(word_idf_dict.get(word), word_tf_dict.get(word))return df_idf_value_dictdef get_doc_count(self, word):"""通过百度上进行搜索,获取每个分词出现在的中文文档的个数:param word::return:"""doc_count = 0try:url = r'http://www.baidu.com/s?wd=' + wordres = requests.get(url)word_count_list = re.findall(ur'百度为您找到相关结果约(.*)个', res.text)if word_count_list:doc_count = re.sub(r'\D', '', word_count_list[0]).strip()except:doc_count = 0return int(doc_count)if __name__ == '__main__':similar_calculator = SimilarityCalculator()context = u'查看一下亚马逊服务器硬盘'word_idf_dict = similar_calculator.get_idf(context)word_tf_dict = similar_calculator.get_tf(context)idf_values = similar_calculator.get_df_idf_values(word_idf_dict, word_tf_dict)idf_values = sorted(idf_values.iteritems(), key=lambda x: x[1], reverse=True)for key, value in idf_values:print key, round(value, 2)

运行结果:

亚马逊 0.29
服务器 0.25
硬盘 0.25
一下 0.23
查看 0.23

具体过程数据:

分词出现的文档数IDFTFTF-IDF
查看1000000002.7774270.0830.23
一下939000002.8048210.0830.23
亚马逊188000003.5039270.0830.29
服务器630000002.9786370.0830.25
硬盘645000002.9684830.0830.25

这篇关于AIOPS 自然语义处理之TF-IDF代码实现(Python)的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/767277

相关文章

无人叉车3d激光slam多房间建图定位异常处理方案-墙体画线地图切分方案

墙体画线地图切分方案 针对问题:墙体两侧特征混淆误匹配,导致建图和定位偏差,表现为过门跳变、外月台走歪等 ·解决思路:预期的根治方案IGICP需要较长时间完成上线,先使用切分地图的工程化方案,即墙体两侧切分为不同地图,在某一侧只使用该侧地图进行定位 方案思路 切分原理:切分地图基于关键帧位置,而非点云。 理论基础:光照是直线的,一帧点云必定只能照射到墙的一侧,无法同时照到两侧实践考虑:关

python: 多模块(.py)中全局变量的导入

文章目录 global关键字可变类型和不可变类型数据的内存地址单模块(单个py文件)的全局变量示例总结 多模块(多个py文件)的全局变量from x import x导入全局变量示例 import x导入全局变量示例 总结 global关键字 global 的作用范围是模块(.py)级别: 当你在一个模块(文件)中使用 global 声明变量时,这个变量只在该模块的全局命名空

hdu1043(八数码问题,广搜 + hash(实现状态压缩) )

利用康拓展开将一个排列映射成一个自然数,然后就变成了普通的广搜题。 #include<iostream>#include<algorithm>#include<string>#include<stack>#include<queue>#include<map>#include<stdio.h>#include<stdlib.h>#include<ctype.h>#inclu

【C++】_list常用方法解析及模拟实现

相信自己的力量,只要对自己始终保持信心,尽自己最大努力去完成任何事,就算事情最终结果是失败了,努力了也不留遗憾。💓💓💓 目录   ✨说在前面 🍋知识点一:什么是list? •🌰1.list的定义 •🌰2.list的基本特性 •🌰3.常用接口介绍 🍋知识点二:list常用接口 •🌰1.默认成员函数 🔥构造函数(⭐) 🔥析构函数 •🌰2.list对象

【Prometheus】PromQL向量匹配实现不同标签的向量数据进行运算

✨✨ 欢迎大家来到景天科技苑✨✨ 🎈🎈 养成好习惯,先赞后看哦~🎈🎈 🏆 作者简介:景天科技苑 🏆《头衔》:大厂架构师,华为云开发者社区专家博主,阿里云开发者社区专家博主,CSDN全栈领域优质创作者,掘金优秀博主,51CTO博客专家等。 🏆《博客》:Python全栈,前后端开发,小程序开发,人工智能,js逆向,App逆向,网络系统安全,数据分析,Django,fastapi

活用c4d官方开发文档查询代码

当你问AI助手比如豆包,如何用python禁止掉xpresso标签时候,它会提示到 这时候要用到两个东西。https://developers.maxon.net/论坛搜索和开发文档 比如这里我就在官方找到正确的id描述 然后我就把参数标签换过来

让树莓派智能语音助手实现定时提醒功能

最初的时候是想直接在rasa 的chatbot上实现,因为rasa本身是带有remindschedule模块的。不过经过一番折腾后,忽然发现,chatbot上实现的定时,语音助手不一定会有响应。因为,我目前语音助手的代码设置了长时间无应答会结束对话,这样一来,chatbot定时提醒的触发就不会被语音助手获悉。那怎么让语音助手也具有定时提醒功能呢? 我最后选择的方法是用threading.Time

【Python编程】Linux创建虚拟环境并配置与notebook相连接

1.创建 使用 venv 创建虚拟环境。例如,在当前目录下创建一个名为 myenv 的虚拟环境: python3 -m venv myenv 2.激活 激活虚拟环境使其成为当前终端会话的活动环境。运行: source myenv/bin/activate 3.与notebook连接 在虚拟环境中,使用 pip 安装 Jupyter 和 ipykernel: pip instal

Android实现任意版本设置默认的锁屏壁纸和桌面壁纸(两张壁纸可不一致)

客户有些需求需要设置默认壁纸和锁屏壁纸  在默认情况下 这两个壁纸是相同的  如果需要默认的锁屏壁纸和桌面壁纸不一样 需要额外修改 Android13实现 替换默认桌面壁纸: 将图片文件替换frameworks/base/core/res/res/drawable-nodpi/default_wallpaper.*  (注意不能是bmp格式) 替换默认锁屏壁纸: 将图片资源放入vendo

C#实战|大乐透选号器[6]:实现实时显示已选择的红蓝球数量

哈喽,你好啊,我是雷工。 关于大乐透选号器在前面已经记录了5篇笔记,这是第6篇; 接下来实现实时显示当前选中红球数量,蓝球数量; 以下为练习笔记。 01 效果演示 当选择和取消选择红球或蓝球时,在对应的位置显示实时已选择的红球、蓝球的数量; 02 标签名称 分别设置Label标签名称为:lblRedCount、lblBlueCount