利用Python分析txt文本中的关键词频率与词汇和句子指标占比

2024-06-08 12:12

本文主要是介绍利用Python分析txt文本中的关键词频率与词汇和句子指标占比,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

在数据分析和自然语言处理的过程中,关键词的提取和统计是一个重要的步骤,特别是在分析政策文件、经济报告或其他涉及复杂信息的文本时。本文将介绍如何使用Python进行中文文本中的关键词统计,将关注政策相关和不确定性相关的关键词出现频率。通过这样的分析,可以揭示文本中政策导向和不确定性因素的分布情况,从而为进一步的经济分析和决策提供数据支持。

(一)Python分析文本中的不确定性关键词频率

工具与库的使用
本文使用了以下几个Python库:

jieba:一个强大的中文分词库,用于将连续的文本切分成词汇。
hanziconv:一个汉字转换库,用于在繁体字和简体字之间进行转换。
os:用于文件路径操作和读取文件。

分析步骤
(1)关键词定义:首先,定义政策相关和不确定性相关的关键词列表。这些关键词是我们感兴趣的内容,在文本中提及的频率可以反映出政策导向和不确定性因素。
(2)文本读取与预处理:从指定的文件路径读取文本,并将其中的繁体字转换为简体字,确保分词和关键词统计的一致性。
(3)文本分词:使用jieba库对文本进行分词处理,将连续的文本切分成单个的词汇。
(4)关键词统计:遍历分词后的词汇,统计每个关键词出现的次数,并计算其在总词汇中的占比。
(5)结果输出:输出总词组数、政策关键词出现次数及其占比、不确定性关键词出现次数及其占比。
以下是具体的代码实现:

import jieba  # 导入分词库
from hanziconv import HanziConv  # 导入汉字转换库# 定义政策相关和不确定性相关的关键词列表
policy_keywords = ["市政", "政策", "货币政策", "政策鼓励", "国家", "扩内需","保增长", "促发展", "产业发展", "法律", "法规", "国民经济", "有关部门","产业结构", "产业结构调整", "财政", "税收", "所得税", "增值税","税收减免", "税收优惠", "刺激政策", "限贷令", "限购令", "保障房","宏观调控", "政府", "当局", "国务院", "中央政府", "当地政府", "证监会","政治", "军事", "宏观", "国家政策", "政策环境", "经济政策", "政策走势"]
uncertainty_keywords = ["风险", "经营风险", "市场风险", "信用风险", "不确定性", "不确定","波动", "变化", "改变", "徘徊", "不稳", "不稳定性", "不稳定","不寻常", "错综复杂", "非常复杂"]# 设置文件路径并读取文件
file_path = 'C:\\Users\\Desktop\\1.txt'
with open(file_path, 'r', encoding='utf-8') as file:text = file.read()
text = HanziConv.toSimplified(text)  # 将文本中的繁体字转换为简体字
words = list(jieba.cut(text))  # 文本进行分词
total_words = len(words)  # 统计总的词组数量# 初始化关键词计数字典
policy_counts = {key: 0 for key in policy_keywords}
uncertainty_counts = {key: 0 for key in uncertainty_keywords}# 遍历所有词汇,统计关键词出现的次数
for word in words:if word in policy_counts:policy_counts[word] += 1if word in uncertainty_counts:uncertainty_counts[word] += 1# 计算关键词的占比
policy_ratio = sum(policy_counts.values()) / total_words * 100  # 计算政策关键词的占比
uncertainty_ratio = sum(uncertainty_counts.values()) / total_words * 100  # 计算不确定性关键词的占比# 输出统计结果
print("总词组数:", total_words)
print("政策关键词出现次数:", policy_counts)
print("政策关键词占比:", f"{policy_ratio:.2f}%")
print("不确定性关键词出现次数:", uncertainty_counts)
print("不确定性关键词占比:", f"{uncertainty_ratio:.2f}%")

(二)Python分析文本中的不确定性词汇和句子指标占比

分析步骤:
(1)环境准备和库的导入
安装必要的库:确保安装了 jieba 和 hanziconv。这两个库分别用于中文分词和中文繁简转换。
导入库:在 Python 脚本中导入所需的库。
(2)文本数据的加载和预处理
加载文本数据:从文件或其他数据源读取文本。
文本预处理:包括繁简转换、去除非文字和标点符号,以及分词。

def text_preprocess(text):text = HanziConv.toSimplified(text)  # 繁转简text = ''.join(e for e in text if e.isalnum() or e.isspace())  # 清理文本words = list(jieba.cut(text))  # 分词return words

(3)分析经济政策不确定性
定义不确定性相关词汇:列出与经济政策不确定性相关的关键词汇。
计算不确定性词汇占比(EPUW):统计这些词汇在文本中的出现频率,以此衡量不确定性的程度。

def calculate_EPUW(words):uncertainty_words = [...]num_uncertainty = sum(word in uncertainty_words for word in words)EPUW = num_uncertainty / len(words) if words else 0return EPUW

(4)进一步分析句子中的不确定性(EPUS)
句子级分析:将文本分割成句子,并分析每句中是否含有不确定性词汇。
计算不确定性句子占比:比较含有不确定性词汇的句子与总句子数的比例。

def calculate_EPUS(text):sentences = text.split('。')num_uncertainty_sentences = sum(any(word in s for word in uncertainty_words) for s in sentences)EPUS = num_uncertainty_sentences / len(sentences) if sentences else 0return EPUS

以下是具体的代码实现:

import jieba  # 导入分词库
from hanziconv import HanziConv  # 导入汉字转换库# 文本预处理函数:去除停用词、标点符号等,并进行分词处理
def text_preprocess(text):# 去除标点符号和特殊字符text = ''.join(e for e in text if e.isalnum() or e.isspace())# 分词处理words = list(jieba.cut(text))return words# 经济政策不确定性词汇占比计算函数
def calculate_EPUW(text):words = text_preprocess(text)  # 文本预处理total_words = len(words)  # 计算总词数uncertainty_words = ["风险", "经营风险", "市场风险", "信用风险", "不确定性", "不确定","波动", "变化", "改变", "徘徊", "不稳", "不稳定性", "不稳定","不寻常", "错综复杂", "非常复杂"]  # 不确定性相关词汇num_uncertainty = sum(word in uncertainty_words for word in words)  # 统计文本中不确定性词汇的数量EPUW = num_uncertainty / total_words if total_words > 0 else 0  # 计算经济政策不确定性词汇占比return EPUW# 经济政策不确定性句子占比计算函数
def calculate_EPUS(text):sentences = text.split('。')  # 将文本按句分割total_sentences = len(sentences)  # 计算总句数uncertainty_words = ["风险", "经营风险", "市场风险", "信用风险", "不确定性", "不确定","波动", "变化", "改变", "徘徊", "不稳", "不稳定性", "不稳定","不寻常", "错综复杂", "非常复杂"]  # 不确定性相关词汇num_uncertainty_sentences = sum(any(word in sentence for word in uncertainty_words) for sentence in sentences)  # 统计文本中包含不确定性词汇的句子数量EPUS = num_uncertainty_sentences / total_sentences if total_sentences > 0 else 0  # 计算经济政策不确定性感知指标return EPUS# 读取文本文件并进行简体中文转换
file_path = 'C:\\Users\\Desktop\\1.txt'
with open(file_path, 'r', encoding='utf-8') as file:text = file.read()
text = HanziConv.toSimplified(text)# 计算经济政策不确定性词汇占比
EPUW = calculate_EPUW(text)
print("经济政策不确定性词汇指标占比(EPUW):", EPUW)# 计算经济政策不确定性感知指标
EPUS = calculate_EPUS(text)
print("经济政策不确定性句子指标占比(EPUS):", EPUS)

这篇关于利用Python分析txt文本中的关键词频率与词汇和句子指标占比的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1042149

相关文章

RedHat运维-Linux文本操作基础-AWK进阶

你不用整理,跟着敲一遍,有个印象,然后把它保存到本地,以后要用再去看,如果有了新东西,你自个再添加。这是我参考牛客上的shell编程专项题,只不过换成了问答的方式而已。不用背,就算是我自己亲自敲,我现在好多也记不住。 1. 输出nowcoder.txt文件第5行的内容 2. 输出nowcoder.txt文件第6行的内容 3. 输出nowcoder.txt文件第7行的内容 4. 输出nowcode

[职场] 公务员的利弊分析 #知识分享#经验分享#其他

公务员的利弊分析     公务员作为一种稳定的职业选择,一直备受人们的关注。然而,就像任何其他职业一样,公务员职位也有其利与弊。本文将对公务员的利弊进行分析,帮助读者更好地了解这一职业的特点。 利: 1. 稳定的职业:公务员职位通常具有较高的稳定性,一旦进入公务员队伍,往往可以享受到稳定的工作环境和薪资待遇。这对于那些追求稳定的人来说,是一个很大的优势。 2. 薪资福利优厚:公务员的薪资和

Python 字符串占位

在Python中,可以使用字符串的格式化方法来实现字符串的占位。常见的方法有百分号操作符 % 以及 str.format() 方法 百分号操作符 % name = "张三"age = 20message = "我叫%s,今年%d岁。" % (name, age)print(message) # 我叫张三,今年20岁。 str.format() 方法 name = "张三"age

一道经典Python程序样例带你飞速掌握Python的字典和列表

Python中的列表(list)和字典(dict)是两种常用的数据结构,它们在数据组织和存储方面有很大的不同。 列表(List) 列表是Python中的一种有序集合,可以随时添加和删除其中的元素。列表中的元素可以是任何数据类型,包括数字、字符串、其他列表等。列表使用方括号[]表示,元素之间用逗号,分隔。 定义和使用 # 定义一个列表 fruits = ['apple', 'banana

Python应用开发——30天学习Streamlit Python包进行APP的构建(9)

st.area_chart 显示区域图。 这是围绕 st.altair_chart 的语法糖。主要区别在于该命令使用数据自身的列和指数来计算图表的 Altair 规格。因此,在许多 "只需绘制此图 "的情况下,该命令更易于使用,但可定制性较差。 如果 st.area_chart 无法正确猜测数据规格,请尝试使用 st.altair_chart 指定所需的图表。 Function signa

python实现最简单循环神经网络(RNNs)

Recurrent Neural Networks(RNNs) 的模型: 上图中红色部分是输入向量。文本、单词、数据都是输入,在网络里都以向量的形式进行表示。 绿色部分是隐藏向量。是加工处理过程。 蓝色部分是输出向量。 python代码表示如下: rnn = RNN()y = rnn.step(x) # x为输入向量,y为输出向量 RNNs神经网络由神经元组成, python

python 喷泉码

因为要完成毕业设计,毕业设计做的是数据分发与传输的东西。在网络中数据容易丢失,所以我用fountain code做所发送数据包的数据恢复。fountain code属于有限域编码的一部分,有很广泛的应用。 我们日常生活中使用的二维码,就用到foutain code做数据恢复。你遮住二维码的四分之一,用手机的相机也照样能识别。你遮住的四分之一就相当于丢失的数据包。 为了实现并理解foutain

python 点滴学

1 python 里面tuple是无法改变的 tuple = (1,),计算tuple里面只有一个元素,也要加上逗号 2  1 毕业论文改 2 leetcode第一题做出来

高度内卷下,企业如何通过VOC(客户之声)做好竞争分析?

VOC,即客户之声,是一种通过收集和分析客户反馈、需求和期望,来洞察市场趋势和竞争对手动态的方法。在高度内卷的市场环境下,VOC不仅能够帮助企业了解客户的真实需求,还能为企业提供宝贵的竞争情报,助力企业在竞争中占据有利地位。 那么,企业该如何通过VOC(客户之声)做好竞争分析呢?深圳天行健企业管理咨询公司解析如下: 首先,要建立完善的VOC收集机制。这包括通过线上渠道(如社交媒体、官网留言

基于CTPN(tensorflow)+CRNN(pytorch)+CTC的不定长文本检测和识别

转发来源:https://swift.ctolib.com/ooooverflow-chinese-ocr.html chinese-ocr 基于CTPN(tensorflow)+CRNN(pytorch)+CTC的不定长文本检测和识别 环境部署 sh setup.sh 使用环境: python 3.6 + tensorflow 1.10 +pytorch 0.4.1 注:CPU环境