结对项目之词频统计——增强功能

2023-11-21 02:10

本文主要是介绍结对项目之词频统计——增强功能,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

一、基本信息

1.1作者及其他

#编译环境:pycharm2017 python3.6
#项目:结对项目之词频统计——增强功能
#作者:1613072034 陈原
#     1613072035 周怡峰
#编程日期:2018年11月29日

1.2本次作业地址

https://edu.cnblogs.com/campus/ntu/Embedded_Application/homework/2088

二、项目分析

1.步骤:

(1)按照作业要求将函数封装成类,以便让使用不同环境的用户(例如,命令行、Windows图形界面程序,网页程序,手机App)进行方便的调用。

import reclass WordCount():def __init__(self, dst, m, n, o):  # dst:文件路径;m:每个词组长度;n:输出的单词数量;o:设定生成文件的存储路径self.dst = dstself.m = mself.n = nself.o = odef process_file(self):  # 读取文件d = open(self.dst, "r")bvffer = d.read()return bvfferdef process_rowCount(self, bvffer):  # 计算文章的行数if bvffer:count = 1for word in bvffer:  # 开始计数if word == '\n':count = count + 1return countdef process_wordNumber(self, bvffer):if bvffer:bvffer = bvffer.lower()  # 将文本中的大写字母转换为小写for ch in '{}!"#%()*+-,-.\/:;<=>?&@“”[]^_|':bvffer = bvffer.replace(ch, " ")  # 将文本中非法字符转化为空格words = bvffer.split()  # 用空格分割字符串if words:wordNew = []words_select = '[a-z]{4}(\w)*'for i in range(len(words)):word = re.match(words_select, words[i])  # 如果不匹配,返回NULL类型if word:wordNew.append(word.group())word_freq = {}for word in wordNew:  # 将正则匹配的结果进行统计word_freq[word] = word_freq.get(word, 0) + 1return wordNew, word_freqdef process_MPhrase(self, bvffer):  # 查找m个单词组成的词组if bvffer:model = ''for i in range(self.m):model += '[a-z]+'if i < self.m - 1:model += '\s'result = re.findall(model, bvffer)  # 正则查找词组word_freq = {}for word in result:  # 将正则匹配的结果进行统计word_freq[word] = word_freq.get(word, 0) + 1return word_freqdef output_result(self, word_freq):if word_freq:sorted_word_freq = sorted(word_freq.items(), key=lambda v: v[1], reverse=True)for item in sorted_word_freq[:self.n]:  # 输出前n个频率最高的单词print('<' + str(item[0]) + '>:' + str(item[1]))return sorted_word_freq[:self.n]def print_result(self):print('查询路径为:' + str(self.dst) + '的文本')print('统计词组长度为:' + str(self.m) + '且词频前' + str(self.n) + '的单词')bvffer = WordCount.process_file(self)  # 文件读入缓冲区lines = WordCount.process_rowCount(self, bvffer)  # 计算文章的行数wordNew, word_freq = WordCount.process_wordNumber(self, bvffer)  # 筛选出符合单词标准的单词词组sum_words = len(wordNew)  # 计算出符合单词标准的单词数量phrase_freq = WordCount.process_MPhrase(self, bvffer)show_sum_words = 'words:' + str(sum_words)show_lines = 'lines:' + str(lines)print(show_sum_words)  # 显示文章单词总数print(show_lines)  # 显示文章的行数itemsWord = WordCount.output_result(self, word_freq)itemsPhrase = WordCount.output_result(self, phrase_freq)with open(self.o, 'w+') as w:w.write(show_lines + '\n')w.write(show_sum_words + '\n')# 单词的可视化输出for itemWord in itemsWord:item = '<' + str(itemWord[0]) + '>:' + str(itemWord[1]) + '\n'w.write(item)# 词组的可视化输出for itemPhrase in itemsPhrase:item = '<' + str(itemPhrase[0]) + '>:' + str(itemPhrase[1]) + '\n'w.write(item)print('写入' + self.o + '文件已完成!')w.close()

(2)我们现在pycharm里试验一下能否成功统计词频(文本文件使用的是同一路径下的“Gone_with_the_wind.txt”,在主函数中预设统计3个单词组成的词组和输出出现频率最高的4个单词,并将结果保存成re.txt)

if __name__ == '__main__':obj = WordCount('src/Gone_with_the_wind.txt', 3, 4, 'src/re.txt')obj.print_result()

我们可以看见按照要求输出

(3)想要实现按照用户的要求对用户指定文本进行分析,就需要学习parserm模块中的add_agrumen函数,将你想输入的文本,要求规定到parser中,然后类似参数传递一样传递到class类中的各个函数得以实现。

def main():parser = argparse.ArgumentParser(description="your script description")  # description参数可以用于插入描述脚本用途的信息,可以为空parser.add_argument('--i', '-i', type=str, default='src/Gone_with_the_wind.txt', help="读取文件路径")parser.add_argument('--m', '-m', type=int, default=3, help="输出的单个词组数量")parser.add_argument('--n', '-n', type=int, default=4, help="输出的频率前n个的单词和词组数量")parser.add_argument('--o', '-o', type=str, default='src/result.txt', help="读取文件路径")args = parser.parse_args()  # 将变量以键-值的字典形式存入args字典dst = args.im = args.mn = args.no = args.oobj =WordCount.WordCount(dst, m, n, o)obj.print_result()

 

(4)在Dos命令提示符中传递参数

  1.指定文本分析 -i 参数设定读入的文件路径(先前在声明中有默认值,所以不指定其他要求程序会按默认值执行)

   

 2.指定统计词组长度为4  -m 参数设定统计的词组长度

3.指定统计出现频率最高的2个单词   -n 参数设定输出的单词数量

 

4. -o 参数设定生成文件的存储路径

5.总结性的一次性传递所有参数 多参数的混合使用(input.txt是自己弄的一个文本文档)

 

三、性能分析

四、PSP 表格

 五、事后分析与总结 

(1)针对某个问题的讨论决策过程:我们对API接口着重分析,我们两个也分成了两个方向进行研究,陈原主要针对类分装做一个接口在命令行进行输入参数;周怡峰主要是想在web窗口上做一个接口进行输入参数。最终我们讨论的结果是还是在命令行上进行输入参数做一个接口。

(2)评价对方:请评价一下你的合作伙伴,又哪些具体的优点和需要改进的地方。 这个部分两人都要提供自己的看法。

            周怡峰:陈原非常循循善诱,我不会的地方很耐心的指导,善于思考并且能付诸行动,希望对git指令了解更多。

            陈原:周怡峰非常认真,非常负责任,python的基础也是相当不错的,对于新接触的知识,立刻会付出行动进行验证,对我们的结对编程做出了巨大的贡献。

(3)评价整个过程:关于结对过程的建议

           结对编程不仅考研了编程能力,也考验了合作能力,我们在编程过程中相互鼓励,分工合作,因为一旦某个功能实现不了,一个人的话很容易暴躁,自闭。两个人可以相互鼓励,也同时形成一种良性竞争,比如这个方法是其中一个人想出来的,另一个人就会去思考有没有更快的方法。希望有机会可以再次结对编程,

(4)结对编程照片

 

转载于:https://www.cnblogs.com/MonC/p/10043424.html

这篇关于结对项目之词频统计——增强功能的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/399109

相关文章

Java实现文件图片的预览和下载功能

《Java实现文件图片的预览和下载功能》这篇文章主要为大家详细介绍了如何使用Java实现文件图片的预览和下载功能,文中的示例代码讲解详细,感兴趣的小伙伴可以跟随小编一起学习一下... Java实现文件(图片)的预览和下载 @ApiOperation("访问文件") @GetMapping("

SpringKafka消息发布之KafkaTemplate与事务支持功能

《SpringKafka消息发布之KafkaTemplate与事务支持功能》通过本文介绍的基本用法、序列化选项、事务支持、错误处理和性能优化技术,开发者可以构建高效可靠的Kafka消息发布系统,事务支... 目录引言一、KafkaTemplate基础二、消息序列化三、事务支持机制四、错误处理与重试五、性能优

SpringIntegration消息路由之Router的条件路由与过滤功能

《SpringIntegration消息路由之Router的条件路由与过滤功能》本文详细介绍了Router的基础概念、条件路由实现、基于消息头的路由、动态路由与路由表、消息过滤与选择性路由以及错误处理... 目录引言一、Router基础概念二、条件路由实现三、基于消息头的路由四、动态路由与路由表五、消息过滤

Spring Boot 3.4.3 基于 Spring WebFlux 实现 SSE 功能(代码示例)

《SpringBoot3.4.3基于SpringWebFlux实现SSE功能(代码示例)》SpringBoot3.4.3结合SpringWebFlux实现SSE功能,为实时数据推送提供... 目录1. SSE 简介1.1 什么是 SSE?1.2 SSE 的优点1.3 适用场景2. Spring WebFlu

基于SpringBoot实现文件秒传功能

《基于SpringBoot实现文件秒传功能》在开发Web应用时,文件上传是一个常见需求,然而,当用户需要上传大文件或相同文件多次时,会造成带宽浪费和服务器存储冗余,此时可以使用文件秒传技术通过识别重复... 目录前言文件秒传原理代码实现1. 创建项目基础结构2. 创建上传存储代码3. 创建Result类4.

Python+PyQt5实现多屏幕协同播放功能

《Python+PyQt5实现多屏幕协同播放功能》在现代会议展示、数字广告、展览展示等场景中,多屏幕协同播放已成为刚需,下面我们就来看看如何利用Python和PyQt5开发一套功能强大的跨屏播控系统吧... 目录一、项目概述:突破传统播放限制二、核心技术解析2.1 多屏管理机制2.2 播放引擎设计2.3 专

一文详解SpringBoot响应压缩功能的配置与优化

《一文详解SpringBoot响应压缩功能的配置与优化》SpringBoot的响应压缩功能基于智能协商机制,需同时满足很多条件,本文主要为大家详细介绍了SpringBoot响应压缩功能的配置与优化,需... 目录一、核心工作机制1.1 自动协商触发条件1.2 压缩处理流程二、配置方案详解2.1 基础YAML

一文教你如何将maven项目转成web项目

《一文教你如何将maven项目转成web项目》在软件开发过程中,有时我们需要将一个普通的Maven项目转换为Web项目,以便能够部署到Web容器中运行,本文将详细介绍如何通过简单的步骤完成这一转换过程... 目录准备工作步骤一:修改​​pom.XML​​1.1 添加​​packaging​​标签1.2 添加

tomcat多实例部署的项目实践

《tomcat多实例部署的项目实践》Tomcat多实例是指在一台设备上运行多个Tomcat服务,这些Tomcat相互独立,本文主要介绍了tomcat多实例部署的项目实践,具有一定的参考价值,感兴趣的可... 目录1.创建项目目录,测试文China编程件2js.创建实例的安装目录3.准备实例的配置文件4.编辑实例的

springboot集成Deepseek4j的项目实践

《springboot集成Deepseek4j的项目实践》本文主要介绍了springboot集成Deepseek4j的项目实践,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价... 目录Deepseek4j快速开始Maven 依js赖基础配置基础使用示例1. 流式返回示例2. 进阶