Java练习-使用数组统计一段英语文章中的单词频数

2023-11-07 06:50

本文主要是介绍Java练习-使用数组统计一段英语文章中的单词频数,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

Java练习-使用数组统计一段英语文章中的单词频数

  • 一、分析
    • 1.1 基本要求
    • 1.2 进阶要求
  • 二、代码实现(分步骤)
    • 2.1 赋值,变小写,正则表达式及分割
    • 2.2 频数统计
      • 排序输出:冒泡
    • 2.3 进阶要求实现
      • 2.3.1 介词的处理
      • 2.3.2 单复数处理
      • 2.3.3 时态处理
  • 三、完整代码
    • 输出结果

要求:基于java
找一段较长的英文文章(500个单词左右),赋值给一字符串,设计以标点符号和空格换行作为分隔符的正则表达式,用split()方法来分割此字符串。
基本要求:忽略单词大小写,统计出出现频率最高的前五位单词,排序
进阶要求:去掉介词,单复数、时态等情况下来分析统计。

一、分析

首先是先将我们要分析的文本赋值给一个字符串,接下来使用正则表达式与spilt()方法来分割此字符串。

1.1 基本要求

忽略大小写,进行字符统计。
此处我们使用两个列表进行统计,一个列表用来存储单词,另一个列表的对应位置存储频数。
进行排序时,使用冒泡排序即可。

1.2 进阶要求

对于介词,单复数以及时态的处理,均在进行统计单词频数之前,在原字符串中修改。

二、代码实现(分步骤)

以下是可能会用到的package

import java.util.ArrayList;
import java.util.Arrays;
import java.util.Collections;
import java.util.List;

2.1 赋值,变小写,正则表达式及分割

String ss = "On the morning of August 2nd, SHI Daimin, the Vice President of SWUFE, inspected the logistics work in Liulin Campus during the summer vacation and visited the logistics staff who persisted in their work during the vacation. All members of the leading group of the Logistics Service Company and the directors of relevant departments accompanied him in the inspection. SHI Daimin went to the construction sites of student canteen gas pipeline renovation, graduate dormitory maintenance in student apartment, SWUFE-UD Institute of Data Science office renovation, school cooking skills labor education base renovation, and he inquired in detail about the preparatory work of the special project of improving basic school operation conditions in universities in 2020. He visited the study and living places of students such as Tongbo Building, student canteen and other places in summer vacation, and chatted with students about the use of the study room reservation system and the study and life staying at school during the vacation. SHI Daimin pointed out that in every summer vacation, the logistics work was heavy, with tight schedule and great pressure, and the cadres and staff of the Logistics Department worked very hard. On behalf of the school, he expressed his thanks to all the logistics cadres and staff who worked hard in the summer, and hoped that they could continue to carry forward the spirit of fearlessness of hardship and heat, work earnestly, and insist safety management throughout the whole process of summer work, make high-quality and excellent projects to provide solid logistical support for the smooth development of the university’s work in the new semester. After the inspection, members of the logistics leading group and the directors of relevant departments immediately convene a special working meeting to arrange and deploy the renovation project, summer logistics support, special project construction, etc., according to the work requirements of SHI Daimin.";String ss1 = ss.toLowerCase();// 首先将字符串全部转换为小写
String regx = "[\\s\\p{Punct}]+";    // []表示里面任意一个,所以是空格或者标点出现多次
String[] sss = ss1.split(regx);

此处我们主要探讨一下正则表达式,下表给除了我们可能使用到的元字符以及正则表达式的写法

在这里插入图片描述
在正则表达式中可以用方括号括起若干个字符来表示一个字符,该元字符代表方括号中的任意一个字符。
此外括号中允许还有括号,可以进行交并差运算,如

[^abc]		// 代表除了abc以外的任何字符
[a-d[m-p]]    // 表示a~d或者m~p的任何一个字符(并)
[a-z&&[def]]	// 掉膘d e f中的任何一个(交)
[a-f&&[^bc]]	// 代表a d e f(差)

另外还需要注意的是,“.”表示任何一个字符,如果正则表达式中想要使用这个点字符,那么要使用[.]或者\56

2.2 频数统计

按照我们上面的分析,首先创建两个列表

// 首先按照初始化两个一维数组,数组的长度可能不可能大于原数组的长度。
// 并且第一个数组存储单词,第二个数组的对应位置存储出现的次数
String ss2 [] = new String[sss.length];
int num[] = new int[sss.length];

接下来进行频数的统计,代码如下

// 做两个循环,第一个数是所有的遍历,此时初始化count
int p = 0;  // 用这个数向ss2和num中添加元素,第一层for之后加1for (int i = 0; i < sss.length; i++) {if ("".equals(sss[i])) {continue;}else{ss2[p] = sss[i];int count = 1;for (int j = i+1; j < sss.length; j++) {// 判断出现的次数,如果重复出现count就加1,并把后面重复的那个单词删掉if (sss[i].equals(sss[j])) {count += 1;sss[j] = "";}}num[p

这篇关于Java练习-使用数组统计一段英语文章中的单词频数的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/361970

相关文章

Python虚拟环境终极(含PyCharm的使用教程)

《Python虚拟环境终极(含PyCharm的使用教程)》:本文主要介绍Python虚拟环境终极(含PyCharm的使用教程),具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,... 目录一、为什么需要虚拟环境?二、虚拟环境创建方式对比三、命令行创建虚拟环境(venv)3.1 基础命令3

Python Transformer 库安装配置及使用方法

《PythonTransformer库安装配置及使用方法》HuggingFaceTransformers是自然语言处理(NLP)领域最流行的开源库之一,支持基于Transformer架构的预训练模... 目录python 中的 Transformer 库及使用方法一、库的概述二、安装与配置三、基础使用:Pi

关于pandas的read_csv方法使用解读

《关于pandas的read_csv方法使用解读》:本文主要介绍关于pandas的read_csv方法使用,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录pandas的read_csv方法解读read_csv中的参数基本参数通用解析参数空值处理相关参数时间处理相关

使用Node.js制作图片上传服务的详细教程

《使用Node.js制作图片上传服务的详细教程》在现代Web应用开发中,图片上传是一项常见且重要的功能,借助Node.js强大的生态系统,我们可以轻松搭建高效的图片上传服务,本文将深入探讨如何使用No... 目录准备工作搭建 Express 服务器配置 multer 进行图片上传处理图片上传请求完整代码示例

SpringBoot条件注解核心作用与使用场景详解

《SpringBoot条件注解核心作用与使用场景详解》SpringBoot的条件注解为开发者提供了强大的动态配置能力,理解其原理和适用场景是构建灵活、可扩展应用的关键,本文将系统梳理所有常用的条件注... 目录引言一、条件注解的核心机制二、SpringBoot内置条件注解详解1、@ConditionalOn

Python中使用正则表达式精准匹配IP地址的案例

《Python中使用正则表达式精准匹配IP地址的案例》Python的正则表达式(re模块)是完成这个任务的利器,但你知道怎么写才能准确匹配各种合法的IP地址吗,今天我们就来详细探讨这个问题,感兴趣的朋... 目录为什么需要IP正则表达式?IP地址的基本结构基础正则表达式写法精确匹配0-255的数字验证IP地

通过Spring层面进行事务回滚的实现

《通过Spring层面进行事务回滚的实现》本文主要介绍了通过Spring层面进行事务回滚的实现,包括声明式事务和编程式事务,具有一定的参考价值,感兴趣的可以了解一下... 目录声明式事务回滚:1. 基础注解配置2. 指定回滚异常类型3. ​不回滚特殊场景编程式事务回滚:1. ​使用 TransactionT

使用Python实现全能手机虚拟键盘的示例代码

《使用Python实现全能手机虚拟键盘的示例代码》在数字化办公时代,你是否遇到过这样的场景:会议室投影电脑突然键盘失灵、躺在沙发上想远程控制书房电脑、或者需要给长辈远程协助操作?今天我要分享的Pyth... 目录一、项目概述:不止于键盘的远程控制方案1.1 创新价值1.2 技术栈全景二、需求实现步骤一、需求

Spring LDAP目录服务的使用示例

《SpringLDAP目录服务的使用示例》本文主要介绍了SpringLDAP目录服务的使用示例... 目录引言一、Spring LDAP基础二、LdapTemplate详解三、LDAP对象映射四、基本LDAP操作4.1 查询操作4.2 添加操作4.3 修改操作4.4 删除操作五、认证与授权六、高级特性与最佳

Spring Shell 命令行实现交互式Shell应用开发

《SpringShell命令行实现交互式Shell应用开发》本文主要介绍了SpringShell命令行实现交互式Shell应用开发,能够帮助开发者快速构建功能丰富的命令行应用程序,具有一定的参考价... 目录引言一、Spring Shell概述二、创建命令类三、命令参数处理四、命令分组与帮助系统五、自定义S