JavaWeb——唐诗分析项目

2023-11-06 01:20
文章标签 java 分析 项目 web 唐诗

本文主要是介绍JavaWeb——唐诗分析项目,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

唐诗分析项目

  • 1.项目介绍
  • 2.项目整体设计
  • 3.项目技术
  • 4.数据库表设计
  • 4.核心模块一:诗词爬取模块
  • 5.核心模块二:数据可视化模块
  • 6.效果展示
  • 7.项目源码

1.项目介绍

1,项目简介:将中国古代唐诗数据从页面中获取,并对数据进行处理分析等,将数据以图表的方式呈现出来,使用户能更直观快速的去了解古代唐诗。

2,项目成果:让用户直观的看到唐朝的各个诗人的作诗量(柱状图);展示诗人们使用最频繁的词语(词云)。

2.项目整体设计

1,获取数据

  1. 访问列表页(唐诗三百首大全)来获取页面中唐诗数据;
  2. 编写程序模拟客户端向浏览器构建 Http 请求获取 Html 页面数据;
  3. 将获取到的列表页 html 数据,保存在 列表页.html 中。

2,分析数据和整理数据

  1. 观察 列表页.xml 中的表单,提取每首唐诗页面的子路径 ,保存至 LinkedList 中;
  2. 根据每首诗的 url ,获取每首的详情页(诗词页)页面数据,将页面中诗的作者、标题、朝代、诗词正文等提取出来;
  3. 计算 sha256(标题+正文),保证数据不重复;
  4. 调用分词的第三方库,对内容进行分词;
  5. 将数据保存至数据库中。

3,提取数据库中的信息选择合适的图形界面来展示。

  1. 唐朝的各个诗人的作诗量(柱状图);
  2. 诗人们使用最频繁的词语(词云)。

3.项目技术

1,多线程

2,JDBC(数据库操作)

  1. 唐诗数据保存至数据库 。
  2. 页面展示时提取数据库信息。

3,数据结构

  1. List
  2. Map

4,HtmlUnit(数据爬取)

  1. 网页请求。
  2. 网页解析。

5,ansj_seg(分词)

  1. 对诗词内容按照一定的规则进行分词。
  2. 为可视化见面的词云做准备工作。

6,maven(项目管理工具)

  1. 依赖管理。
  2. 在项目开发的过程中,使用很多第三方依赖包,它可以极大提高开发效率。

7,JQuery(前后端交互)

  1. 进行异步来提交更新数据。

8,redis(缓存提高访问效率)

  1. 在词云展示模块中,使用到 redis 进行处理。
  2. 当用户不查询或者不点击对应诗人的数据时,我们不存储。当用户第一次点击后,先去数据库中查询,之后存在redis中,当下一次访问时就可以高效的访问了。

9,echarts(前端渲染)

  1. 柱状图:诗人的作诗量
  2. 词云: 诗人们使用最频繁的词语

4.数据库表设计

CREATE TABLE IF NOT EXISTS tangshi (id INT(11) PRIMARY KEY AUTO_INCREMENT COMMENT "自增主键",sha256 CHAR(64) NOT NULL UNIQUE COMMENT "sha256标题",url VARCHAR(1024) NOT NULL COMMENT "诗词url",dynasty VARCHAR(32) NOT NULL COMMENT "诗词朝代",author VARCHAR(32) NOT NULL COMMENT "诗词作者",title VARCHAR(200) NOT NULL COMMENT "诗词标题",content TEXT NOT NULL COMMENT "诗词正文",words TEXT NOT NULL COMMENT "分词" ,created_ at TIMESTAMP NOT NULL DEFAULT CURRENT_TIMESTAMP COMMENT "记录入库时间"
)

为什么要引入SHA-256?

使用sha256标题,为每首诗生成一个唯一标识符,可以(标题 +作者+正文)保证不会重复插入。

链接:了解什么是 SHA-256

4.核心模块一:诗词爬取模块

诗词爬取模块:页面爬取,文档解析,分词。

链接:唐诗分析项目——诗词爬取模块

5.核心模块二:数据可视化模块

链接:唐诗分析项目——数据可视化模块

6.效果展示

在这里插入图片描述
在这里插入图片描述

7.项目源码

github链接:

这篇关于JavaWeb——唐诗分析项目的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/353666

相关文章

Java编译生成多个.class文件的原理和作用

《Java编译生成多个.class文件的原理和作用》作为一名经验丰富的开发者,在Java项目中执行编译后,可能会发现一个.java源文件有时会产生多个.class文件,从技术实现层面详细剖析这一现象... 目录一、内部类机制与.class文件生成成员内部类(常规内部类)局部内部类(方法内部类)匿名内部类二、

Go标准库常见错误分析和解决办法

《Go标准库常见错误分析和解决办法》Go语言的标准库为开发者提供了丰富且高效的工具,涵盖了从网络编程到文件操作等各个方面,然而,标准库虽好,使用不当却可能适得其反,正所谓工欲善其事,必先利其器,本文将... 目录1. 使用了错误的time.Duration2. time.After导致的内存泄漏3. jsO

SpringBoot实现数据库读写分离的3种方法小结

《SpringBoot实现数据库读写分离的3种方法小结》为了提高系统的读写性能和可用性,读写分离是一种经典的数据库架构模式,在SpringBoot应用中,有多种方式可以实现数据库读写分离,本文将介绍三... 目录一、数据库读写分离概述二、方案一:基于AbstractRoutingDataSource实现动态

Springboot @Autowired和@Resource的区别解析

《Springboot@Autowired和@Resource的区别解析》@Resource是JDK提供的注解,只是Spring在实现上提供了这个注解的功能支持,本文给大家介绍Springboot@... 目录【一】定义【1】@Autowired【2】@Resource【二】区别【1】包含的属性不同【2】@

springboot循环依赖问题案例代码及解决办法

《springboot循环依赖问题案例代码及解决办法》在SpringBoot中,如果两个或多个Bean之间存在循环依赖(即BeanA依赖BeanB,而BeanB又依赖BeanA),会导致Spring的... 目录1. 什么是循环依赖?2. 循环依赖的场景案例3. 解决循环依赖的常见方法方法 1:使用 @La

Java枚举类实现Key-Value映射的多种实现方式

《Java枚举类实现Key-Value映射的多种实现方式》在Java开发中,枚举(Enum)是一种特殊的类,本文将详细介绍Java枚举类实现key-value映射的多种方式,有需要的小伙伴可以根据需要... 目录前言一、基础实现方式1.1 为枚举添加属性和构造方法二、http://www.cppcns.co

Elasticsearch 在 Java 中的使用教程

《Elasticsearch在Java中的使用教程》Elasticsearch是一个分布式搜索和分析引擎,基于ApacheLucene构建,能够实现实时数据的存储、搜索、和分析,它广泛应用于全文... 目录1. Elasticsearch 简介2. 环境准备2.1 安装 Elasticsearch2.2 J

Java中的String.valueOf()和toString()方法区别小结

《Java中的String.valueOf()和toString()方法区别小结》字符串操作是开发者日常编程任务中不可或缺的一部分,转换为字符串是一种常见需求,其中最常见的就是String.value... 目录String.valueOf()方法方法定义方法实现使用示例使用场景toString()方法方法

Java中List的contains()方法的使用小结

《Java中List的contains()方法的使用小结》List的contains()方法用于检查列表中是否包含指定的元素,借助equals()方法进行判断,下面就来介绍Java中List的c... 目录详细展开1. 方法签名2. 工作原理3. 使用示例4. 注意事项总结结论:List 的 contain

Java实现文件图片的预览和下载功能

《Java实现文件图片的预览和下载功能》这篇文章主要为大家详细介绍了如何使用Java实现文件图片的预览和下载功能,文中的示例代码讲解详细,感兴趣的小伙伴可以跟随小编一起学习一下... Java实现文件(图片)的预览和下载 @ApiOperation("访问文件") @GetMapping("