4.8.2 利用Spark SQL计算总分与平均分

2024-06-16 11:12

文章标签 sql 计算 database spark 4.8 平均分总分

本文主要是介绍4.8.2 利用Spark SQL计算总分与平均分，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

姓名	语文	数学	英语	物理	化学
陈燕文	89	98	80	76	65
张晓峰	90	78	92	84	56
李太白	87	93	67	78	92
洪小琳	98	67	87	90	76

在这里插入图片描述

1. 准备数据

创建本地成绩文件：scores.txt，包含学生成绩数据。
上传到 HDFS：
- 创建目录：hdfs dfs -mkdir -p /scoresumavg/input
- 上传文件：hdfs dfs -put scores.txt /scoresumavg/input

2. 交互式实现

读取成绩文件：使用 Spark 读取 HDFS 上的文件。

val df = spark.read.text("hdfs://master:9000/scoresumavg/input/scores.txt")

转换数据帧：将单列文本数据帧转换为多列数据帧，包含学生姓名和各科成绩。
```
val scoreDF = df.withColumn(...).drop("value")
```
创建临时视图：将转换后的数据帧注册为临时视图，以便使用 SQL 查询。
```
scoreDF.createOrReplaceTempView("t_score")
```

执行 SQL 查询：计算每名学生的总分和平均分。

val result = spark.sql("select name, (chinese + math + english + physics + chemistry) as sum, round((chinese + math + english + physics + chemistry) / 5.0, 2) as avg from t_score")

展示结果：在控制台展示查询结果。
```
result.show
```

3. Spark 项目实现

创建 Maven 项目：选择 Scala 作为编程语言，配置项目名称和其他基本信息。
添加依赖：添加 Spark Core 和 Spark SQL 的 Maven 依赖。
设置源程序文件夹：将源代码目录设置为 Scala 目录。
添加 Scala SDK：确保项目配置了 Scala 开发环境。
创建日志属性文件：log4j.properties，配置日志记录器。
创建 HDFS 配置文件：hdfs-site.xml，配置 HDFS 客户端属性。

4. 开发 Scala 程序

创建包和对象：在 net.huawei.sql 包中创建 ScoreSumAvg 对象。
编写主方法：在 ScoreSumAvg 对象中编写 main 方法，实现数据读取、转换、查询和展示的逻辑。
运行程序：编译并运行 Scala 程序，查看控制台输出的成绩统计结果。

5. 验证结果

检查控制台输出：确保程序正确运行并输出预期的总分和平均分。
验证 HDFS 数据：可选地，检查 HDFS 上的数据文件是否正确上传和处理。

6. 项目优化与维护

代码优化：根据需要重构代码，提高程序的可读性和性能。
异常处理：添加异常处理逻辑，确保程序的健壮性。
扩展功能：根据需求，可能需要添加更多的数据处理功能。

这篇关于4.8.2 利用Spark SQL计算总分与平均分的文章就介绍到这儿，希望我们推荐的文章对编程师们有所帮助！

http://www.chinasem.cn/article/1066304。 23002807@qq.com

相关文章

Ubuntu中远程连接Mysql数据库的详细图文教程

Ubuntu中远程连接Mysql数据库的详细图文教程

《Ubuntu中远程连接Mysql数据库的详细图文教程》Ubuntu是一个以桌面应用为主的Linux发行版操作系统,这篇文章主要为大家详细介绍了Ubuntu中远程连接Mysql数据库的详细图文教程,有... 目录1、版本2、检查有没有mysql2.1 查询是否安装了Mysql包2.2 查看Mysql版本2.

阅读更多...

基于SpringBoot+Mybatis实现Mysql分表

基于SpringBoot+Mybatis实现Mysql分表

《基于SpringBoot+Mybatis实现Mysql分表》这篇文章主要为大家详细介绍了基于SpringBoot+Mybatis实现Mysql分表的相关知识,文中的示例代码讲解详细,感兴趣的小伙伴可... 目录基本思路定义注解创建ThreadLocal创建拦截器业务处理基本思路1.根据创建时间字段按年进

阅读更多...

Python3.6连接MySQL的详细步骤

Python3.6连接MySQL的详细步骤

《Python3.6连接MySQL的详细步骤》在现代Web开发和数据处理中,Python与数据库的交互是必不可少的一部分,MySQL作为最流行的开源关系型数据库管理系统之一,与Python的结合可以实... 目录环境准备安装python 3.6安装mysql安装pymysql库连接到MySQL建立连接执行S

阅读更多...

MySQL双主搭建+keepalived高可用的实现

MySQL双主搭建+keepalived高可用的实现

《MySQL双主搭建+keepalived高可用的实现》本文主要介绍了MySQL双主搭建+keepalived高可用的实现,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,... 目录一、测试环境准备二、主从搭建1.创建复制用户2.创建复制关系3.开启复制，确认复制是否成功4.同

阅读更多...

MyBatis 动态 SQL 优化之标签的实战与技巧(常见用法)

MyBatis 动态 SQL 优化之标签的实战与技巧(常见用法)

《MyBatis动态SQL优化之标签的实战与技巧(常见用法)》本文通过详细的示例和实际应用场景,介绍了如何有效利用这些标签来优化MyBatis配置,提升开发效率,确保SQL的高效执行和安全性,感... 目录动态SQL详解一、动态SQL的核心概念1.1 什么是动态SQL？1.2 动态SQL的优点1.3 动态S

阅读更多...

Mysql表的简单操作(基本技能)

Mysql表的简单操作(基本技能)

《Mysql表的简单操作(基本技能)》在数据库中,表的操作主要包括表的创建、查看、修改、删除等,了解如何操作这些表是数据库管理和开发的基本技能,本文给大家介绍Mysql表的简单操作,感兴趣的朋友一起看... 目录3.1 创建表 3.2 查看表结构3.3 修改表3.4 实践案例：修改表在数据库中，表的操作主要

阅读更多...

mysql出现ERROR 2003 (HY000): Can‘t connect to MySQL server on ‘localhost‘ (10061)的解决方法

mysql出现ERROR 2003 (HY000): Can‘t connect to MySQL server on ‘localhost‘ (10061)的解决方法

《mysql出现ERROR2003(HY000):Can‘tconnecttoMySQLserveron‘localhost‘(10061)的解决方法》本文主要介绍了mysql出现... 目录前言：第一步：第二步：第三步：总结：前言：当你想通过命令窗口想打开mysql时候发现提http://www.cpp

阅读更多...

MySQL大表数据的分区与分库分表的实现

MySQL大表数据的分区与分库分表的实现

《MySQL大表数据的分区与分库分表的实现》数据库的分区和分库分表是两种常用的技术方案,本文主要介绍了MySQL大表数据的分区与分库分表的实现,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有... 目录1. mysql大表数据的分区1.1 什么是分区？1.2 分区的类型1.3 分区的优点1.4 分

阅读更多...

MySQL错误代码2058和2059的解决办法

MySQL错误代码2058和2059的解决办法

《MySQL错误代码2058和2059的解决办法》：本文主要介绍MySQL错误代码2058和2059的解决办法,2058和2059的错误码核心都是你用的客户端工具和mysql版本的密码插件不匹配,... 目录1. 前置理解2.报错现象3.解决办法（敲重点！！！）1. php前置理解2058和2059的错误

阅读更多...

Mysql删除几亿条数据表中的部分数据的方法实现

Mysql删除几亿条数据表中的部分数据的方法实现

《Mysql删除几亿条数据表中的部分数据的方法实现》在MySQL中删除一个大表中的数据时,需要特别注意操作的性能和对系统的影响,本文主要介绍了Mysql删除几亿条数据表中的部分数据的方法实现,具有一定... 目录1、需求2、方案1. 使用 DELETE 语句分批删除2. 使用 INPLACE ALTER T

阅读更多...