4.8.2 利用Spark SQL计算总分与平均分

2024-06-16 11:12

本文主要是介绍4.8.2 利用Spark SQL计算总分与平均分,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

姓名语文数学英语物理化学
陈燕文8998807665
张晓峰9078928456
李太白8793677892
洪小琳9867879076

在这里插入图片描述

1. 准备数据

  • 创建本地成绩文件scores.txt,包含学生成绩数据。
  • 上传到 HDFS
    • 创建目录:hdfs dfs -mkdir -p /scoresumavg/input
    • 上传文件:hdfs dfs -put scores.txt /scoresumavg/input

2. 交互式实现

  • 读取成绩文件:使用 Spark 读取 HDFS 上的文件。
    val df = spark.read.text("hdfs://master:9000/scoresumavg/input/scores.txt")
    
  • 转换数据帧:将单列文本数据帧转换为多列数据帧,包含学生姓名和各科成绩。
    val scoreDF = df.withColumn(...).drop("value")
    
  • 创建临时视图:将转换后的数据帧注册为临时视图,以便使用 SQL 查询。
    scoreDF.createOrReplaceTempView("t_score")
    
  • 执行 SQL 查询:计算每名学生的总分和平均分。
    val result = spark.sql("select name, (chinese + math + english + physics + chemistry) as sum, round((chinese + math + english + physics + chemistry) / 5.0, 2) as avg from t_score")
    
  • 展示结果:在控制台展示查询结果。
    result.show
    

3. Spark 项目实现

  • 创建 Maven 项目:选择 Scala 作为编程语言,配置项目名称和其他基本信息。
  • 添加依赖:添加 Spark Core 和 Spark SQL 的 Maven 依赖。
  • 设置源程序文件夹:将源代码目录设置为 Scala 目录。
  • 添加 Scala SDK:确保项目配置了 Scala 开发环境。
  • 创建日志属性文件log4j.properties,配置日志记录器。
  • 创建 HDFS 配置文件hdfs-site.xml,配置 HDFS 客户端属性。

4. 开发 Scala 程序

  • 创建包和对象:在 net.huawei.sql 包中创建 ScoreSumAvg 对象。
  • 编写主方法:在 ScoreSumAvg 对象中编写 main 方法,实现数据读取、转换、查询和展示的逻辑。
  • 运行程序:编译并运行 Scala 程序,查看控制台输出的成绩统计结果。

5. 验证结果

  • 检查控制台输出:确保程序正确运行并输出预期的总分和平均分。
  • 验证 HDFS 数据:可选地,检查 HDFS 上的数据文件是否正确上传和处理。

6. 项目优化与维护

  • 代码优化:根据需要重构代码,提高程序的可读性和性能。
  • 异常处理:添加异常处理逻辑,确保程序的健壮性。
  • 扩展功能:根据需求,可能需要添加更多的数据处理功能。

这篇关于4.8.2 利用Spark SQL计算总分与平均分的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1066304

相关文章

SpringBoot操作spark处理hdfs文件的操作方法

《SpringBoot操作spark处理hdfs文件的操作方法》本文介绍了如何使用SpringBoot操作Spark处理HDFS文件,包括导入依赖、配置Spark信息、编写Controller和Ser... 目录SpringBoot操作spark处理hdfs文件1、导入依赖2、配置spark信息3、cont

Mysql 中的多表连接和连接类型详解

《Mysql中的多表连接和连接类型详解》这篇文章详细介绍了MySQL中的多表连接及其各种类型,包括内连接、左连接、右连接、全外连接、自连接和交叉连接,通过这些连接方式,可以将分散在不同表中的相关数据... 目录什么是多表连接?1. 内连接(INNER JOIN)2. 左连接(LEFT JOIN 或 LEFT

mysql重置root密码的完整步骤(适用于5.7和8.0)

《mysql重置root密码的完整步骤(适用于5.7和8.0)》:本文主要介绍mysql重置root密码的完整步骤,文中描述了如何停止MySQL服务、以管理员身份打开命令行、替换配置文件路径、修改... 目录第一步:先停止mysql服务,一定要停止!方式一:通过命令行关闭mysql服务方式二:通过服务项关闭

SQL Server数据库磁盘满了的解决办法

《SQLServer数据库磁盘满了的解决办法》系统再正常运行,我还在操作中,突然发现接口报错,后续所有接口都报错了,一查日志发现说是数据库磁盘满了,所以本文记录了SQLServer数据库磁盘满了的解... 目录问题解决方法删除数据库日志设置数据库日志大小问题今http://www.chinasem.cn天发

mysql主从及遇到的问题解决

《mysql主从及遇到的问题解决》本文详细介绍了如何使用Docker配置MySQL主从复制,首先创建了两个文件夹并分别配置了`my.cnf`文件,通过执行脚本启动容器并配置好主从关系,文中还提到了一些... 目录mysql主从及遇到问题解决遇到的问题说明总结mysql主从及遇到问题解决1.基于mysql

如何用Java结合经纬度位置计算目标点的日出日落时间详解

《如何用Java结合经纬度位置计算目标点的日出日落时间详解》这篇文章主详细讲解了如何基于目标点的经纬度计算日出日落时间,提供了在线API和Java库两种计算方法,并通过实际案例展示了其应用,需要的朋友... 目录前言一、应用示例1、天安门升旗时间2、湖南省日出日落信息二、Java日出日落计算1、在线API2

MySQL的索引失效的原因实例及解决方案

《MySQL的索引失效的原因实例及解决方案》这篇文章主要讨论了MySQL索引失效的常见原因及其解决方案,它涵盖了数据类型不匹配、隐式转换、函数或表达式、范围查询、LIKE查询、OR条件、全表扫描、索引... 目录1. 数据类型不匹配2. 隐式转换3. 函数或表达式4. 范围查询之后的列5. like 查询6

Linux下MySQL8.0.26安装教程

《Linux下MySQL8.0.26安装教程》文章详细介绍了如何在Linux系统上安装和配置MySQL,包括下载、解压、安装依赖、启动服务、获取默认密码、设置密码、支持远程登录以及创建表,感兴趣的朋友... 目录1.找到官网下载位置1.访问mysql存档2.下载社区版3.百度网盘中2.linux安装配置1.

PostgreSQL如何用psql运行SQL文件

《PostgreSQL如何用psql运行SQL文件》文章介绍了两种运行预写好的SQL文件的方式:首先连接数据库后执行,或者直接通过psql命令执行,需要注意的是,文件路径在Linux系统中应使用斜杠/... 目录PostgreSQ编程L用psql运行SQL文件方式一方式二总结PostgreSQL用psql运

SQL中的外键约束

外键约束用于表示两张表中的指标连接关系。外键约束的作用主要有以下三点: 1.确保子表中的某个字段(外键)只能引用父表中的有效记录2.主表中的列被删除时,子表中的关联列也会被删除3.主表中的列更新时,子表中的关联元素也会被更新 子表中的元素指向主表 以下是一个外键约束的实例展示