Spark--经典SQL50题

2023-10-22 07:15
文章标签 经典 spark sql50

本文主要是介绍Spark--经典SQL50题,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

目录

连接数据库准备工作

1、查询"01"课程比"02"课程成绩高的学生的信息及课程分数

2、查询"01"课程比"02"课程成绩低的学生的信息及课程分数

3、查询平均成绩大于等于60分的同学的学生编号和学生姓名和平均成绩

4、查询平均成绩小于60分的同学的学生编号和学生姓名和平均成绩

5、查询所有同学的学生编号、学生姓名、选课总数、所有课程的总成绩

6、查询"李"姓老师的数量

7、查询学过"李四"老师授课的同学的信息

8、查询没有学过"李四"老师授课的同学的信息

9、查询学过编号为"01"并且也学过编号为"02"的课程的同学的信息

10、查询学过编号为"01"并且没有学过编号为"02"的课程的同学的信息

11、查询没有学全所有课程的同学的信息

12、查询至少有一门课与学号为"01"的同学所学相同的同学的信息

13、查询和"01"号的同学学习的课程完全相同的其他同学的信息

14、查询没学过"张三"老师讲授的任一门课程的学生姓名

15、查询两门及其以上不及格课程的同学的学号,姓名及其平均成绩

16、检索"01"课程分数小于60,按分数降序排列的学生信息

17、按平均成绩从高到低显示所有学生的所有课程的成绩以及平均成绩

18、查询各科成绩最高分、最低分和平均分:

以如下形式显示:课程ID,课程name,最高分,最低分,平均分,及格率,中等率,优良率

及格为>=60,中等为:70-80,优良为:80-90,优秀为:>=90

19、按各科成绩进行排序,并显示排名

20、查询学生的总成绩并进行排名

21、查询不同老师所教不同课程平均分从高到低显示

22、查询所有课程的成绩第2名到第3名的学生信息及该课程成绩

23、统计各科成绩各分数段人数:课程编号,课程名称, 100-85 , 85-70 , 70-60 , 0-60 及所占百分比

24、查询学生平均成绩及其名次

25、查询各科成绩前三名的记录

26、查询每门课程被选修的学生数

27、查询出只有两门课程的全部学生的学号和姓名

28、查询男生、女生人数

29、查询名字中含有"风"字的学生信息

30、查询同名同性学生名单,并统计同名人数

31、查询1990年出生的学生名单(注:Student表中Sage列的类型是datetime)

32、查询每门课程的平均成绩,结果按平均成绩降序排列,平均成绩相同时,按课程编号升序排列

33、查询平均成绩大于等于85的所有学生的学号、姓名和平均成绩

34、查询课程名称为"数学",且分数低于60的学生姓名和分数

35、查询所有学生的课程及分数情况

36、查询任何一门课程成绩在70分以上的姓名、课程名称和分数

37、查询课程不及格的学生

38、查询课程编号为01且课程成绩在80分及以上的学生的学号和姓名

39、求每门课程的学生人数

40、查询选修"张三"老师所授课程的学生中,成绩最高的学生信息及其成绩

41、查询不同课程成绩相同的学生的学生编号、课程编号、学生成绩

42、查询每门功课成绩最好的前两名

43、统计每门课程的学生选修人数(超过5人的课程才统计)。要求输出课程号和选修人数, 查询结果按人数降序排列,若人数相同,按课程号升序排列

44、检索至少选修两门课程的学生学号

45、查询选修了全部课程的学生信息

46、查询各学生的年龄

47、查询本周过生日的学生

48、查询下周过生日的学生

49、查询本月过生日的学生

50、查询下月过生日的学生


连接数据库准备工作

创建DataFrame

    val spark: SparkSession = SparkSession.builder().appName("Spark_SQL50").master("local[*]").getOrCreate()import spark.implicits._import org.apache.spark.sql.functions._val url = "jdbc:mysql://192.168.142.129:3306/sql50"val user = "root"val pwd = "123456"val driver = "com.mysql.cj.jdbc.Driver"val properties = new Properties()properties.setProperty("user", user)properties.setProperty("password", pwd)properties.setProperty("driver", driver)val score = spark.read.jdbc(url, "score", properties)val course = spark.read.jdbc(url, "course", properties)val student = spark.read.jdbc(url, "student", properties)val teacher = spark.read.jdbc(url, "teacher", properties)val student_copy1 = spark.read.jdbc(url, "student_copy1", properties)

1、查询"01"课程比"02"课程成绩高的学生的信息及课程分数

score.as("s1").join(score.as("s2"), "s_id").where("s1.s_score>s2.s_score and s1.c_id = 01 and s2.c_id = 02").join(student, "s_id").select("s_name", "s1.c_id", "s1.s_score", "s2.c_id", "s2.s_score").show()

2、查询"01"课程比"02"课程成绩低的学生的信息及课程分数

score.as("s1").join(score.as("s2"), "s_id").where("s1.s_score < s2.s_score and s1.c_id = 01 and s2.c_id = 02").join(student, "s_id").select("s_name", "s1.c_id", "s1.s_score", "s2.c_id", "s2.s_score").show()

3、查询平均成绩大于等于60分的同学的学生编号和学生姓名和平均成绩

score.groupBy("s_id").avg("s_score").where($"avg(s_score)">=60).join(student, "s_id").select("s_id", "s_name", "avg(s_score)").show

4、查询平均成绩小于60分的同学的学生编号和学生姓名和平均成绩

student.join(score.groupBy("s_id").avg("s_score"), Seq("s_id"), "left").where($"avg(s_score)" < 60 || $"avg(s_score)".isNull).select("s_id", "s_name", "avg(s_score)").show

5、查询所有同学的学生编号、学生姓名、选课总数、所有课程的总成绩

student.join(score.groupBy("s_id").count(),Seq("s_id"), "left").join(score.groupBy("s_id").sum("s_score"), Seq("s_id"), "left").select("s_id", "s_name", "count", "sum(s_score)").show()

 

6、查询"李"姓老师的数量

println(teacher.where($"t_name".like("李%")).count())

7、查询学过"李四"老师授课的同学的信息

student.join(score,"s_id").join(course, "c_id").join(teacher, "t_id").where($"t_name" === "李四").select("s_name", "c_name","t_name").show

8、查询没有学过"李四"老师授课的同学的信息

student.join(student.join(score,Seq("s_id"), "left").join(course,Seq("c_id"), "left").join(teacher,Seq("t_id"), "left").where($"t_name" === "李四").select("s_id","s_score"),Seq("s_id"), "left").where($"s_score".isNull).select("s_id", "s_name").show()

9、查询学过编号为"01"并且也学过编号为"02"的课程的同学的信息

student.join(score,Seq("s_id")).where("c_id == 01").join(student.join(score,Seq("s_id")).where("c_id == 02"),"s_id").show()

10、查询学过编号为"01"并且没有学过编号为"02"的课程的同学的信息

student.as("s1").join(score, "s_id").where("c_id == 01").join(student.as("s2").join(score, "s_id").where("c_id == 02"), Seq("s_id"), "left").where($"s2.s_name".isNull).show()

11、查询没有学全所有课程的同学的信息

student.join(
student.join(score,"s_id").join(course,"c_id").groupBy("s_id").count(), Seq("s_id"), "left"
).where($"count" < course.count() || $"count".isNull).show()

12、查询至少有一门课与学号为"01"的同学所学相同的同学的信息

student.as("stu").join(score.as("sc").join(score.where($"s_id"==="01"),Seq("c_id"), "left"),Seq("s_id")).where($"stu.s_id".notEqual("01")).select("stu.s_id","s_name").distinct().show

13、查询和"01"号的同学学习的课程完全相同的其他同学的信息

student.join(score, "s_id").groupBy($"s_id").count().where($"count".equalTo(3)).where($"s_id".notEqual("01")).join(student, Seq("s_id"), "left").show()

14、查询没学过"张三"老师讲授的任一门课程的学生姓名

student.join(score, "s_id").join(course,"c_id").join(teacher,"t_id").where($"t_name"==="张三").as("stu1").join(student.as("stu2"),Seq("s_id"),"right").where($"t_name".isNull).select("stu2.s_id","stu2.s_name").show

15、查询两门及其以上不及格课程的同学的学号,姓名及其平均成绩

score.where($"s_score" < 60).groupBy("s_id").count().where($"count" >= 2).join(score,"s_id").groupBy("s_id").agg(round(avg("s_score"),2)).join(student,"s_id").show

16、检索"01"课程分数小于60,按分数降序排列的学生信息

score.where($"c_id"==="01" && $"s_score" < 60).join(student,"s_id").sort(desc("s_score")).show

17、按平均成绩从高到低显示所有学生的所有课程的成绩以及平均成绩

score.groupBy("s_id").agg(round(avg("s_score"),2).as("avgScore")).join(score,"s_id").join(student,"s_id").orderBy($"avgScore".desc).show

18、查询各科成绩最高分、最低分和平均分:

以如下形式显示:课程ID,课程name,最高分,最低分,平均分,及格率,中等率,优良率

及格为>=60,中等为:70-80,优良为:80-90,优秀为:>=90

//1 先求出 及格,中等,优良,优秀 各阶段人数
val numDF = score.groupBy("c_id").count()
val passDF = score.where($"s_score" >= 60).groupBy("c_id").count()
val midDF = score.where($"s_score" >= 70 && $"s_score" < 80).groupBy("c_id").count()
val goodDF = score.where($"s_score" >= 80 && $"s_score" < 90).groupBy("c_id").count()
val bestDF = score.where($"s_score" >= 90).groupBy("c_id").count()//2 求出及格率,中等率,优良率,优秀率
val passPerDF = numDF.as("n").join(passDF.as("m"), "c_id").withColumn("passPer", round($"m.count" / $"n.count", 2)).drop("count")
val midPerDF = numDF.as("n").join(midDF.as("m"), "c_id").withColumn("midPer",  round($"m.count" / $"n.count", 2)).drop("count")
val goodPerDF = numDF.as("n").join(goodDF.as("m"), "c_id").withColumn("goodPer", round($"m.count" / $"n.count", 2)).drop("count")
val bestPerDF = numDF.as("n").join(bestDF.as("m"), "c_id").withColumn("bestPer", round($"m.count" / $"n.count", 2)).drop("count")//3 求出课程最高分,最低分,平均分  join各比率
course.join(score.groupBy("c_id").agg(max("s_score").as("maxScore"),min("s_score").as("minScore"),round(avg("s_score"),2).as("avgScore")),"c_id").join(passPerDF,Seq("c_id"),"left").join(midPerDF,Seq("c_id"),"left").join(goodPerDF,Seq("c_id"),"left").join(bestPerDF,Seq("c_id"),"left").drop("t_id").show

19、按各科成绩进行排序,并显示排名

score.withColumn("rank",dense_rank().over(Window.partitionBy("c_id").orderBy($"s_score".desc))).show()

20、查询学生的总成绩并进行排名

score.groupBy("s_id").sum("s_score").withColumn("rank",dense_rank().over(Window.orderBy($"sum(s_score)".desc))).show()

21、查询不同老师所教不同课程平均分从高到低显示

score.groupBy("c_id").agg(round(avg("s_score"), 2).as("avgScore")).withColumn("rank", dense_rank().over(Window.orderBy($"avgScore".desc))).show()

22、查询所有课程的成绩第2名到第3名的学生信息及该课程成绩

score.withColumn("rank", dense_rank().over(Window.partitionBy("c_id").orderBy($"s_score".desc))).where($"rank".isin(2,3)).join(student,"s_id").show()

23、统计各科成绩各分数段人数:课程编号,课程名称, 100-85 , 85-70 , 70-60 , 0-60 及所占百分比

//方法一
//1 先求出 总人数 及 100-85 , 85-70 , 70-60 , 0-60 各阶段人数
val numDF = score.groupBy("c_id").count()
val passDF = score.where($"s_score" >= 0 && $"s_score" < 60).groupBy("c_id").count()
val midDF = score.where($"s_score" >= 60 && $"s_score" < 70).groupBy("c_id").count()
val goodDF = score.where($"s_score" >= 70 && $"s_score" < 85).groupBy("c_id").count()
val bestDF = score.where($"s_score" >= 85 && $"s_score" <= 100).groupBy("c_id").count()//2 求出 100-85 , 85-70 , 70-60 , 0-60所占百分比
val passPerDF = numDF.as("n").join(passDF.as("m"), "c_id").withColumn("lt60", round($"m.count" / $"n.count", 2)).drop("count")
val midPerDF = numDF.as("n").join(midDF.as("m"), "c_id").withColumn("70-60",  round($"m.count" / $"n.count", 2)).drop("count")
val goodPerDF = numDF.as("n").join(goodDF.as("m"), "c_id").withColumn("85-70", round($"m.count" / $"n.count", 2)).drop("count")
val bestPerDF = numDF.as("n").join(bestDF.as("m"), "c_id").withColumn("100-85", round($"m.count" / $"n.count", 2)).drop("count")//3 course表 join各比率
course.join(passPerDF,Seq("c_id"),"left").join(midPerDF,Seq("c_id"),"left").join(goodPerDF,Seq("c_id"),"left").join(bestPerDF,Seq("c_id"),"left").drop("t_id").show//方法2  count(when(condition), value),
// 由于between操作符是包含左右边界的,临界点分数存在重复计算,此方法仅供参考
score.groupBy("c_id").agg(count("s_score").as("count"),count(when($"s_score".between(85, 100), 1)).as("lt60Row"),count(when($"s_score".between(70, 85), 1)).as("60-70Row"),count(when($"s_score".between(60, 70), 1)).as("70-85Row"),count(when($"s_score".between(0, 60), 1)).as("85-100Row")
).withColumn("lt60", round($"lt60Row" / $"count", 2)).withColumn("60-70", round($"60-70Row" / $"count", 2)).withColumn("70-85", round($"70-85Row" / $"count", 2)).withColumn("85-100", round($"85-100Row" / $"count", 2)).join(course, "c_id").select("c_id", "c_name", "lt60", "60-70", "70-85", "85-100").show()

24、查询学生平均成绩及其名次

score.groupBy("s_id").agg(round(avg("s_score"), 2).as("avgScore")).withColumn("rank",dense_rank().over(Window.orderBy($"avgScore".desc))).show()

25、查询各科成绩前三名的记录

score.withColumn("rank",dense_rank().over(Window.partitionBy("c_id").orderBy($"s_score".desc))).where($"rank".between(1,3)).show()

26、查询每门课程被选修的学生数

score.groupBy("c_id").count().show()

27、查询出只有两门课程的全部学生的学号和姓名

score.groupBy("s_id").agg(count($"c_id").as("count")).where($"count" === 2).join(student, "s_id").select("s_id", "s_name", "count").show()

28、查询男生、女生人数

student.groupBy("s_sex").count().show()

29、查询名字中含有"风"字的学生信息

student.where($"s_name".contains("风")).show()

30、查询同名同性学生名单,并统计同名人数

student_copy1.groupBy("s_name","s_sex").count().where($"count" > 1).show

31、查询1990年出生的学生名单(注:Student表中Sage列的类型是datetime)

student.where(year($"s_birth")==="1990").show

   

32、查询每门课程的平均成绩,结果按平均成绩降序排列,平均成绩相同时,按课程编号升序排列

score.groupBy("c_id").avg("s_score").orderBy($"avg(s_score)".desc, $"c_id").show()

33、查询平均成绩大于等于85的所有学生的学号、姓名和平均成绩

score.groupBy("s_id").avg("s_score").where($"avg(s_score)" >= 85).join(student,"s_id").select("s_id", "s_name", "avg(s_score)").show()

34、查询课程名称为"数学",且分数低于60的学生姓名和分数

score.join(course, "c_id").where($"c_name" === "数学" && $"s_score" < 60).join(student, "s_id").select("s_name", "s_score").show

35、查询所有学生的课程及分数情况

student.join(score, Seq("s_id"), "left").show()

36、查询任何一门课程成绩在70分以上的姓名、课程名称和分数

score.where($"s_score" > 70).join(student, "s_id").join(course, "c_id").select("s_name", "c_name", "s_score").show()

37、查询课程不及格的学生

score.where($"s_score" < 60).show()

38、查询课程编号为01且课程成绩在80分及以上的学生的学号和姓名

score.where($"c_id" === "01" && $"s_score" >= 80).join(student, "s_id").select("s_id", "s_name", "c_id","s_score").show()

39、求每门课程的学生人数

score.groupBy("c_id").count().show()

40、查询选修"张三"老师所授课程的学生中,成绩最高的学生信息及其成绩

score.join(course, "c_id").join(teacher, "t_id").where($"t_name" === "张三").orderBy($"s_score".desc).limit(1).join(student, "s_id").show()

41、查询不同课程成绩相同的学生的学生编号、课程编号、学生成绩

score.groupBy("s_score").count().where($"count" > 1).join(score, "s_score").show()

42、查询每门功课成绩最好的前两名

score.withColumn("rank",rank().over(Window.partitionBy("c_id").orderBy($"s_score".desc))).where($"rank".isin(1, 2)).show()

43、统计每门课程的学生选修人数(超过5人的课程才统计)。要求输出课程号和选修人数, 查询结果按人数降序排列,若人数相同,按课程号升序排列

score.groupBy("c_id").count().where($"count" > 5).orderBy($"count".desc, $"c_id").show

44、检索至少选修两门课程的学生学号

score.groupBy("s_id").count().where($"count" >= 2).show()

45、查询选修了全部课程的学生信息

score.groupBy("s_id").count().where($"count" === course.count()).join(student, "s_id").show()

46、查询各学生的年龄

student.withColumn("age", year(current_date()) - year($"s_birth")).show()

47、查询本周过生日的学生

student.withColumn("birthOfWeek", weekofyear($"s_birth")).where($"birthOfWeek" === weekofyear(current_date())).show

48、查询下周过生日的学生

student.withColumn("birthOfWeek", weekofyear($"s_birth")).where($"birthOfWeek" === weekofyear(current_date()) + 1).show

49、查询本月过生日的学生

student.withColumn("birthOfMonth", month($"s_birth")).where($"birthOfMonth" === month(current_date())).show

50、查询下月过生日的学生

student.withColumn("birthOfMonth", month($"s_birth")).where($"birthOfMonth" === month(current_date() + 1)).show

这篇关于Spark--经典SQL50题的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/259924

相关文章

SpringBoot操作spark处理hdfs文件的操作方法

《SpringBoot操作spark处理hdfs文件的操作方法》本文介绍了如何使用SpringBoot操作Spark处理HDFS文件,包括导入依赖、配置Spark信息、编写Controller和Ser... 目录SpringBoot操作spark处理hdfs文件1、导入依赖2、配置spark信息3、cont

Spark MLlib模型训练—聚类算法 PIC(Power Iteration Clustering)

Spark MLlib模型训练—聚类算法 PIC(Power Iteration Clustering) Power Iteration Clustering (PIC) 是一种基于图的聚类算法,用于在大规模数据集上进行高效的社区检测。PIC 算法的核心思想是通过迭代图的幂运算来发现数据中的潜在簇。该算法适用于处理大规模图数据,特别是在社交网络分析、推荐系统和生物信息学等领域具有广泛应用。Spa

HotSpot虚拟机的经典垃圾收集器

读《深入理解Java虚拟机》第三版笔记。 关系 Serial、ParNew、Parallel Scavenge、Parallel Old、Serial Old(MSC)、Concurrent Mark Sweep (CMS)、Garbage First(G1)收集器。 如图: 1、Serial 和 Serial Old 收集器 2、ParNew 收集器 3、Parallel Sc

STL经典案例(四)——实验室预约综合管理系统(项目涉及知识点很全面,内容有点多,耐心看完会有收获的!)

项目干货满满,内容有点过多,看起来可能会有点卡。系统提示读完超过俩小时,建议分多篇发布,我觉得分篇就不完整了,失去了这个项目的灵魂 一、需求分析 高校实验室预约管理系统包括三种不同身份:管理员、实验室教师、学生 管理员:给学生和实验室教师创建账号并分发 实验室教师:审核学生的预约申请 学生:申请使用实验室 高校实验室包括:超景深实验室(可容纳10人)、大数据实验室(可容纳20人)、物联网实验

嵌入式面试经典30问:二

1. 嵌入式系统中,如何选择合适的微控制器或微处理器? 在嵌入式系统中选择合适的微控制器(MCU)或微处理器(MPU)时,需要考虑多个因素以确保所选组件能够满足项目的具体需求。以下是一些关键步骤和考虑因素: 1.1 确定项目需求 性能要求:根据项目的复杂度、处理速度和数据吞吐量等要求,确定所需的处理器性能。功耗:评估系统的功耗需求,选择低功耗的MCU或MPU以延长电池寿命或减少能源消耗。成本

Leetcode面试经典150题-128.最长连续序列-递归版本另解

之前写过一篇这个题的,但是可能代码比较复杂,这回来个简洁版的,这个是递归版本 可以看看之前的版本,两个版本面试用哪个都保过 解法都在代码里,不懂就留言或者私信 class Solution {/**对于之前的解法,我现在提供一共更优的解,但是这种可能会比较难懂一些(思想方面)代码其实是很简洁的,总体思想如下:不需要排序直接把所有数放入map,map的key是当前数字,value是当前数开始的

力扣 739. 每日温度【经典单调栈题目】

1. 题目 理解题意: 1.1. 给一个温度集合, 要返回一个对应长度的结果集合, 这个结果集合里面的元素 i 是 当前 i 位置的元素的下一个更高温度的元素的位置和当前 i 位置的距离之差, 若是当前元素不存在下一个更高温度的元素, 则这个位置用0代替; 2. 思路 本题用单调栈来求解;单调栈就适用于来求当前元素左边或者右边第一个比当前元素大或者小的元素;【单调栈:让栈中的元素保持单调

接口自动化三大经典难题

目录 一、接口项目不生成token怎么解决关联问题 1. Session机制 2. 基于IP或设备ID的绑定 3. 使用OAuth或第三方认证 4. 利用隐式传递的参数 5. 基于时间戳的签名验证 二、接口测试中网络问题导致无法通过怎么办 1. 重试机制 2. 设置超时时间 3. 使用模拟数据 4. 网络问题的预检测 5. 日志记录与错误分析 6. 切换网络环境 7.

嵌入式面试经典30问:一

什么是嵌入式系统? 嵌入式系统是指嵌入到某个对象体系中的专用计算机系统,它负责执行特定的任务,具有专用性、隐蔽性、资源受限和可靠性要求高等特点。通常包括硬件和软件两部分,硬件以微处理器为核心,软件则负责控制和管理硬件资源,实现特定的应用功能。 嵌入式系统和普通计算机系统有什么区别? 嵌入式系统与普通计算机系统的主要区别在于目的、资源、性能和成本等方面。嵌入式系统通常针对特定应用设计,具有体积小

Leetcode面试经典150题-2.两数相加

解法都在代码里,不懂就留言或者私信 理论上提交这个就是最优解 字节考过不下20次,这个高居字节面试榜第9名 /*** Definition for singly-linked list.* public class ListNode {* int val;* ListNode next;* ListNode() {}* ListNode(int val) {