Spark Sql 二次分组排序取TopK

2024-09-06 11:32

本文主要是介绍Spark Sql 二次分组排序取TopK,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

基本需求

用spark sql求出每个院系每个班每个专业前3

样本数据

数据格式:id,studentId,language,math,english,classId,departmentId,即id,学号,语文,数学,外语,班级,院系
1,111,68,69,90,1,经济系
2,112,73,80,96,1,经济系
3,113,90,74,75,1,经济系
4,114,89,94,93,1,经济系
5,115,99,93,89,1,经济系
6,121,96,74,79,2,经济系
7,122,89,86,85,2,经济系
8,123,70,78,61,2,经济系
9,124,76,70,76,2,经济系
10,211,89,93,60,1,外语系
11,212,76,83,75,1,外语系
12,213,71,94,90,1,外语系
13,214,94,94,66,1,外语系
14,215,84,82,73,1,外语系
15,216,85,74,93,1,外语系
16,221,77,99,61,2,外语系
17,222,80,78,96,2,外语系
18,223,79,74,96,2,外语系
19,224,75,80,78,2,外语系
20,225,82,85,63,2,外语系

用Spark sql实现

import org.apache.log4j.{Level, Logger}
import org.apache.spark.sql.SparkSessionobject TestSqlGroupByOrder {def main(args: Array[String]): Unit = {/**设置日志等级*/Logger.getLogger("org").setLevel(Level.WARN)/**从Spark 2.0开始,引入SparkSession。SparkSession=SQLContext+HiveContext*/val sparkSession=SparkSession.builder().appName("SparkSqlGroup").master("local[6]").getOrCreate()/**DataFrame*/import sparkSession.implicits._val scoreInfo = sparkSession.read.textFile("/Users/wangpei/Desktop/scores2.txt").map(_.split(",")).map(item=>(item(1),item(2).toInt,item(3).toInt,item(4).toInt,item(5),item(6))).toDF("studentId","language","math","english","classId","departmentId")/**注册DataFrame成一个零时视图*/scoreInfo.createOrReplaceTempView("scoresTable")/*** 使用开窗函数* row_number() OVER (PARTITION BY COL1 ORDER BY COL2) rank* 根据COL1分组,在分组内部根据COL2排序,rank:每组内部排序后的编号字段* 这里用了两段SQl:*  1)(SELECT *, row_number() OVER (PARTITION BY departmentId,classId ORDER BY math DESC) rank FROM scoresTable ) tmp*  用开窗函数:按departmentId,classId分组;分组内部按math降序;每组序号rank从1开始;表别名tmp*  2)SELECT * FROM  tmp WHERE rank <= 3*  保留rank <= 3的数据*///语文前3println("############# 语文前3 ##############")sparkSession.sql("SELECT departmentId,classId,language,studentId FROM (SELECT *, row_number() OVER (PARTITION BY departmentId,classId ORDER BY language DESC) rank FROM scoresTable ) tmp WHERE rank <= 3").show()//数学前3println("############# 数学前3 ##############")sparkSession.sql("SELECT departmentId,classId,math,studentId FROM (SELECT *, row_number() OVER (PARTITION BY departmentId,classId ORDER BY math DESC) rank FROM scoresTable ) tmp WHERE rank <= 3").show()//外语前3println("############# 外语前3 ##############")sparkSession.sql("SELECT departmentId,classId,english,studentId FROM (SELECT *, row_number() OVER (PARTITION BY departmentId,classId ORDER BY english DESC) rank FROM scoresTable ) tmp WHERE rank <= 3").show()}
}

在这里插入图片描述

这篇关于Spark Sql 二次分组排序取TopK的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1141881

相关文章

Springboot中分析SQL性能的两种方式详解

《Springboot中分析SQL性能的两种方式详解》文章介绍了SQL性能分析的两种方式:MyBatis-Plus性能分析插件和p6spy框架,MyBatis-Plus插件配置简单,适用于开发和测试环... 目录SQL性能分析的两种方式:功能介绍实现方式:实现步骤:SQL性能分析的两种方式:功能介绍记录

使用 sql-research-assistant进行 SQL 数据库研究的实战指南(代码实现演示)

《使用sql-research-assistant进行SQL数据库研究的实战指南(代码实现演示)》本文介绍了sql-research-assistant工具,该工具基于LangChain框架,集... 目录技术背景介绍核心原理解析代码实现演示安装和配置项目集成LangSmith 配置(可选)启动服务应用场景

oracle DBMS_SQL.PARSE的使用方法和示例

《oracleDBMS_SQL.PARSE的使用方法和示例》DBMS_SQL是Oracle数据库中的一个强大包,用于动态构建和执行SQL语句,DBMS_SQL.PARSE过程解析SQL语句或PL/S... 目录语法示例注意事项DBMS_SQL 是 oracle 数据库中的一个强大包,它允许动态地构建和执行

SQL 中多表查询的常见连接方式详解

《SQL中多表查询的常见连接方式详解》本文介绍SQL中多表查询的常见连接方式,包括内连接(INNERJOIN)、左连接(LEFTJOIN)、右连接(RIGHTJOIN)、全外连接(FULLOUTER... 目录一、连接类型图表(ASCII 形式)二、前置代码(创建示例表)三、连接方式代码示例1. 内连接(I

在MySQL执行UPDATE语句时遇到的错误1175的解决方案

《在MySQL执行UPDATE语句时遇到的错误1175的解决方案》MySQL安全更新模式(SafeUpdateMode)限制了UPDATE和DELETE操作,要求使用WHERE子句时必须基于主键或索引... mysql 中遇到的 Error Code: 1175 是由于启用了 安全更新模式(Safe Upd

Spring排序机制之接口与注解的使用方法

《Spring排序机制之接口与注解的使用方法》本文介绍了Spring中多种排序机制,包括Ordered接口、PriorityOrdered接口、@Order注解和@Priority注解,提供了详细示例... 目录一、Spring 排序的需求场景二、Spring 中的排序机制1、Ordered 接口2、Pri

轻松上手MYSQL之JSON函数实现高效数据查询与操作

《轻松上手MYSQL之JSON函数实现高效数据查询与操作》:本文主要介绍轻松上手MYSQL之JSON函数实现高效数据查询与操作的相关资料,MySQL提供了多个JSON函数,用于处理和查询JSON数... 目录一、jsON_EXTRACT 提取指定数据二、JSON_UNQUOTE 取消双引号三、JSON_KE

MySql死锁怎么排查的方法实现

《MySql死锁怎么排查的方法实现》本文主要介绍了MySql死锁怎么排查的方法实现,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧... 目录前言一、死锁排查方法1. 查看死锁日志方法 1:启用死锁日志输出方法 2:检查 mysql 错误

MySQL数据库函数之JSON_EXTRACT示例代码

《MySQL数据库函数之JSON_EXTRACT示例代码》:本文主要介绍MySQL数据库函数之JSON_EXTRACT的相关资料,JSON_EXTRACT()函数用于从JSON文档中提取值,支持对... 目录前言基本语法路径表达式示例示例 1: 提取简单值示例 2: 提取嵌套值示例 3: 提取数组中的值注意

MySQL修改密码的四种实现方式

《MySQL修改密码的四种实现方式》文章主要介绍了如何使用命令行工具修改MySQL密码,包括使用`setpassword`命令和`mysqladmin`命令,此外,还详细描述了忘记密码时的处理方法,包... 目录mysql修改密码四种方式一、set password命令二、使用mysqladmin三、修改u