统计店铺按月份的销售额和累计到该月的总销售额

2023-12-26 03:04

本文主要是介绍统计店铺按月份的销售额和累计到该月的总销售额,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

统计店铺按月份的销售额和累计到该月的总销售额(SQL, DSL,RDD)
分组topN的实现(row_number(), rank(), dense_rank()方法

(1)需求1:统计有过连续3天以上销售的店铺有哪些,并且计算出连续三天以上的销售额

第一步:将每天的金额求和(同一天可能会有多个订单)

SELECTsid,dt,SUM(money) day_money
FROMv_orders
GROUP BY sid,dt

第二步:给每个商家中每日的订单按时间排序并打上编号

SELECT sid,dt,day_money,ROW_NUMBER() OVER(PARTITION BY sid ORDER BY dt) rn
FROM
(SELECTsid,dt,SUM(money) day_moneyFROMv_ordersGROUP BY sid,dt
) t1

第三步:获取date与rn的差值的字段

SELECTsid ,dt,day_money,date_sub(dt,rn) diff
FROM
(SELECT sid,dt,day_money,ROW_NUMBER() OVER(PARTITION BY sid ORDER BY dt) rnFROM(SELECTsid,dt,SUM(money) day_moneyFROMv_ordersGROUP BY sid,dt) t1
) t2
SELECTsid,MIN(dt),MAX(dt),SUM(day_money) cmoney,COUNT(*) cc
FROM
(SELECTsid ,dt,day_money,date_sub(dt,rn) diffFROM(SELECT sid,dt,day_money,ROW_NUMBER() OVER(PARTITION BY sid ORDER BY dt) rnFROM(SELECTsid,dt,SUM(money) day_moneyFROMv_ordersGROUP BY sid,dt) t1) t2
)
GROUP BY sid,diff
HAVING cc >=3

(2)需求2:统计店铺按月份的销售额和累计到该月的总销售额

SQL风格(只写sq语句,省略代码部分)

ELECT sid,month,month_sales,SUM(month_sales) OVER(PARTITION BY sid ORDER BY month) total_sales  // 默认是其实位置到当前位置的累加--PARTITION BY sid ORDER BY mth ASC ROWS BETWEEN UNBOUNDED PRECEDING AND CURRENT ROW  完整的写法
FROM
(SELECTsid,DATE_FORMAT(dt,'yyyy-MM') month,--substr(dt,1,7) month,  用此函数来取月份也行SUM(money) month_salesFROMv_ordersGROUP BY sid, month
)
  1. 分组topN的实现

row_number(), rank(), dense_rank()方法的区别

row_number() over() 打行号,行号从1开始
rank() over() 排序,有并列,如果有两个第1,就没有第2了,然后直接第3,跳号
dense_rank() over() 排序,有并列,不跳号

SQL 
注意点:此处的文件格式是text的,所以需要用SparkContext的textFile方法来读取数据,然后处理此数据,得到需要的字段(subject,teacher),再利用toDF(“subject”, “teacher”)方法获取对应的DataFrame,从而创建相应的视图

object FavoriteTeacherSQL {def main(args: Array[String]): Unit = {val spark: SparkSession = SparkSession.builder().appName(this.getClass.getSimpleName).master("local[*]").getOrCreate()import spark.implicits._val lines: RDD[String] = spark.sparkContext.textFile("E:\\javafile\\spark\\teacher100.txt")// 处理数据,获取DataFrame,用于创建视图val df: DataFrame = lines.map(line => {val fields = line.split("/")val subject = fields(2).split("\\.")(0)val teacher = fields(3)(subject, teacher)}).toDF("subject", "teacher")// 创建视图df.createTempView("v_teacher")var topN: Int = 2// SQL实现分组topNspark.sql(s"""|SELECT|  subject,teacher,counts|  rk|FROM|(|  SELECT|    subject,teacher,counts,|    RANK() OVER(PARTITION BY subject ORDER BY counts DESC) rk|  FROM|  (|    SELECT|      subject,teacher,|      count(*) counts|    FROM|      v_teacher|    GROUP BY subject, teacher|  ) t1|) t2 WHERE rk <= $topN|""".stripMargin).show()}
}

这篇关于统计店铺按月份的销售额和累计到该月的总销售额的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/537888

相关文章

hdu1496(用hash思想统计数目)

作为一个刚学hash的孩子,感觉这道题目很不错,灵活的运用的数组的下标。 解题步骤:如果用常规方法解,那么时间复杂度为O(n^4),肯定会超时,然后参考了网上的解题方法,将等式分成两个部分,a*x1^2+b*x2^2和c*x3^2+d*x4^2, 各自作为数组的下标,如果两部分相加为0,则满足等式; 代码如下: #include<iostream>#include<algorithm

flume系列之:查看flume系统日志、查看统计flume日志类型、查看flume日志

遍历指定目录下多个文件查找指定内容 服务器系统日志会记录flume相关日志 cat /var/log/messages |grep -i oom 查找系统日志中关于flume的指定日志 import osdef search_string_in_files(directory, search_string):count = 0

hdu4267区间统计

题意:给一些数,有两种操作,一种是在[a,b] 区间内,对(i - a)% k == 0 的加value,另一种操作是询问某个位置的值。 import java.io.BufferedInputStream;import java.io.BufferedReader;import java.io.IOException;import java.io.InputStream;import

hdu4417区间统计

给你一个数列{An},然后有m次查询,每次查询一段区间 [l,r] <= h 的值的个数。 import java.io.BufferedInputStream;import java.io.BufferedReader;import java.io.IOException;import java.io.InputStream;import java.io.InputStreamRead

hdu3333区间统计

题目大意:求一个区间内不重复数字的和,例如1 1 1 3,区间[1,4]的和为4。 import java.io.BufferedInputStream;import java.io.BufferedReader;import java.io.IOException;import java.io.InputStream;import java.io.InputStreamReader;

实例:如何统计当前主机的连接状态和连接数

统计当前主机的连接状态和连接数 在 Linux 中,可使用 ss 命令来查看主机的网络连接状态。以下是统计当前主机连接状态和连接主机数量的具体操作。 1. 统计当前主机的连接状态 使用 ss 命令结合 grep、cut、sort 和 uniq 命令来统计当前主机的 TCP 连接状态。 ss -nta | grep -v '^State' | cut -d " " -f 1 | sort |

Python脚本:TXT文档行数统计

count = 0 #计数变量file_dirs = input('请输入您要统计的文件根路径:')filename = open(file_dirs,'r') #以只读方式打开文件file_contents = filename.read() #读取文档内容到file_contentsfor file_content in file_contents:

【Python 千题 —— 算法篇】字符统计

Python 千题持续更新中 …… 脑图地址 👉:⭐https://twilight-fanyi.gitee.io/mind-map/Python千题.html⭐ 题目背景 在编程中,对字符串的字符统计是一个常见任务。这在文本处理、数据分析、词频统计、自然语言处理等领域有广泛应用。无论是统计字母出现的频率,还是分析不同字符类型的数量,字符串字符统计都是非常有用的技术。 字符统

YOLOv8/v10+DeepSORT多目标车辆跟踪(车辆检测/跟踪/车辆计数/测速/禁停区域/绘制进出线/绘制禁停区域/车道车辆统计)

01:YOLOv8 + DeepSort 车辆跟踪 该项目利用YOLOv8作为目标检测模型,DeepSort用于多目标跟踪。YOLOv8负责从视频帧中检测出车辆的位置,而DeepSort则负责关联这些检测结果,从而实现车辆的持续跟踪。这种组合使得系统能够在视频流中准确地识别并跟随特定车辆。 02:YOLOv8 + DeepSort 车辆跟踪 + 任意绘制进出线 在此基础上增加了用户

一个统计文件中关键词数量的小程序-优化版本

public class computeWxxFileNum{public static void main(String[] args) throws IOException {//读文件File sourceFile = new File("e:\\55-tmp\\xxx.log");FileReader in = new FileReader(sourceFile); LineNumber