DataWorks+MaxCompute跨年取日期所在周的问题

2024-05-31 23:04

本文主要是介绍DataWorks+MaxCompute跨年取日期所在周的问题,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

一、背景

一些数据分析业务需求中,如订单金额、订单数量,时间粒度需要统计到周,如周同比,周环比。
一般我们都会事先创建一个类似如下的时间维度表。

实验SQL环境:DataWorks + MaxCompute

dim_date表清单:

n_dayn_yearn_quartern_monthday_of_monthday_of_weekweek_of_year
2019-12-28201941228652
2019-12-29201941229752
2019-12-3020194123011
2019-12-3120194123121
2020-01-01202011131
2020-01-02202011241
2020-01-03202011351
2020-01-04202011461
2020-01-05202011571
2020-01-06202011612
2020-01-07202011722
2020-01-08202011832
2020-01-09202011942
2020-01-102020111052

在统计中,我们一般会按照 “年-周” 方式来组织成周格式,再与业务事实表join起来进行度量值的聚合计算。
在这个场景下,如果我们还想统计每周的第一天,一段sql如下:

SELECTCONCAT(n_year, '-', IF(LENGTH(week_of_year) < 2, CONCAT('0', week_of_year), week_of_year)) year_week,n_day AS first_day_of_week,day_of_week
from dim_date
WHERE day_of_week = 1
ORDER BY year_week;

以2019年年尾、2020年初数据为例

year_weekn_dayday_of_week
2019-512019-12-161
2019-522019-12-231
2020-022020-01-061
2020-032020-01-131
2020-042020-01-201
2020-052020-01-271
2020-062020-02-031
2020-072020-02-101
2020-082020-02-171
2020-092020-02-241
2020-102020-03-021

你会发现根据这种方式计算,为什么 “2020-01” 的数据消失了?
其实不仅是年初的第1周,而且年尾的第53周也可能会消失。

经过排查,不难发现,这段SQL在统计 2020年第一周的时候,根据sql语句:
CONCAT(n_year, '-', IF(LENGTH(week_of_year) < 2, CONCAT('0', week_of_year), week_of_year))
原本是想构建成“2020-01”这样的year + week 组合,但因为在WHERE子句中限定了“day_of_week = 1”,则在跨年的数据场景中,很可能像笔者构建的样例数据一样,取到了上一年(即2019年)的那条数据,这样组合成了“2019-01”这样的year + week 组合。
这种统计逻辑后患无穷,不仅取不到合理的year + week 组合,且在后续与事实表join后进行统计时,会将原本属于“2020-01”周的数据,错误的统计到“2019-01”中去。

在这里插入图片描述

二、函数 week_of_year

也许大家会有疑问,为什么有时候看到一些年份的元旦前几天,会被算到上一年的最后一周里。

这里有个注意事项

这一周算上一年还是下一年,取决于这一周的大多数日期(4天以上)在哪一年。算在前一年,就是前一年的最后一周;算在后一年就是后一年的第一周。

week_of_year 函数说明
作用:
返回日期date位于那一年的第几周。周一作为一周的第一天。

命令格式:
bigint weekofyear (datetime )

参数说明:
date:必填。DATETIME类型日期值。格式为yyyy-mm-dd hh:mi:ss。如果输入为STRING类型,且MaxCompute项目的数据类型版本是1.0,则会隐式转换为DATETIME类型后参与运算。

返回值说明:
返回BIGINT类型。返回规则如下:

  • date非DATETIME或STRING类型,或格式不符合要求时,返回NULL。
  • date值为NULL时,返回NULL。

三、一种修复方案

借助WEEKOFYEAR函数,我们可以方便获取到任意一天所在的“一年周的第几周”,如果再根据如下结论:

这一周算上一年还是下一年,取决于这一周的大多数日期(4天以上)在哪一年。算在前一年,就是前一年的最后一周;算在后一年就是后一年的第一周。

统计出年初所在的首周位于哪一年,再进行拼装(这里使用YEAR*100+WEEK方法),即可精确算出 “year + week 组合”,一种修复方案如下:

SELECTYEAR(DATE_SUB(NEXT_DAY(n_day,'monday'),4))*100 + WEEKOFYEAR(n_day) year_week,n_day AS first_day_of_week,day_of_week
from dim_date
WHERE day_of_week = 1
ORDER BY year_week;

运行结果:

year_weekn_dayday_of_week
2019-512019-12-161
2019-522019-12-231
2020-012019-12-301
2020-022020-01-061

SQL解析:

  • 1、NEXT_DAY(n_day,'monday') :计算指定日的下一个时间单位(这里指代下一个monday);
  • 2、DATE_SUB(NEXT_DAY(n_day,'monday'),4)) :计算一周的大多数日期(4天以上)在哪一年;
  • 3、YEAR(DATE_SUB(NEXT_DAY(n_day,'monday'),4))*100 + WEEKOFYEAR(n_day) :使用YEAR*100+WEEK思想拼装出“year + week 组合”

这篇关于DataWorks+MaxCompute跨年取日期所在周的问题的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1019288

相关文章

kali linux 无法登录root的问题及解决方法

《kalilinux无法登录root的问题及解决方法》:本文主要介绍kalilinux无法登录root的问题及解决方法,本文给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,... 目录kali linux 无法登录root1、问题描述1.1、本地登录root1.2、ssh远程登录root2、

SpringBoot应用中出现的Full GC问题的场景与解决

《SpringBoot应用中出现的FullGC问题的场景与解决》这篇文章主要为大家详细介绍了SpringBoot应用中出现的FullGC问题的场景与解决方法,文中的示例代码讲解详细,感兴趣的小伙伴可... 目录Full GC的原理与触发条件原理触发条件对Spring Boot应用的影响示例代码优化建议结论F

MySQL 中查询 VARCHAR 类型 JSON 数据的问题记录

《MySQL中查询VARCHAR类型JSON数据的问题记录》在数据库设计中,有时我们会将JSON数据存储在VARCHAR或TEXT类型字段中,本文将详细介绍如何在MySQL中有效查询存储为V... 目录一、问题背景二、mysql jsON 函数2.1 常用 JSON 函数三、查询示例3.1 基本查询3.2

Pyserial设置缓冲区大小失败的问题解决

《Pyserial设置缓冲区大小失败的问题解决》本文主要介绍了Pyserial设置缓冲区大小失败的问题解决,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面... 目录问题描述原因分析解决方案问题描述使用set_buffer_size()设置缓冲区大小后,buf

Mysql表如何按照日期字段的年月分区

《Mysql表如何按照日期字段的年月分区》:本文主要介绍Mysql表如何按照日期字段的年月分区的实现方式,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录一、创键表时直接设置分区二、已有表分区1、分区的前置条件2、分区操作三、验证四、注意总结一、创键表时直接设置分区

resultMap如何处理复杂映射问题

《resultMap如何处理复杂映射问题》:本文主要介绍resultMap如何处理复杂映射问题,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录resultMap复杂映射问题Ⅰ 多对一查询:学生——老师Ⅱ 一对多查询:老师——学生总结resultMap复杂映射问题

java实现延迟/超时/定时问题

《java实现延迟/超时/定时问题》:本文主要介绍java实现延迟/超时/定时问题,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录Java实现延迟/超时/定时java 每间隔5秒执行一次,一共执行5次然后结束scheduleAtFixedRate 和 schedu

如何解决mmcv无法安装或安装之后报错问题

《如何解决mmcv无法安装或安装之后报错问题》:本文主要介绍如何解决mmcv无法安装或安装之后报错问题,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录mmcv无法安装或安装之后报错问题1.当我们运行YOwww.chinasem.cnLO时遇到2.找到下图所示这里3.

浅谈配置MMCV环境,解决报错,版本不匹配问题

《浅谈配置MMCV环境,解决报错,版本不匹配问题》:本文主要介绍浅谈配置MMCV环境,解决报错,版本不匹配问题,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录配置MMCV环境,解决报错,版本不匹配错误示例正确示例总结配置MMCV环境,解决报错,版本不匹配在col

Vue3使用router,params传参为空问题

《Vue3使用router,params传参为空问题》:本文主要介绍Vue3使用router,params传参为空问题,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐... 目录vue3使用China编程router,params传参为空1.使用query方式传参2.使用 Histo