MySQL子查询、WITH AS、LAG查询统计数据实战

2023-12-23 17:52

本文主要是介绍MySQL子查询、WITH AS、LAG查询统计数据实战,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

需求

给出一个比较常见的统计类业务需求:统计App(包括iOS和Android两大类)每日新注册用户数、以及累计注册用户数。

数据库采用MySQL,根据上面的需求,不难设计表如下:

create table os_day_count(stat_date     varchar(10) not null comment '统计日期',os            varchar(7) not null comment '操作系统类型',stat_count    int         not null comment '用户数',os_stat_count int         null comment 'os类型累计用户数',primary key (stat_date, os)
) comment '每日App新装机统计表';

由于面对的是一个日活量非常小的App,经常出现每日新增用户数为0的情况。

insert数据落库逻辑如下:

public void appOsStatisticFromUser(String time) {// 远程Feign接口获取新用户数Response<List<OsDayCountVO>> resp = remoteUserService.appOsStats(time);boolean check = resp != null && resp.getCode() == 0 && CollectionUtils.isNotEmpty(resp.getData());// 有新用户数才insertif (check) {for (OsDayCountVO item : resp.getData()) {OsDayCount po = BeanConvertUtils.convert(item, OsDayCount.class);osDayCountMapper.insert(po);// 前一天 osStatCount = 前一天 statCount + 前两天 osStatCountString twoDayAgo = DateUtils.addDay(DateUtils.parse(item.getStatDate(), DateUtils.DATE_SMALL_STR), DateUtils.DATE_SMALL_STR, -1);Integer count = osDayCountMapper.osMax(twoDayAgo, item.getOs());po.setOsStatCount(count + item.getStatCount());// 此处update逻辑一定要注意where条件限制否则报错:SQLIntegrityConstraintViolationException Duplicate entryosDayCountMapper.update(po, new LambdaUpdateWrapper<OsDayCount>().eq(OsDayCount::getStatDate, item.getStatDate()).eq(OsDayCount::getOs, item.getOs()));}}
}

问题

上面的业务逻辑没有问题,运行之后,数据库如下:
在这里插入图片描述
表里的数据不是连续的!!没有某个stat_date日期的数据则表示该天没有新增用户,os_stat_count表示的是累计用户数。

现在想要查询【连续】日期的用户数,即实现

// 没有2023-12-18数据,则取2023-12-17;没有2023-12-17数据,则取2023-12-16;以此类推
select stat_date, os_stat_count from os_day_count where stat_date in ('2023-12-16','2023-12-17','2023-12-18');

最后返回的数据应该有3行,分别是2023-12-16、2023-12-17、2023-12-18,而且因为2023-12-17和2023-12-18没有新增用户。故而查询出来的三行数据结果是一模一样的。

实现方案

全量冗余存储

想要查询某个连续时间段,如最近一个月的累计用户数。很简单,修改insert逻辑即可,每天都落数据,哪怕和前一天数据一模一样。这样查询时直接使用上面的SQL即可实现功能。

但是这样会在数据库里全量存储很多冗余数据。不建议。

应用层实现

保持insert逻辑不变,那就需要在select处花点心思,也很简单。

数据库PO实体类定义如下:

@Data
@TableName(value = "os_day_count")
public class OsDayCount {@TableId(value = "stat_date", type = IdType.NONE)private String statDate;private String os;private Integer statCount;private Integer osStatCount;public OsDayCount(String statDate, String os, Integer statCount) {this.statDate = statDate;this.os = os;this.statCount = statCount;}
}

枚举类定义:

@Getter
@AllArgsConstructor
public enum OsEnum {IOS("iOS", "iOS"),ANDROID("Android", "Android"),ALL("ALL", "ALL");private final String desc;private final String name;public static String getNameByDesc(String desc) {for (OsEnum osEnum : OsEnum.values()) {if (osEnum.desc.equals(desc)) {return osEnum.name;}}return null;}
}

Mapper接口类定义查询方法:

Integer osMax(@Param("time") String time, @Param("os") String os);

对应的MyBatis mapper.xml文件:

<select id="osMax" resultType="java.lang.Integer">SELECT ifnull(max(os_stat_count), 0)FROM os_day_countWHERE stat_date &lt;= #{time}AND os = #{os};
</select>

Service层通过简简单单一个for循环来执行 2 ∗ N 2*N 2N次SQL查询实现,其中2表示枚举类定义的类型个数,N表示查询日期跨度。

List<OsDayCount> osList = Lists.newArrayListWithExpectedSize(dto.getTimeList().size() * 2);
for (String item : dto.getTimeList()) {osList.add(new OsDayCount(item, OsEnum.ANDROID.getDesc(), osDayCountMapper.osMax(item, OsEnum.ANDROID.getDesc())));osList.add(new OsDayCount(item, OsEnum.IOS.getDesc(), osDayCountMapper.osMax(item, OsEnum.IOS.getDesc())));
}

不管是查询日期跨度增加,还是换一种场景,枚举类型个数增长。上面这种方式都是极不可取的。

SQL

上面这种for循环肯定不可取,因此有必要替换成一个SQL来实现查询取数逻辑。提到MySQL实现,一般都会有MySQL 8和非MySQL 8两种情况。

非MySQL 8

相当多的公司,哪怕他们的业务并不是金融或保险或交易相关等,也不会(不敢)考虑选择(或升级迁移)使用MySQL 8。哪怕MySQL 8于2018年4月份发布,距今已经五年多。原因无外乎慎重起见、因循守旧等。

事实上,这几年工作中,鄙人也仅在一家公司的一个产品中,在生产中用过MySQL 8。

不难分析出来,stat_date是一个非常关键的字段,由于数据库里并没有存储2023-12-17,2023-12-18两天的数据。

因此非常有必要做一个子查询:

SELECT '2023-12-16' AS stat_date
UNION ALL SELECT '2023-12-17'
UNION ALL SELECT '2023-12-18' AS dates

此子查询返回期望的多行日期数据。然后关联另一个子查询:

SELECT os_stat_count FROM os_day_count WHERE stat_date <= dates.stat_date ORDER BY stat_date DESC LIMIT 1;

事实上,这个子查询和上面的应用层实现方案里的查询逻辑一样:

SELECT ifnull(max(os_stat_count), 0) FROM os_day_count WHERE stat_date &lt;= #{time};

注意到一定要使用LIMIT 1来限制只返回一条数据,否则报错:Subquery returns more than 1 rowmaxmin函数只会返回一条数据,所以不用冗余追加limit 1限制。

组合之后,写出如下SQL:

SELECTdates.stat_date,(SELECT os_stat_count FROM os_day_count WHERE stat_date <= dates.stat_date ORDER BY stat_date DESC LIMIT 1) AS os_stat_count
FROM(SELECT '2023-12-16' AS stat_dateUNION ALL SELECT '2023-12-17'UNION ALL SELECT '2023-12-18') AS dates
ORDER BYdates.stat_date;

达到效果。

那如何进一步区分os枚举类型信息呢?当然也是join。不过不是使用left joinleft join需要使用on条件关联一下。这里使用cross join

最终的SQL如下:

SELECTdates.stat_date,oss.os,(SELECT os_stat_count FROM os_day_count WHERE stat_date <= dates.stat_date and os = oss.os ORDER BY stat_date DESC limit 1) AS os_stat_count
FROM(SELECT '2023-12-16' AS stat_dateUNION ALL SELECT '2023-12-17'UNION ALL SELECT '2023-12-18'
) AS dates
cross join (select distinct os from os_day_count) AS oss
ORDER BYdates.stat_date;

SQL没有问题,实现期望效果。那如何把SQL转写为MyBatis Mapper.xml文件支持的语法呢?

最关键的部分,还是子查询得到的dates数据。总不可能一一列出来吧,如果要查询最近半年的数据呢?

MyBatis提供的标签符合此场景的貌似只有foreach。经过尝试,MyBatis果然支持以Index方式取集合元素,即:#{timeList[0]}#{timeList[0]}foreachcollection有重复第一个元素,一开始想要改造collection标签元素,没搞定。

咱不就是想去重嘛。去重的话,使用UNION替换UNION ALL

其他就是foreach的几个元素的处理:opencloseseparator,都置为空即可。

Anyway,日期子查询转写成MyBatis语法最终如下:

SELECT #{timeList[0]} AS stat_date
<foreach close="" collection="timeList" item="item" open="" separator="">UNION SELECT#{item}
</foreach>

最终版MyBatis mapper.xml文件如下:

<select id="osSum" resultType="com.aaaaa.collect.data.dao.entity.OsDayCount">SELECTdates.stat_date AS statDate,oss.os,(SELECT os_stat_count FROM os_day_count WHERE stat_date &lt;= dates.stat_date AND os = oss.os ORDER BY stat_dateDESC limit 1) AS statCountFROM(SELECT #{timeList[0]} AS stat_date<foreach close="" collection="timeList" item="item" open="" separator="">UNION SELECT#{item}</foreach>) AS datesCROSS JOIN (SELECT DISTINCT os FROM os_day_count) AS ossORDER BY dates.stat_date;
</select>

MySQL 8

借助于MySQL 8提供的WITH AS及LAG函数,可写出如下SQL:

WITH dates AS (SELECT '2023-12-16' AS stat_dateUNION ALL SELECT '2023-12-17'UNION ALL SELECT '2023-12-18'
),
cte AS (SELECTdates.stat_date,IFNULL(os_day_count.os_stat_count, LAG(os_day_count.os_stat_count) OVER (ORDER BY dates.stat_date)) AS os_stat_countFROMdatesLEFT JOINos_day_count ON dates.stat_date = os_day_count.stat_date
)
SELECTstat_date,IFNULL(os_stat_count, (SELECT os_stat_count FROM cte WHERE os_stat_count IS NOT NULL ORDER BY stat_date DESC LIMIT 1)) AS os_stat_count
FROMcte
ORDER BYstat_date;

如果想要进一步增加OS信息,写出如下SQL:


TODO:cross join os后有重复的数据

最后

在写SQL的过程中,还是相当耗费一些心力的,各种Stackoverflow浏览帖子,各种Google搜索,没有找到解决方案。也体验过CSDN推出的C知道,呵呵。OpenAI的Chat GPT也体验过,虽然比C知道强,但是也没有拿到满意的答案。

最后在CSDN问答里发布帖子MySQL查询不存在的日期数据。不过1~2分钟,就拿到满意的答案。不得不说,GitHub与OpenAI强强联合推出的GitHub Copilot真™强大啊!!

这篇关于MySQL子查询、WITH AS、LAG查询统计数据实战的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/528893

相关文章

Mysql 中的多表连接和连接类型详解

《Mysql中的多表连接和连接类型详解》这篇文章详细介绍了MySQL中的多表连接及其各种类型,包括内连接、左连接、右连接、全外连接、自连接和交叉连接,通过这些连接方式,可以将分散在不同表中的相关数据... 目录什么是多表连接?1. 内连接(INNER JOIN)2. 左连接(LEFT JOIN 或 LEFT

Golang使用minio替代文件系统的实战教程

《Golang使用minio替代文件系统的实战教程》本文讨论项目开发中直接文件系统的限制或不足,接着介绍Minio对象存储的优势,同时给出Golang的实际示例代码,包括初始化客户端、读取minio对... 目录文件系统 vs Minio文件系统不足:对象存储:miniogolang连接Minio配置Min

Node.js 中 http 模块的深度剖析与实战应用小结

《Node.js中http模块的深度剖析与实战应用小结》本文详细介绍了Node.js中的http模块,从创建HTTP服务器、处理请求与响应,到获取请求参数,每个环节都通过代码示例进行解析,旨在帮... 目录Node.js 中 http 模块的深度剖析与实战应用一、引言二、创建 HTTP 服务器:基石搭建(一

mysql重置root密码的完整步骤(适用于5.7和8.0)

《mysql重置root密码的完整步骤(适用于5.7和8.0)》:本文主要介绍mysql重置root密码的完整步骤,文中描述了如何停止MySQL服务、以管理员身份打开命令行、替换配置文件路径、修改... 目录第一步:先停止mysql服务,一定要停止!方式一:通过命令行关闭mysql服务方式二:通过服务项关闭

SQL Server数据库磁盘满了的解决办法

《SQLServer数据库磁盘满了的解决办法》系统再正常运行,我还在操作中,突然发现接口报错,后续所有接口都报错了,一查日志发现说是数据库磁盘满了,所以本文记录了SQLServer数据库磁盘满了的解... 目录问题解决方法删除数据库日志设置数据库日志大小问题今http://www.chinasem.cn天发

mysql主从及遇到的问题解决

《mysql主从及遇到的问题解决》本文详细介绍了如何使用Docker配置MySQL主从复制,首先创建了两个文件夹并分别配置了`my.cnf`文件,通过执行脚本启动容器并配置好主从关系,文中还提到了一些... 目录mysql主从及遇到问题解决遇到的问题说明总结mysql主从及遇到问题解决1.基于mysql

MySQL的索引失效的原因实例及解决方案

《MySQL的索引失效的原因实例及解决方案》这篇文章主要讨论了MySQL索引失效的常见原因及其解决方案,它涵盖了数据类型不匹配、隐式转换、函数或表达式、范围查询、LIKE查询、OR条件、全表扫描、索引... 目录1. 数据类型不匹配2. 隐式转换3. 函数或表达式4. 范围查询之后的列5. like 查询6

Redis KEYS查询大批量数据替代方案

《RedisKEYS查询大批量数据替代方案》在使用Redis时,KEYS命令虽然简单直接,但其全表扫描的特性在处理大规模数据时会导致性能问题,甚至可能阻塞Redis服务,本文将介绍SCAN命令、有序... 目录前言KEYS命令问题背景替代方案1.使用 SCAN 命令2. 使用有序集合(Sorted Set)

Linux下MySQL8.0.26安装教程

《Linux下MySQL8.0.26安装教程》文章详细介绍了如何在Linux系统上安装和配置MySQL,包括下载、解压、安装依赖、启动服务、获取默认密码、设置密码、支持远程登录以及创建表,感兴趣的朋友... 目录1.找到官网下载位置1.访问mysql存档2.下载社区版3.百度网盘中2.linux安装配置1.

MyBatis框架实现一个简单的数据查询操作

《MyBatis框架实现一个简单的数据查询操作》本文介绍了MyBatis框架下进行数据查询操作的详细步骤,括创建实体类、编写SQL标签、配置Mapper、开启驼峰命名映射以及执行SQL语句等,感兴趣的... 基于在前面几章我们已经学习了对MyBATis进行环境配置,并利用SqlSessionFactory核