大数据SQL面试题每日一题系列:现有用户登录记录表,请查询出用户连续三天登录所有的数据记录

本文主要是介绍大数据SQL面试题每日一题系列:现有用户登录记录表,请查询出用户连续三天登录所有的数据记录,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

之后会不定期更新每日一题sql系列。

SQL面试题每日一题系列内容均来自于网络以及实际使用情况收集,如与各大厂面试题有雷同,纯属巧合。

1.题目

问题:以下为多个用户每日登录记录数据,已经按照用户登录日期进行了去重处理,求解出每个用户连续三天登录所有的数据记录

此题也和求解用户连续登录n天的次数题目求解方式重合。

2.基础数据准备

基于上一题SQL面试题每日一题-求解用户最长连续登录天数数据源做了一定修正,方便理解。

create table if not exists temp.user_login_log (`id` bigint comment '用户id',`login_date` string comment '登录日期'
) comment '用户每日登录流水'

数据预览

idlogin_date
12024-04-25
12024-04-26
12024-04-27
12024-04-28
12024-04-30
12024-05-01
12024-05-02
12024-05-04
12024-05-05
22024-04-25
22024-04-28
22024-05-02
22024-05-03
22024-05-04

期望结果

idlogin_date
12024-04-25
12024-04-26
12024-04-27
12024-04-26
12024-04-27
12024-04-28
12024-04-30
12024-05-01
12024-05-02
22024-05-02
22024-05-03
22024-05-04

期望输出结果中会看到用户1有25,26,27日记录,也会有26,27,28日的记录,那么26,27就会出现两次

3.问题分析

求解每个用户连续三天登录的所有数据记录,相较于上一个连续问题,其区别在于需要考虑明细数据的展示,其解决问题的办法就完全不同了。考察的是对日期加减函数的使用以及对偏移量开窗函数的应用

排序开窗函数详见SQL窗口分析函数使用详解系列三之偏移量类窗口函数

期望输出结果中会看到用户1有25,26,27日记录,也会有26,27,28日的记录,那么26,27就会出现两次,原来数据表中只有一次,所以还是得“生成”数据;

维度评分
题目难度⭐️⭐️⭐️⭐️
题目清晰度⭐️⭐️⭐️⭐️
业务常见度⭐️⭐️

4.解题SQL

1.原始数据求偏移值

使用lead()函数按照用户分组,日期排序,求出后面第三行的日期offset_day1,使用date_add()求解出第三天的日期offset_day2

通过两种方式的偏移值是否相等来进行判断是否连续三天登录

select id,login_date,lead(login_date,2) over(partition by id order by login_date) as offset_day1,date_add(login_date,2) as offset_day2 
from temp.user_login_log
order by id,login_date

数据结果

idlogin_dateoffset_day1offset_day2
12024-04-252024-04-272024-04-27
12024-04-262024-04-282024-04-28
12024-04-272024-04-302024-04-29
12024-04-282024-05-012024-04-30
12024-04-302024-05-022024-05-02
12024-05-012024-05-042024-05-03
12024-05-022024-05-052024-05-04
12024-05-04(null)2024-05-06
12024-05-05(null)2024-05-07
22024-04-252024-05-022024-04-27
22024-04-282024-05-032024-04-30
22024-05-022024-05-042024-05-04
22024-05-03(null)2024-05-05
22024-05-04(null)2024-05-06

清晰的看到偏移窗口函数和日期加减函数的值,之后进行比较。

2.判断是否连续登录

判断当日及之后是否连续三天登录,如果两个偏移值相等则代表为连续登录,否则为非连续登录。

计算出is_cont,然后根据is_cont的标识进行筛选初试连续的日期。比如用户1在25,26,27三天连续登录,筛选出其第一天的日期25。

select id,login_date,offset_day1,offset_day2,if(offset_day1 = offset_day2,1,0) as is_cont 
from (select id,login_date,lead(login_date,2) over(partition by id order by login_date) as offset_day1,date_add(login_date,2) as offset_day2 from temp.user_login_log
) a
order by id,login_date

数据结果

idlogin_dateoffset_day1offset_day2is_cont
12024-04-252024-04-272024-04-271
12024-04-262024-04-282024-04-281
12024-04-272024-04-302024-04-290
12024-04-282024-05-012024-04-300
12024-04-302024-05-022024-05-021
12024-05-012024-05-042024-05-030
12024-05-022024-05-052024-05-040
12024-05-04(null)2024-05-060
12024-05-05(null)2024-05-070
22024-04-252024-05-022024-04-270
22024-04-282024-05-032024-04-300
22024-05-022024-05-042024-05-041
22024-05-03(null)2024-05-050
22024-05-04(null)2024-05-060

可以看出用户1在25号和26号以及30号存在连续登录3天的记录。用户2在05-02存在连续登录三天的记录。

3.筛选连续登录日期

筛选出开始连续登录的日期

select id,login_date,offset_day1,offset_day2,if(offset_day1 = offset_day2,1,0) as is_cont 
from (select id,login_date,offset_day1,offset_day2,if(offset_day1 = offset_day2,1,0) as is_cont from (select id,login_date,lead(login_date,2) over(partition by id order by login_date) as offset_day1,date_add(login_date,2) as offset_day2 from temp.user_login_log) a
) b where b.is_cont = 1
order by id,login_date

数据结果

idlogin_dateoffset_day1offset_day2is_cont
12024-04-252024-04-272024-04-271
12024-04-262024-04-282024-04-281
12024-04-302024-05-022024-05-021
22024-05-022024-05-042024-05-041

筛选出来的结果。

至此,这个可以作为另外一个题目:

判断用户连续登录n天的次数。

实际例子,判断用户连续登录三天的次数。用户1为3次,用户2为1次。

4.生成维表

生成一个0,1,2三行记录的数据。

select explode(array(0,1,2)) as date_list;

这里面涉及到了hive的explode爆炸函数

数据结果

date_list
0
1
2

5.得到预期结果

通过3和4步骤的结果表进行笛卡尔积,得到最终结果。

select c.id,c.login_date,date_add(c.login_date,d.date_list) as login_date_list 
from (select id,login_date,offset_day1,offset_day2,if(offset_day1 = offset_day2,1,0) as is_cont from (select id,login_date,offset_day1,offset_day2,if(offset_day1 = offset_day2,1,0) as is_cont from (select id,login_date,lead(login_date,2) over(partition by id order by login_date) as offset_day1,date_add(login_date,2) as offset_day2 from temp.user_login_log) a) b where b.is_cont = 1
) c
,(select explode(array(0,1,2)) as date_list
) d
order by id,login_date_list

数据结果

idlogin_datelogin_date_list
12024-04-252024-04-25
12024-04-252024-04-26
12024-04-252024-04-27
12024-04-262024-04-26
12024-04-262024-04-27
12024-04-262024-04-28
12024-04-302024-04-30
12024-04-302024-05-01
12024-04-302024-05-02
22024-05-022024-05-02
22024-05-022024-05-03
22024-05-022024-05-04

可以看到用户连续登录的记录在login_date_list列完整展现出来了,和预期结果一致。

5.衍生问题解答

如果求解的不是用户连续三天登录所有记录,而是连续登录之外的断点记录呢?

用另一句话说就是用户哪天没有登录的记录

这个需要我们进行维表数据生成以进行数据求解

下期进行完整解答。

以上,本期全部内容。

感谢阅读。

按例,欢迎点击此处关注我的个人公众号,交流更多知识。

这篇关于大数据SQL面试题每日一题系列:现有用户登录记录表,请查询出用户连续三天登录所有的数据记录的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/975549

相关文章

MyBatis 动态 SQL 优化之标签的实战与技巧(常见用法)

《MyBatis动态SQL优化之标签的实战与技巧(常见用法)》本文通过详细的示例和实际应用场景,介绍了如何有效利用这些标签来优化MyBatis配置,提升开发效率,确保SQL的高效执行和安全性,感... 目录动态SQL详解一、动态SQL的核心概念1.1 什么是动态SQL?1.2 动态SQL的优点1.3 动态S

Spring Boot 配置文件之类型、加载顺序与最佳实践记录

《SpringBoot配置文件之类型、加载顺序与最佳实践记录》SpringBoot的配置文件是灵活且强大的工具,通过合理的配置管理,可以让应用开发和部署更加高效,无论是简单的属性配置,还是复杂... 目录Spring Boot 配置文件详解一、Spring Boot 配置文件类型1.1 applicatio

Mysql表的简单操作(基本技能)

《Mysql表的简单操作(基本技能)》在数据库中,表的操作主要包括表的创建、查看、修改、删除等,了解如何操作这些表是数据库管理和开发的基本技能,本文给大家介绍Mysql表的简单操作,感兴趣的朋友一起看... 目录3.1 创建表 3.2 查看表结构3.3 修改表3.4 实践案例:修改表在数据库中,表的操作主要

Java利用JSONPath操作JSON数据的技术指南

《Java利用JSONPath操作JSON数据的技术指南》JSONPath是一种强大的工具,用于查询和操作JSON数据,类似于SQL的语法,它为处理复杂的JSON数据结构提供了简单且高效... 目录1、简述2、什么是 jsONPath?3、Java 示例3.1 基本查询3.2 过滤查询3.3 递归搜索3.4

springboot security验证码的登录实例

《springbootsecurity验证码的登录实例》:本文主要介绍springbootsecurity验证码的登录实例,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,... 目录前言代码示例引入依赖定义验证码生成器定义获取验证码及认证接口测试获取验证码登录总结前言在spring

mysql出现ERROR 2003 (HY000): Can‘t connect to MySQL server on ‘localhost‘ (10061)的解决方法

《mysql出现ERROR2003(HY000):Can‘tconnecttoMySQLserveron‘localhost‘(10061)的解决方法》本文主要介绍了mysql出现... 目录前言:第一步:第二步:第三步:总结:前言:当你想通过命令窗口想打开mysql时候发现提http://www.cpp

MySQL大表数据的分区与分库分表的实现

《MySQL大表数据的分区与分库分表的实现》数据库的分区和分库分表是两种常用的技术方案,本文主要介绍了MySQL大表数据的分区与分库分表的实现,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有... 目录1. mysql大表数据的分区1.1 什么是分区?1.2 分区的类型1.3 分区的优点1.4 分

MySQL错误代码2058和2059的解决办法

《MySQL错误代码2058和2059的解决办法》:本文主要介绍MySQL错误代码2058和2059的解决办法,2058和2059的错误码核心都是你用的客户端工具和mysql版本的密码插件不匹配,... 目录1. 前置理解2.报错现象3.解决办法(敲重点!!!)1. php前置理解2058和2059的错误

Mysql删除几亿条数据表中的部分数据的方法实现

《Mysql删除几亿条数据表中的部分数据的方法实现》在MySQL中删除一个大表中的数据时,需要特别注意操作的性能和对系统的影响,本文主要介绍了Mysql删除几亿条数据表中的部分数据的方法实现,具有一定... 目录1、需求2、方案1. 使用 DELETE 语句分批删除2. 使用 INPLACE ALTER T

MySQL INSERT语句实现当记录不存在时插入的几种方法

《MySQLINSERT语句实现当记录不存在时插入的几种方法》MySQL的INSERT语句是用于向数据库表中插入新记录的关键命令,下面:本文主要介绍MySQLINSERT语句实现当记录不存在时... 目录使用 INSERT IGNORE使用 ON DUPLICATE KEY UPDATE使用 REPLACE