SQL用户观看时长问题分析--HiveSQL面试题19

2024-06-02 14:58

本文主要是介绍SQL用户观看时长问题分析--HiveSQL面试题19,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

0 题目

1 数据准备

2 数据分析

4 小结

0 题目
数据如下:

date    user_id    age    programid    Playtime
20190421    u1    30    a    4
20190421    u1    30    b    10
20190421    u1    30    a    2
20190421    u2    27    c    1
20190422    u3    35    d    3
20190423    u2    27    a    2
问题:

1.统计:用户总量,用户平均年龄,用户平均观看时长
2.统计:每10岁一个分段,统计每个区间的用户总量,用户平均观看时长
3.统计:每个用户最喜欢的节目
4.统计:观看时长大于5min的用户总量,只要有一个节目用户观看时间小于5min就不能算 
1 数据准备
(1)数据

vim userview.txt

date    user_id    age    programid    Playtime
20190421    u1    30    a    4
20190421    u1    30    b    10
20190421    u1    30    a    2
20190421    u2    27    c    1
20190422    u3    35    d    3
20190423    u2    27    a    2

(2)建表

create table userview(
    view_date bigint,
    user_id string,
    age int,
    programid string,
    playtime int
)
row format delimited fields terminated by '\t'
(3) 加载数据

load data local inpath "/home/centos/dan_test/userview.txt" into table userview;
(4) 查询数据

hive> select * from userview;
OK
20190421    u1    30    a    4
20190421    u1    30    b    10
20190421    u1    30    a    2
20190421    u2    27    c    1
20190422    u3    35    d    3
20190423    u2    27    a    2
Time taken: 0.158 seconds, Fetched: 6 row(s)
2 数据分析
(1)统计:用户总量,用户平均年龄,用户平均观看时长
select count(user_id)
      ,avg(age)
      ,avg(sum_plt)
from(
    select user_id
          ,age
          ,sum(playtime) as sum_plt
    from userview
    group by user_id,age
) t
OK
3    30.666666666666668    7.333333333333333
Time taken: 25.789 seconds, Fetched: 1 row(s)
(2)统计:每10岁一个分段,统计每个区间的用户总量,用户平均观看时长
分段统计:一般数据范围比较明确的情况下分段统计用 case when 进行划分,很明显此题数据范围不是很明确,是动态的,是按range的形式进行划分我们可以用分桶的思想。核心代码如下:

int(age/10)或floor(age/10)【可以参考SQL cookbook中的案例】

select count(user_id)
      ,avg(sum_plt)
from(
    select user_id
          ,age
          ,sum(playtime) as sum_plt
    from userview
    group by user_id,age
) t
group by int(age/10)
OK
1    3.0
2    9.5
Time taken: 9.487 seconds, Fetched: 2 row(s)
其实此题主要应用的是分桶思想: 分桶主要分两类

一类是创建固定大小的数据桶:分多少个桶我不知道,但每个桶装的数量是知道的,即创建固定大小的数据桶。bucket的容量是已知的,比如此题就指明了每10岁一个分段,说明桶的大小为10,每个桶只能装10个元素。其解决方法为:int(需要分桶的字段/桶大小)或floor(需要分桶的字段/桶大小).如本题中,按年龄10岁一个分段,即int(age/10)
一类是创建固定个数的桶:桶的大小是不知道的,即桶中装多少元素不知道,但我知道需要分多少个桶,也就是说创建固定个数的桶。通俗的来说就是你想把你的数据分别放入到数目固定的桶里面去。对于这类问题的解决方案,像hive,oracle等数据库提供了专门的函数去处理,这个函数就是ntile()函数,ntile负责把排好序的集合分别放入到指定数目的桶里,每一个元素必然会被分配到某个桶中。如果没有ntile()函数,有row_number()函数,可以借助该函数及求余的方式进行构建。如下:mod(row_number()over(order by 数据需要分桶的字段),分桶个数)+1,加1是为了桶从1开始,而不是从0开始。如果数据库中没有row_number()类分析函数则相对比较复杂需要采用自关联,做出全集进行计算,此处不再进行展开叙述。
      (3) 统计:每个用户最喜欢的节目

注意此问题的技巧点:order by 后可以直接写聚合函数,但此聚合函数必须先在select 后求出。
--先求出每个用户针对每个节目的观看总时长,及排名
with tmp as (
select user_id
      ,programid
      ,sum(playtime) as sum_playtime
      ,dense_rank() over(partition by user_id order by sum(playtime) desc) as rk
from userview
group by user_id, programid
)
--找出排名第一的就是用户最喜欢的节目
select user_id
      ,programid
      ,sum_playtime
from tmp
where rk=1
注意问题:此题开窗函数order by后如果直接写sum(playtime)的话会报错,必须在select后面先写sum(play time),然后开窗函数over()里面order by后才能用sum(playtime)。原因是开窗函数实际上是对select后结果的开窗,相当于select后的结果集是开窗函数的输入,但执行顺序是和select同一级别的,因而select后的别名是不能用的。

那么此处order by后可以用sum(playtime) as sum_playtime后的别名sum_playtime吗?答案是否定的。我们可如下语句执行的结果

select user_id
      ,programid
      ,sum(playtime) as sum_playtime
      ,dense_rank() over(partition by user_id order by sum_playtime desc) as rk
from userview
group by user_id, programid
结果报如下错误:

FAILED: SemanticException Failed to breakup Windowing invocations into Groups. At least 1 group must only depend on input columns. Also check for circular dependencies.
Underlying error: org.apache.hadoop.hive.ql.parse.SemanticException: Line 4:55 Expression not in GROUP BY key 'sum_playtime'
sum_playtime别名不在group by key中,因而order by后也必须用sum(playtime)

验证:去掉select中的sum(playtime),看执行结果

select user_id
      ,programid
      ,dense_rank() over(partition by user_id order by sum(playtime) desc) as rk
from userview
FAILED: SemanticException Failed to breakup Windowing invocations into Groups. At least 1 group must only depend on input columns. Also check for circular dependencies.
Underlying error: org.apache.hadoop.hive.ql.parse.SemanticException: Line 3:55 Not yet supported place for UDAF 'sum'
报错:Not yet supported place for UDAF 'sum'。说明窗口函数暂不支持使用聚合函数sum,sql语法解析异常。

此文最终结果如下:

--------------------------------------------------------------------------------
OK
u1    b    10
u2    a    2
u3    d    3
Time taken: 21.548 seconds, Fetched: 3 row(s)
(4)统计:观看时长大于5min的用户总量,只要有一个节目用户观看时间小于5min就不能算

方法一:not in 的实现。
分析:先求出观看时长小于5分钟的用户

select user_id
from userview
where playtime < 5
 目标:只要选出的用户不在上述表中即为所要的目标

select user_id 
from userview 
where user_id not in (
select user_id
from userview
where playtime < 5

报如下错误:

SemanticException [Error 10249]: Line 6:6 Unsupported SubQuery Expression 'playtime': SubQuery cannot use the table alias: userview; this is also an alias in the Outer Query and SubQuery contains a unqualified column reference
hive1.X版本不支持not in后面跟子查询。

用left join + is null代替

最终SQL 如下:

select count(u.user_id)
 
from userview u
 
left join(
 
    select user_id
 
    from userview
 
    where playtime < 5
 
) t
 
on u.user_id=t.user_id
 
where t.user_id is null
 
group by u.user_id
 
;
总结:hive中in,not in带子查询的实现

in的实现:

Hive中的in的实现方式很多,简单说几种:

用left semi join实现
用left outer join+is not null实现
Inner join实现
not in的实现

Left join+is nul(本题案例)
举例说明:

有两个表如下:

skim表

userID    itemID    time
001    342    2015-05-08
002    382    2015-05-09
002    458    2015-05-09
004    325    2015-05-09
userID    itemID    time
001    342    2015-05-07
002    382    2015-05-08
003    458    2015-05-09
004    325    2015-05-09
IN实现:
如果要查询在skim表中并且也在buy表中的信息,需要用in查询,hive sql如下:

select skim.userId , skim.itemId from skim left outer join buy
 
on skim.userId = buy .userId and skim.itemId = buy .itemId where buy .userId is not null;

select skim.userId , skim.itemId from skim left semi join buy
 
on skim.userId = buy .userId and skim.itemId = buy .itemId;

select skim.userId , skim.itemId from skim join buy
 
on skim.userId = buy .userId and skim.itemId = buy .itemId;
结果如下:

userID    itemID
001    342
002    382
003    458
NOT IN实现:
如果要查询在skim表中并且不在buy表中的信息,需要用not in查询,hive sql如下:

select skim.userId, skim.itemId from skim left outer join buy
 
on skim.userId=buy .userId and skim.itemId=buy .itemId where buy .userId is null;
结果如下:

userID    itemID
004    468
Hive 不支持 where 子句中的子查询, SQL 常用的 exist in 子句需要改写。这一改写相对简单。考虑以下 SQL 查询语句:

SELECT a.key, a.value
 
FROM a
 
WHERE a.key in
 
(SELECT b.key
 
FROM B);
可以改写为

SELECT a.key, a.value
 
FROM a LEFT OUTER JOIN b ON (a.key = b.key)
 
WHERE b.key <> NULL;
一个更高效的实现是利用 left semi join 改写为:

SELECT a.key, a.val
 
FROM a LEFT SEMI JOIN b on (a.key = b.key);
left semi join 是 0.5.0 以上版本的特性。hive 的 left semi join 讲解https://blog.csdn.net/happyrocking/article/details/79885071

-------------------------------------------------------------------------------------------------------------------------------------------------------------------------

not exists 例子

select a, b
 
from table1 t1
 
where not exists (select 1
 
from table2 t2
 
where t1.a = t2.a
 
and t1.b = t2.b)
可以改为

select t1.a, t2.b
 
from table1 t1
 
left join table2 t2
 
on (t1.a = t2.a and t1.b = t2.b)
 
where t2.a is null
方法2:having子句实现。技巧:利用min()、max()函数全解问题。min()所有都大于,max()所有都小于(推荐解法)
题目中要求:只要有一个节目用户观看时间小于5min就不能算,即用户观看的所有节目中只要有一个节目观看时长小于5min该用户就不能算。所以我们可以利用min()函数做限定,min(playtime)表示用户观看的最小时间,如果用户观看的最小时间都大于等于5min钟,那么该用户观看的所有节目都是大于等于5分钟的,则满足题意。我们可以对用户分组,求出其最小观看时间,然后利用having过滤输出即可,具体SQL如下:

select 
count(user_id)
from(
select 
user_id
from userview
group by user_id
having min(playtime)>=5) t;
OK
0
Time taken: 13.167 seconds, Fetched: 1 row(s)
方法2小结:

上述求解这种至少,至多的问题描述可以归结为任意,所有都的问题,把这类问题我们统称为描述性问题。这类问题分以下几类:

(1)所有都大于:所有都大于的问题描述即min()函数,只要最小值都比该值大那么所有的都比该值大
(2)所有都小于:所有都小于的问题描述是max()函数,只要最大的值比该值小,那么所有的都比该值小。
 (3) 至少:本质是所有都大于问题,只要最小值大于该值,那么所有的都将大于
(4)至多:本质是所有都小于,只要最大值小于该值,那么所有的都将小于
(5)对于所有都的问题思考我们往往可以从反面入手,通过补集的思想解决问题。
4 小结
此道题涉及的知识点及SQL的技巧比较多,能够很好的考察面试者SQL水平。本题主要涉及的知识点包括:

分桶的创建:桶大小固定及桶个数固定。
排名函数求最优(top)问题
not in的hive实现
描述性问题求解思路
参考连接:

https://blog.csdn.net/qq_42246689/article/details/84702253

https://blog.csdn.net/zhangge360/article/details/84865567
 

这篇关于SQL用户观看时长问题分析--HiveSQL面试题19的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1024293

相关文章

SQL中的外键约束

外键约束用于表示两张表中的指标连接关系。外键约束的作用主要有以下三点: 1.确保子表中的某个字段(外键)只能引用父表中的有效记录2.主表中的列被删除时,子表中的关联列也会被删除3.主表中的列更新时,子表中的关联元素也会被更新 子表中的元素指向主表 以下是一个外键约束的实例展示

基于MySQL Binlog的Elasticsearch数据同步实践

一、为什么要做 随着马蜂窝的逐渐发展,我们的业务数据越来越多,单纯使用 MySQL 已经不能满足我们的数据查询需求,例如对于商品、订单等数据的多维度检索。 使用 Elasticsearch 存储业务数据可以很好的解决我们业务中的搜索需求。而数据进行异构存储后,随之而来的就是数据同步的问题。 二、现有方法及问题 对于数据同步,我们目前的解决方案是建立数据中间表。把需要检索的业务数据,统一放到一张M

如何去写一手好SQL

MySQL性能 最大数据量 抛开数据量和并发数,谈性能都是耍流氓。MySQL没有限制单表最大记录数,它取决于操作系统对文件大小的限制。 《阿里巴巴Java开发手册》提出单表行数超过500万行或者单表容量超过2GB,才推荐分库分表。性能由综合因素决定,抛开业务复杂度,影响程度依次是硬件配置、MySQL配置、数据表设计、索引优化。500万这个值仅供参考,并非铁律。 博主曾经操作过超过4亿行数据

好题——hdu2522(小数问题:求1/n的第一个循环节)

好喜欢这题,第一次做小数问题,一开始真心没思路,然后参考了网上的一些资料。 知识点***********************************无限不循环小数即无理数,不能写作两整数之比*****************************(一开始没想到,小学没学好) 此题1/n肯定是一个有限循环小数,了解这些后就能做此题了。 按照除法的机制,用一个函数表示出来就可以了,代码如下

hdu1043(八数码问题,广搜 + hash(实现状态压缩) )

利用康拓展开将一个排列映射成一个自然数,然后就变成了普通的广搜题。 #include<iostream>#include<algorithm>#include<string>#include<stack>#include<queue>#include<map>#include<stdio.h>#include<stdlib.h>#include<ctype.h>#inclu

性能分析之MySQL索引实战案例

文章目录 一、前言二、准备三、MySQL索引优化四、MySQL 索引知识回顾五、总结 一、前言 在上一讲性能工具之 JProfiler 简单登录案例分析实战中已经发现SQL没有建立索引问题,本文将一起从代码层去分析为什么没有建立索引? 开源ERP项目地址:https://gitee.com/jishenghua/JSH_ERP 二、准备 打开IDEA找到登录请求资源路径位置

MySQL数据库宕机,启动不起来,教你一招搞定!

作者介绍:老苏,10余年DBA工作运维经验,擅长Oracle、MySQL、PG、Mongodb数据库运维(如安装迁移,性能优化、故障应急处理等)公众号:老苏畅谈运维欢迎关注本人公众号,更多精彩与您分享。 MySQL数据库宕机,数据页损坏问题,启动不起来,该如何排查和解决,本文将为你说明具体的排查过程。 查看MySQL error日志 查看 MySQL error日志,排查哪个表(表空间

购买磨轮平衡机时应该注意什么问题和技巧

在购买磨轮平衡机时,您应该注意以下几个关键点: 平衡精度 平衡精度是衡量平衡机性能的核心指标,直接影响到不平衡量的检测与校准的准确性,从而决定磨轮的振动和噪声水平。高精度的平衡机能显著减少振动和噪声,提高磨削加工的精度。 转速范围 宽广的转速范围意味着平衡机能够处理更多种类的磨轮,适应不同的工作条件和规格要求。 振动监测能力 振动监测能力是评估平衡机性能的重要因素。通过传感器实时监

MySQL高性能优化规范

前言:      笔者最近上班途中突然想丰富下自己的数据库优化技能。于是在查阅了多篇文章后,总结出了这篇! 数据库命令规范 所有数据库对象名称必须使用小写字母并用下划线分割 所有数据库对象名称禁止使用mysql保留关键字(如果表名中包含关键字查询时,需要将其用单引号括起来) 数据库对象的命名要能做到见名识意,并且最后不要超过32个字符 临时库表必须以tmp_为前缀并以日期为后缀,备份

缓存雪崩问题

缓存雪崩是缓存中大量key失效后当高并发到来时导致大量请求到数据库,瞬间耗尽数据库资源,导致数据库无法使用。 解决方案: 1、使用锁进行控制 2、对同一类型信息的key设置不同的过期时间 3、缓存预热 1. 什么是缓存雪崩 缓存雪崩是指在短时间内,大量缓存数据同时失效,导致所有请求直接涌向数据库,瞬间增加数据库的负载压力,可能导致数据库性能下降甚至崩溃。这种情况往往发生在缓存中大量 k