【hive 函数】Hive分析函数和窗口函数

2024-09-07 06:32
文章标签 分析 函数 窗口 hive

本文主要是介绍【hive 函数】Hive分析函数和窗口函数,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

拿一个例子来说
数据集:

cookie1,2015-04-10 10:00:02,url2  
cookie1,2015-04-10 10:00:00,url1  
cookie1,2015-04-10 10:03:04,1url3  
cookie1,2015-04-10 10:50:05,url6  
cookie1,2015-04-10 11:00:00,url7  
cookie1,2015-04-10 10:10:00,url4  
cookie1,2015-04-10 10:50:01,url5  
cookie2,2015-04-10 10:00:02,url22  
cookie2,2015-04-10 10:00:00,url11  
cookie2,2015-04-10 10:03:04,1url33  
cookie2,2015-04-10 10:50:05,url66  
cookie2,2015-04-10 11:00:00,url77  
cookie2,2015-04-10 10:10:00,url44  
cookie2,2015-04-10 10:50:01,url55  

窗口函数

  1. FIRST_VALUE 取出分组内排序后,截止到当前行,第一个值
  2. LAST_VALUE 取出分组内排序后,截止到当前行,最后一个值
  3. LEAD(col, n,DEFAULT) 用于统计窗口内往下第n行的值。第一个参数为列名,第二个参数为往下第n行(可选,默认为1),第三个参数为默认值(当往下第n行为NULL时,取默认值)
  4. LAG(col,n,DEFAULT) 与lead相反,用于统计窗口内往下第n个值。第一个参数为列名,第二个参数为往上第n行(可选,默认为1)

FIRST_VALUE
取分组内排序后,截止到当前行,第一个值

SELECT cookieid,  
createtime,  
url,  
ROW_NUMBER() OVER(PARTITION BY cookieid ORDER BY createtime) AS rn,  
FIRST_VALUE(url) OVER(PARTITION BY cookieid ORDER BY createtime) AS first1  
FROM lxw1234;  cookieid  createtime            url     rn      first1  
---------------------------------------------------------  
cookie1 2015-04-10 10:00:00     url1    1       url1  
cookie1 2015-04-10 10:00:02     url2    2       url1  
cookie1 2015-04-10 10:03:04     1url3   3       url1  
cookie1 2015-04-10 10:10:00     url4    4       url1  
cookie1 2015-04-10 10:50:01     url5    5       url1  
cookie1 2015-04-10 10:50:05     url6    6       url1  
cookie1 2015-04-10 11:00:00     url7    7       url1  
cookie2 2015-04-10 10:00:00     url11   1       url11  
cookie2 2015-04-10 10:00:02     url22   2       url11  
cookie2 2015-04-10 10:03:04     1url33  3       url11  
cookie2 2015-04-10 10:10:00     url44   4       url11  
cookie2 2015-04-10 10:50:01     url55   5       url11  
cookie2 2015-04-10 10:50:05     url66   6       url11  
cookie2 2015-04-10 11:00:00     url77   7       url11  

LAST_VALUE

取分组内排序后,截止到当前行,最后一个值

SELECT cookieid,  
createtime,  
url,  
LAST_VALUE(url) OVER(PARTITION BY cookieid) AS last2    
FROM lxw1234;  cookieid  createtime            url     last2  
----------------------------------------------  
cookie1 2015-04-10 10:00:02     url2    url5  
cookie1 2015-04-10 10:00:00     url1    url5  
cookie1 2015-04-10 10:03:04     1url3   url5  
cookie1 2015-04-10 10:50:05     url6    url5  
cookie1 2015-04-10 11:00:00     url7    url5  
cookie1 2015-04-10 10:10:00     url4    url5  
cookie1 2015-04-10 10:50:01     url5    url5  
cookie2 2015-04-10 10:00:02     url22   url55  
cookie2 2015-04-10 10:00:00     url11   url55  
cookie2 2015-04-10 10:03:04     1url33  url55  
cookie2 2015-04-10 10:50:05     url66   url55  
cookie2 2015-04-10 11:00:00     url77   url55  
cookie2 2015-04-10 10:10:00     url44   url55  
cookie2 2015-04-10 10:50:01     url55   url55  

分析函数

  1. ROW_NUMBER() 从1开始,按照顺序,生成分组内记录的序列,比如,按照pv降序排列,生成分组内每天的pv名次,ROW_NUMBER()的应用场景非常多,再比如,获取分组内排序第一的记录,获取一个session中的第一条refer等
  2. RANK() 生成数据项在分组中的排名,排名相等会在名次中留下空位
  3. DENSE_RANK() 生成数据项在分组中的排名,排名相等会在名次中不会留下空位
  4. CUME_DIST() 小于等于当前值的行数除以分组内总行数。比如,统计小于等于当前薪水的人数所占总人数的比例
  5. PERCENT_RANK() 分组内当前行的RANK值-1/分组内 总行数-1
  6. NTILE(n) 用于将分组数据按照顺序切分成n片,返回当前切片值,如果切片不均匀,默认增加第一个切片的分布。NTILE不支持ROWS BETWEEN,比如NTILE(2) OVER(PARTITION BY cookieid ORDER BY createtime ROWS BETWEEN 3 PERCEDING AND CURRENT ROW)

累计操作:sum

## 创建数据表
create table orders(user_id string,device_id string,user_type string,price float,sales int);## 添加数据orders.txt
zhangsa test1   new     67.1    2
lisi    test2   old     43.32   1
wanger  test3   new     88.88   3
liliu   test4   new     66.0    1
tom     test5   new     54.32   1
tomas   test6   old     77.77   2
tomson  test7   old     88.44   3
tom1    test8   new     56.55   6
tom2    test9   new     88.88   5
tom3    test10  new     66.66   5## 开窗函数案例
selectuser_id,user_type,sales,-- 默认从起点到当前所有重复行sum(sales) over(partition by user_type order by sales asc) as sales_1,-- 从起点到当前所有重复行与sales_1结果相同sum(sales) over(partition by user_type order by sales asc range between unbounded preceding and current row) as sales_2,-- 从起点到当前行,结果与sale_1结果不同sum(sales) over(partition by user_type order by sales asc rows between unbounded preceding and current row) as sales_3,-- 当前行加上往前3sum(sales) over(partition by user_type order by sales asc rows between 3 preceding and current row) as sales_4,-- 当前范围往上加3sum(sales) over(partition by user_type order by sales asc range between 3 preceding and current row) as sales_5,-- 当前行+往前3行+往后1sum(sales) over(partition by user_type order by sales asc rows between 3 preceding and 1 following) as sales_6,--sum(sales) over(partition by user_type order by sales asc range between 3 preceding and 1 following) as sales_7,-- 当前行+之后所有行sum(sales) over(partition by user_type order by sales asc rows between current row and unbounded following) as sales_8,--sum(sales) over(partition by user_type order by sales asc range between current row and unbounded following) as sales_9,-- 分组内所有行sum(sales) over(partition by user_type) as sales_10
fromorders
order byuser_type,sales,user_id;##上述查询结果如下:| user_id  | user_type  | sales  | sales_1  | sales_2  | sales_3  | sales_4  | sales_5  | sales_6  | sales_7  | sales_8  | sales_9  | sales_10  |
|----------|------------|--------|----------|----------|----------|----------|----------|----------|----------|----------|----------|-----------|
| liliu    | new        | 1      | 2        | 2        | 2        | 2        | 2        | 4        | 4        | 22       | 23       | 23        |
| tom      | new        | 1      | 2        | 2        | 1        | 1        | 2        | 2        | 4        | 23       | 23       | 23        |
| zhangsa  | new        | 2      | 4        | 4        | 4        | 4        | 4        | 7        | 7        | 21       | 21       | 23        |
| wanger   | new        | 3      | 7        | 7        | 7        | 7        | 7        | 12       | 7        | 19       | 19       | 23        |
| tom2     | new        | 5      | 17       | 17       | 17       | 15       | 15       | 21       | 21       | 11       | 16       | 23        |
| tom3     | new        | 5      | 17       | 17       | 12       | 11       | 15       | 16       | 21       | 16       | 16       | 23        |
| tom1     | new        | 6      | 23       | 23       | 23       | 19       | 19       | 19       | 19       | 6        | 6        | 23        |
| lisi     | old        | 1      | 1        | 1        | 1        | 1        | 1        | 3        | 3        | 6        | 6        | 6         |
| tomas    | old        | 2      | 3        | 3        | 3        | 3        | 3        | 6        | 6        | 5        | 5        | 6         |
| tomson   | old        | 3      | 6        | 6        | 6        | 6        | 6        | 6        | 6        | 3        | 3        | 6         |
注意

RANK、ROW_NUMBER、DENSE_RANK

select
user_id,user_type,sales,
RANK() over (partition by user_type order by sales desc) as r,
ROW_NUMBER() over (partition by user_type order by sales desc) as rn,
DENSE_RANK() over (partition by user_type order by sales desc) as dr
from
orders;##上述查询结果如下| user_id | user_type | sales |  r  | rn  | dr  |
| ------- | --------- | ----- | --- | --- | --- |
| tom1    | new       | 6     | 1   | 1   | 1   |
| tom3    | new       | 5     | 2   | 2   | 2   |
| tom2    | new       | 5     | 2   | 3   | 2   |
| wanger  | new       | 3     | 4   | 4   | 3   |
| zhangsa | new       | 2     | 5   | 5   | 4   |
| tom     | new       | 1     | 6   | 6   | 5   |
| liliu   | new       | 1     | 6   | 7   | 5   |
| tomson  | old       | 3     | 1   | 1   | 1   |
| tomas   | old       | 2     | 2   | 2   | 2   |
| lisi    | old       | 1     | 3   | 3   | 3   |

这篇关于【hive 函数】Hive分析函数和窗口函数的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1144318

相关文章

Java程序进程起来了但是不打印日志的原因分析

《Java程序进程起来了但是不打印日志的原因分析》:本文主要介绍Java程序进程起来了但是不打印日志的原因分析,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录Java程序进程起来了但是不打印日志的原因1、日志配置问题2、日志文件权限问题3、日志文件路径问题4、程序

Java字符串操作技巧之语法、示例与应用场景分析

《Java字符串操作技巧之语法、示例与应用场景分析》在Java算法题和日常开发中,字符串处理是必备的核心技能,本文全面梳理Java中字符串的常用操作语法,结合代码示例、应用场景和避坑指南,可快速掌握字... 目录引言1. 基础操作1.1 创建字符串1.2 获取长度1.3 访问字符2. 字符串处理2.1 子字

shell编程之函数与数组的使用详解

《shell编程之函数与数组的使用详解》:本文主要介绍shell编程之函数与数组的使用,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录shell函数函数的用法俩个数求和系统资源监控并报警函数函数变量的作用范围函数的参数递归函数shell数组获取数组的长度读取某下的

MySQL高级查询之JOIN、子查询、窗口函数实际案例

《MySQL高级查询之JOIN、子查询、窗口函数实际案例》:本文主要介绍MySQL高级查询之JOIN、子查询、窗口函数实际案例的相关资料,JOIN用于多表关联查询,子查询用于数据筛选和过滤,窗口函... 目录前言1. JOIN(连接查询)1.1 内连接(INNER JOIN)1.2 左连接(LEFT JOI

MySQL中FIND_IN_SET函数与INSTR函数用法解析

《MySQL中FIND_IN_SET函数与INSTR函数用法解析》:本文主要介绍MySQL中FIND_IN_SET函数与INSTR函数用法解析,本文通过实例代码给大家介绍的非常详细,感兴趣的朋友一... 目录一、功能定义与语法1、FIND_IN_SET函数2、INSTR函数二、本质区别对比三、实际场景案例分

Python 迭代器和生成器概念及场景分析

《Python迭代器和生成器概念及场景分析》yield是Python中实现惰性计算和协程的核心工具,结合send()、throw()、close()等方法,能够构建高效、灵活的数据流和控制流模型,这... 目录迭代器的介绍自定义迭代器省略的迭代器生产器的介绍yield的普通用法yield的高级用法yidle

C++ Sort函数使用场景分析

《C++Sort函数使用场景分析》sort函数是algorithm库下的一个函数,sort函数是不稳定的,即大小相同的元素在排序后相对顺序可能发生改变,如果某些场景需要保持相同元素间的相对顺序,可使... 目录C++ Sort函数详解一、sort函数调用的两种方式二、sort函数使用场景三、sort函数排序

C语言函数递归实际应用举例详解

《C语言函数递归实际应用举例详解》程序调用自身的编程技巧称为递归,递归做为一种算法在程序设计语言中广泛应用,:本文主要介绍C语言函数递归实际应用举例的相关资料,文中通过代码介绍的非常详细,需要的朋... 目录前言一、递归的概念与思想二、递归的限制条件 三、递归的实际应用举例(一)求 n 的阶乘(二)顺序打印

C/C++错误信息处理的常见方法及函数

《C/C++错误信息处理的常见方法及函数》C/C++是两种广泛使用的编程语言,特别是在系统编程、嵌入式开发以及高性能计算领域,:本文主要介绍C/C++错误信息处理的常见方法及函数,文中通过代码介绍... 目录前言1. errno 和 perror()示例:2. strerror()示例:3. perror(

kotlin中const 和val的区别及使用场景分析

《kotlin中const和val的区别及使用场景分析》在Kotlin中,const和val都是用来声明常量的,但它们的使用场景和功能有所不同,下面给大家介绍kotlin中const和val的区别,... 目录kotlin中const 和val的区别1. val:2. const:二 代码示例1 Java