【hive 函数】Hive分析函数和窗口函数

2024-09-07 06:32
文章标签 分析 函数 窗口 hive

本文主要是介绍【hive 函数】Hive分析函数和窗口函数,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

拿一个例子来说
数据集:

cookie1,2015-04-10 10:00:02,url2  
cookie1,2015-04-10 10:00:00,url1  
cookie1,2015-04-10 10:03:04,1url3  
cookie1,2015-04-10 10:50:05,url6  
cookie1,2015-04-10 11:00:00,url7  
cookie1,2015-04-10 10:10:00,url4  
cookie1,2015-04-10 10:50:01,url5  
cookie2,2015-04-10 10:00:02,url22  
cookie2,2015-04-10 10:00:00,url11  
cookie2,2015-04-10 10:03:04,1url33  
cookie2,2015-04-10 10:50:05,url66  
cookie2,2015-04-10 11:00:00,url77  
cookie2,2015-04-10 10:10:00,url44  
cookie2,2015-04-10 10:50:01,url55  

窗口函数

  1. FIRST_VALUE 取出分组内排序后,截止到当前行,第一个值
  2. LAST_VALUE 取出分组内排序后,截止到当前行,最后一个值
  3. LEAD(col, n,DEFAULT) 用于统计窗口内往下第n行的值。第一个参数为列名,第二个参数为往下第n行(可选,默认为1),第三个参数为默认值(当往下第n行为NULL时,取默认值)
  4. LAG(col,n,DEFAULT) 与lead相反,用于统计窗口内往下第n个值。第一个参数为列名,第二个参数为往上第n行(可选,默认为1)

FIRST_VALUE
取分组内排序后,截止到当前行,第一个值

SELECT cookieid,  
createtime,  
url,  
ROW_NUMBER() OVER(PARTITION BY cookieid ORDER BY createtime) AS rn,  
FIRST_VALUE(url) OVER(PARTITION BY cookieid ORDER BY createtime) AS first1  
FROM lxw1234;  cookieid  createtime            url     rn      first1  
---------------------------------------------------------  
cookie1 2015-04-10 10:00:00     url1    1       url1  
cookie1 2015-04-10 10:00:02     url2    2       url1  
cookie1 2015-04-10 10:03:04     1url3   3       url1  
cookie1 2015-04-10 10:10:00     url4    4       url1  
cookie1 2015-04-10 10:50:01     url5    5       url1  
cookie1 2015-04-10 10:50:05     url6    6       url1  
cookie1 2015-04-10 11:00:00     url7    7       url1  
cookie2 2015-04-10 10:00:00     url11   1       url11  
cookie2 2015-04-10 10:00:02     url22   2       url11  
cookie2 2015-04-10 10:03:04     1url33  3       url11  
cookie2 2015-04-10 10:10:00     url44   4       url11  
cookie2 2015-04-10 10:50:01     url55   5       url11  
cookie2 2015-04-10 10:50:05     url66   6       url11  
cookie2 2015-04-10 11:00:00     url77   7       url11  

LAST_VALUE

取分组内排序后,截止到当前行,最后一个值

SELECT cookieid,  
createtime,  
url,  
LAST_VALUE(url) OVER(PARTITION BY cookieid) AS last2    
FROM lxw1234;  cookieid  createtime            url     last2  
----------------------------------------------  
cookie1 2015-04-10 10:00:02     url2    url5  
cookie1 2015-04-10 10:00:00     url1    url5  
cookie1 2015-04-10 10:03:04     1url3   url5  
cookie1 2015-04-10 10:50:05     url6    url5  
cookie1 2015-04-10 11:00:00     url7    url5  
cookie1 2015-04-10 10:10:00     url4    url5  
cookie1 2015-04-10 10:50:01     url5    url5  
cookie2 2015-04-10 10:00:02     url22   url55  
cookie2 2015-04-10 10:00:00     url11   url55  
cookie2 2015-04-10 10:03:04     1url33  url55  
cookie2 2015-04-10 10:50:05     url66   url55  
cookie2 2015-04-10 11:00:00     url77   url55  
cookie2 2015-04-10 10:10:00     url44   url55  
cookie2 2015-04-10 10:50:01     url55   url55  

分析函数

  1. ROW_NUMBER() 从1开始,按照顺序,生成分组内记录的序列,比如,按照pv降序排列,生成分组内每天的pv名次,ROW_NUMBER()的应用场景非常多,再比如,获取分组内排序第一的记录,获取一个session中的第一条refer等
  2. RANK() 生成数据项在分组中的排名,排名相等会在名次中留下空位
  3. DENSE_RANK() 生成数据项在分组中的排名,排名相等会在名次中不会留下空位
  4. CUME_DIST() 小于等于当前值的行数除以分组内总行数。比如,统计小于等于当前薪水的人数所占总人数的比例
  5. PERCENT_RANK() 分组内当前行的RANK值-1/分组内 总行数-1
  6. NTILE(n) 用于将分组数据按照顺序切分成n片,返回当前切片值,如果切片不均匀,默认增加第一个切片的分布。NTILE不支持ROWS BETWEEN,比如NTILE(2) OVER(PARTITION BY cookieid ORDER BY createtime ROWS BETWEEN 3 PERCEDING AND CURRENT ROW)

累计操作:sum

## 创建数据表
create table orders(user_id string,device_id string,user_type string,price float,sales int);## 添加数据orders.txt
zhangsa test1   new     67.1    2
lisi    test2   old     43.32   1
wanger  test3   new     88.88   3
liliu   test4   new     66.0    1
tom     test5   new     54.32   1
tomas   test6   old     77.77   2
tomson  test7   old     88.44   3
tom1    test8   new     56.55   6
tom2    test9   new     88.88   5
tom3    test10  new     66.66   5## 开窗函数案例
selectuser_id,user_type,sales,-- 默认从起点到当前所有重复行sum(sales) over(partition by user_type order by sales asc) as sales_1,-- 从起点到当前所有重复行与sales_1结果相同sum(sales) over(partition by user_type order by sales asc range between unbounded preceding and current row) as sales_2,-- 从起点到当前行,结果与sale_1结果不同sum(sales) over(partition by user_type order by sales asc rows between unbounded preceding and current row) as sales_3,-- 当前行加上往前3sum(sales) over(partition by user_type order by sales asc rows between 3 preceding and current row) as sales_4,-- 当前范围往上加3sum(sales) over(partition by user_type order by sales asc range between 3 preceding and current row) as sales_5,-- 当前行+往前3行+往后1sum(sales) over(partition by user_type order by sales asc rows between 3 preceding and 1 following) as sales_6,--sum(sales) over(partition by user_type order by sales asc range between 3 preceding and 1 following) as sales_7,-- 当前行+之后所有行sum(sales) over(partition by user_type order by sales asc rows between current row and unbounded following) as sales_8,--sum(sales) over(partition by user_type order by sales asc range between current row and unbounded following) as sales_9,-- 分组内所有行sum(sales) over(partition by user_type) as sales_10
fromorders
order byuser_type,sales,user_id;##上述查询结果如下:| user_id  | user_type  | sales  | sales_1  | sales_2  | sales_3  | sales_4  | sales_5  | sales_6  | sales_7  | sales_8  | sales_9  | sales_10  |
|----------|------------|--------|----------|----------|----------|----------|----------|----------|----------|----------|----------|-----------|
| liliu    | new        | 1      | 2        | 2        | 2        | 2        | 2        | 4        | 4        | 22       | 23       | 23        |
| tom      | new        | 1      | 2        | 2        | 1        | 1        | 2        | 2        | 4        | 23       | 23       | 23        |
| zhangsa  | new        | 2      | 4        | 4        | 4        | 4        | 4        | 7        | 7        | 21       | 21       | 23        |
| wanger   | new        | 3      | 7        | 7        | 7        | 7        | 7        | 12       | 7        | 19       | 19       | 23        |
| tom2     | new        | 5      | 17       | 17       | 17       | 15       | 15       | 21       | 21       | 11       | 16       | 23        |
| tom3     | new        | 5      | 17       | 17       | 12       | 11       | 15       | 16       | 21       | 16       | 16       | 23        |
| tom1     | new        | 6      | 23       | 23       | 23       | 19       | 19       | 19       | 19       | 6        | 6        | 23        |
| lisi     | old        | 1      | 1        | 1        | 1        | 1        | 1        | 3        | 3        | 6        | 6        | 6         |
| tomas    | old        | 2      | 3        | 3        | 3        | 3        | 3        | 6        | 6        | 5        | 5        | 6         |
| tomson   | old        | 3      | 6        | 6        | 6        | 6        | 6        | 6        | 6        | 3        | 3        | 6         |
注意

RANK、ROW_NUMBER、DENSE_RANK

select
user_id,user_type,sales,
RANK() over (partition by user_type order by sales desc) as r,
ROW_NUMBER() over (partition by user_type order by sales desc) as rn,
DENSE_RANK() over (partition by user_type order by sales desc) as dr
from
orders;##上述查询结果如下| user_id | user_type | sales |  r  | rn  | dr  |
| ------- | --------- | ----- | --- | --- | --- |
| tom1    | new       | 6     | 1   | 1   | 1   |
| tom3    | new       | 5     | 2   | 2   | 2   |
| tom2    | new       | 5     | 2   | 3   | 2   |
| wanger  | new       | 3     | 4   | 4   | 3   |
| zhangsa | new       | 2     | 5   | 5   | 4   |
| tom     | new       | 1     | 6   | 6   | 5   |
| liliu   | new       | 1     | 6   | 7   | 5   |
| tomson  | old       | 3     | 1   | 1   | 1   |
| tomas   | old       | 2     | 2   | 2   | 2   |
| lisi    | old       | 1     | 3   | 3   | 3   |

这篇关于【hive 函数】Hive分析函数和窗口函数的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1144318

相关文章

Spring事务中@Transactional注解不生效的原因分析与解决

《Spring事务中@Transactional注解不生效的原因分析与解决》在Spring框架中,@Transactional注解是管理数据库事务的核心方式,本文将深入分析事务自调用的底层原理,解释为... 目录1. 引言2. 事务自调用问题重现2.1 示例代码2.2 问题现象3. 为什么事务自调用会失效3

找不到Anaconda prompt终端的原因分析及解决方案

《找不到Anacondaprompt终端的原因分析及解决方案》因为anaconda还没有初始化,在安装anaconda的过程中,有一行是否要添加anaconda到菜单目录中,由于没有勾选,导致没有菜... 目录问题原因问http://www.chinasem.cn题解决安装了 Anaconda 却找不到 An

Spring定时任务只执行一次的原因分析与解决方案

《Spring定时任务只执行一次的原因分析与解决方案》在使用Spring的@Scheduled定时任务时,你是否遇到过任务只执行一次,后续不再触发的情况?这种情况可能由多种原因导致,如未启用调度、线程... 目录1. 问题背景2. Spring定时任务的基本用法3. 为什么定时任务只执行一次?3.1 未启用

Android Kotlin 高阶函数详解及其在协程中的应用小结

《AndroidKotlin高阶函数详解及其在协程中的应用小结》高阶函数是Kotlin中的一个重要特性,它能够将函数作为一等公民(First-ClassCitizen),使得代码更加简洁、灵活和可... 目录1. 引言2. 什么是高阶函数?3. 高阶函数的基础用法3.1 传递函数作为参数3.2 Lambda

C++中::SHCreateDirectoryEx函数使用方法

《C++中::SHCreateDirectoryEx函数使用方法》::SHCreateDirectoryEx用于创建多级目录,类似于mkdir-p命令,本文主要介绍了C++中::SHCreateDir... 目录1. 函数原型与依赖项2. 基本使用示例示例 1:创建单层目录示例 2:创建多级目录3. 关键注

C++ 各种map特点对比分析

《C++各种map特点对比分析》文章比较了C++中不同类型的map(如std::map,std::unordered_map,std::multimap,std::unordered_multima... 目录特点比较C++ 示例代码 ​​​​​​代码解释特点比较1. std::map底层实现:基于红黑

C++中函数模板与类模板的简单使用及区别介绍

《C++中函数模板与类模板的简单使用及区别介绍》这篇文章介绍了C++中的模板机制,包括函数模板和类模板的概念、语法和实际应用,函数模板通过类型参数实现泛型操作,而类模板允许创建可处理多种数据类型的类,... 目录一、函数模板定义语法真实示例二、类模板三、关键区别四、注意事项 ‌在C++中,模板是实现泛型编程

kotlin的函数forEach示例详解

《kotlin的函数forEach示例详解》在Kotlin中,forEach是一个高阶函数,用于遍历集合中的每个元素并对其执行指定的操作,它的核心特点是简洁、函数式,适用于需要遍历集合且无需返回值的场... 目录一、基本用法1️⃣ 遍历集合2️⃣ 遍历数组3️⃣ 遍历 Map二、与 for 循环的区别三、高

Spring、Spring Boot、Spring Cloud 的区别与联系分析

《Spring、SpringBoot、SpringCloud的区别与联系分析》Spring、SpringBoot和SpringCloud是Java开发中常用的框架,分别针对企业级应用开发、快速开... 目录1. Spring 框架2. Spring Boot3. Spring Cloud总结1. Sprin

Spring 中 BeanFactoryPostProcessor 的作用和示例源码分析

《Spring中BeanFactoryPostProcessor的作用和示例源码分析》Spring的BeanFactoryPostProcessor是容器初始化的扩展接口,允许在Bean实例化前... 目录一、概览1. 核心定位2. 核心功能详解3. 关键特性二、Spring 内置的 BeanFactory