hive中UDF、UDTF、UDAF快速上手

2024-01-05 02:58
文章标签 快速 hive udaf udf udtf

本文主要是介绍hive中UDF、UDTF、UDAF快速上手,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

在hive中新建表”apache_log”

CREATE TABLE apachelog (host STRING,identity STRING,user STRING,time STRING,request STRING,status STRING,size STRING,referer STRING,agent STRING)
ROW FORMAT SERDE 'org.apache.hadoop.hive.serde2.RegexSerDe'
WITH SERDEPROPERTIES ("input.regex" = "([^ ]*) ([^ ]*) ([^ ]*) (-|\\[[^\\]*\\]]) ([^ \"]*|\"[^\"]*\") (-|[0-9]*) (-|[0-9]*) (?: ([^ \"]*|\".*\") ([^ \"]*|\".*\"))?"
)
STORED AS TEXTFILE;
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12
  • 13
  • 14
  • 15

这个是官方给出的实例,但是是错的。 
这里写图片描述
不过,已经有人给做出了修改。 
这里写图片描述
这里写图片描述

接下来结合一些样例数据(样例数据会在评论中给出下载连接):

27.19.74.143 - - [29/April/2016:17:38:20 +0800] "GET /static/image/common/faq.gif HTTP/1.1" 200 1127
110.52.250.126 - - [29/April/2016:17:38:20 +0800] "GET /data/cache/style_1_widthauto.css?y7a HTTP/1.1" 200 1292
27.19.74.143 - - [29/April/2016:17:38:20 +0800] "GET /static/image/common/hot_1.gif HTTP/1.1" 200 680
27.19.74.143 - - [29/April/2016:17:38:20 +0800] "GET /static/image/common/hot_2.gif HTTP/1.1" 200 682
27.19.74.143 - - [29/April/2016:17:38:20 +0800] "GET /static/image/filetype/common.gif HTTP/1.1" 200 90
110.52.250.126 - - [29/April/2016:17:38:20 +0800] "GET /source/plugin/wsh_wx/img/wsh_zk.css HTTP/1.1" 200 1482
110.52.250.126 - - [29/April/2016:17:38:20 +0800] "GET /data/cache/style_1_forum_index.css?y7a HTTP/1.1" 200 2331
110.52.250.126 - - [29/April/2016:17:38:20 +0800] "GET /source/plugin/wsh_wx/img/wx_jqr.gif HTTP/1.1" 200 1770
27.19.74.143 - - [29/April/2016:17:38:20 +0800] "GET /static/image/common/recommend_1.gif HTTP/1.1" 200 1028
110.52.250.126 - - [29/April/2016:17:38:20 +0800] "GET /static/image/common/logo.png HTTP/1.1" 200 4542
......
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11

这个是apache服务器的日志信息,一共七个字段,分别表示:”host”、”identity”、”user”、”time”、”request”、”status”、”size”,在hive官网上是有九个字段的,剩下两个为:”referer”、”agent”。 
我们根据这些数据,从一些小需求中来体会一下这三种函数。

UDF(user-defined functions) 
“小”需求: 
提取”time”,转换成”yyyy-MM-dd HH:mm:ss” 格式。

要点: 
1.继承自“org.apache.hadoop.hive.ql.exec.UDF”; 
2.实现”evaluate()”方法。

*JAVA 代码*
package com.hadoop.hivetest.udf;import java.text.ParseException;
import java.text.SimpleDateFormat;
import java.util.Date;
import java.util.Locale;import org.apache.hadoop.hive.ql.exec.UDF;public class MyDateParser extends UDF{public String evaluate(String s){SimpleDateFormat formator = new SimpleDateFormat("dd/MMMMM/yyyy:HH:mm:ss Z",Locale.ENGLISH);if(s.indexOf("[")>-1){s = s.replace("[", "");}if(s.indexOf("]")>-1){s = s.replace("]", "");}try {//将输入的string转换成date数据类型Date date = formator.parse(s);SimpleDateFormat rformator = new SimpleDateFormat("yyyy-MM-dd HH:mm:ss");return rformator.format(date);} catch (ParseException e) {e.printStackTrace();return "";}}
}
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12
  • 13
  • 14
  • 15
  • 16
  • 17
  • 18
  • 19
  • 20
  • 21
  • 22
  • 23
  • 24
  • 25
  • 26
  • 27
  • 28
  • 29
  • 30
  • 31

小插曲 
导出为jar包,发送到Linux上。这次我们可以使用 editplus 编辑器来上传:

– 打开editplus,选择”File—FTP—FTP Setting” – 
这里写图片描述

– 选择添加 – 
这里写图片描述 
并且在相应的字段上填上值,对于”Subdirectory”这一项要填写的是你希望上传到Linux上的哪个目录。

– 点击”Advanced Options” – 
这里写图片描述 
之后便可以一路OK回去。

– 选择FTP Upload – 
这里写图片描述 
在这里找到要上传的文件,选择要上传到哪一个账户上,并选择”Upload”即可。

然后我们就可以在”Subdirectory”中写到的目录下去找我们的文件了。 
这里写图片描述
– 小插曲结束 –

之后我们使用beeline客户端来连接hive 
这里写图片描述
然后我们可以新建一个数据库,并使用之前的建表语句来创建”apache_log”,并导入数据(默认大家都会了^.^)。 
这里写图片描述

Step 1: add jar “jar-path” 
这里写图片描述

Step 2: create function timeparse as ‘包名+类名’ 
这里写图片描述

Step 3: 使用该函数 
这里写图片描述
对比之前我们导入的数据 
这里写图片描述

UDTF(user-defined table-generating functions) 
“小”需求: 
针对”request”字段,将其拆分,获取到用户的请求连接。 
第一部分表示请求的方式,第二部分为用户请求的连接,第三部分为协及版本号。

要点: 
1.继承自”org.apache.hadoop.hive.ql.udf.generic.GenericUDTF”; 
2.实现initialize()、process()、close()三个方法。

*JAVA代码
package com.hadoop.hivetest.udf;import java.util.ArrayList;import org.apache.hadoop.hive.ql.exec.UDFArgumentException;
import org.apache.hadoop.hive.ql.metadata.HiveException;
import org.apache.hadoop.hive.ql.udf.generic.GenericUDTF;
import org.apache.hadoop.hive.serde2.objectinspector.ObjectInspector;
import org.apache.hadoop.hive.serde2.objectinspector.ObjectInspectorFactory;
import org.apache.hadoop.hive.serde2.objectinspector.StructObjectInspector;
import org.apache.hadoop.hive.serde2.objectinspector.primitive.PrimitiveObjectInspectorFactory;public class MyRequestParser extends GenericUDTF {@Overridepublic StructObjectInspector initialize(ObjectInspector[] arg0) throws UDFArgumentException {if(arg0.length != 1){throw new UDFArgumentException("参数不正确。");}ArrayList<String> fieldNames = new ArrayList<String>();ArrayList<ObjectInspector> fieldOIs = new ArrayList<ObjectInspector>();//添加返回字段设置fieldNames.add("rcol1");fieldOIs.add(PrimitiveObjectInspectorFactory.javaStringObjectInspector);fieldNames.add("rcol2");fieldOIs.add(PrimitiveObjectInspectorFactory.javaStringObjectInspector);fieldNames.add("rcol3");fieldOIs.add(PrimitiveObjectInspectorFactory.javaStringObjectInspector);//将返回字段设置到该UDTF的返回值类型中return ObjectInspectorFactory.getStandardStructObjectInspector(fieldNames, fieldOIs);   }@Overridepublic void close() throws HiveException {}//处理函数的输入并且输出结果的过程@Overridepublic void process(Object[] args) throws HiveException {String input = args[0].toString();input = input.replace("\"", "");String[] result = input.split(" ");//如果解析错误或失败,则返回三个字段内容都是"--"if(result.length != 3){result[0] = "--";result[1] = "--";result[2] = "--";}forward(result);} 
}
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12
  • 13
  • 14
  • 15
  • 16
  • 17
  • 18
  • 19
  • 20
  • 21
  • 22
  • 23
  • 24
  • 25
  • 26
  • 27
  • 28
  • 29
  • 30
  • 31
  • 32
  • 33
  • 34
  • 35
  • 36
  • 37
  • 38
  • 39
  • 40
  • 41
  • 42
  • 43
  • 44
  • 45
  • 46
  • 47
  • 48
  • 49
  • 50
  • 51
  • 52
  • 53
  • 54
  • 55
  • 56
  • 57
  • 58
  • 59

依照上面的步骤,导出jar包,上传到Linux服务器上。在此不再赘述,其实是攒着另一种上传文件的方式,下次教给大家。

Step 1: add jar “jar-path” 

Step 2: create function requestparse as ‘包名+类名’ 
这里写图片描述

Step 3: 使用该函数 
这里写图片描述
对比我们之前导入的数据 
这里写图片描述

UDAF(user-defined aggregation functions) 
“小”需求: 
求出最大的流量值

要点: 
1.继承自”org.apache.hadoop.hive.ql.exec.UDAF”; 
2.自定义的内部类要实现接口”org.apache.hadoop.hive.ql.exec.UDAFEvaluator”; 
3.要实现iterate()、terminatePartial()、merge()、terminate()四个方法。

*JAVA代码
package com.hadoop.hivetest.udf;import org.apache.hadoop.hive.ql.exec.UDAF;
import org.apache.hadoop.hive.ql.exec.UDAFEvaluator;
import org.apache.hadoop.io.IntWritable;@SuppressWarnings("deprecation")
public class MaxFlowUDAF extends UDAF {public static class MaxNumberUDAFEvaluator implements UDAFEvaluator{private IntWritable result;public void init() {result = null;}//聚合的多行中每行的被聚合的值都会被调用interate方法,所以这个方法里面我们来定义聚合规则public boolean iterate(IntWritable value){if(value == null){return false;}if(result == null){result = new IntWritable(value.get());}else{//需求是求出流量最大值,在这里进行流量的比较,将最大值放入resultresult.set(Math.max(result.get(), value.get()));}return true;}//hive需要部分聚合结果时会调用该方法,返回当前的result作为hive取部分聚合值得结果public IntWritable terminatePartial(){return result;}//聚合值,新行未被处理的值会调用merge加入聚合,这里直接调用上面定义的聚合规则方法iteratepublic boolean merge(IntWritable other){return iterate(other);}//hive需要最后总聚合结果时调用的方法,返回聚合的最终结果public IntWritable terminate(){return result;}}
}
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12
  • 13
  • 14
  • 15
  • 16
  • 17
  • 18
  • 19
  • 20
  • 21
  • 22
  • 23
  • 24
  • 25
  • 26
  • 27
  • 28
  • 29
  • 30
  • 31
  • 32
  • 33
  • 34
  • 35
  • 36
  • 37
  • 38
  • 39
  • 40
  • 41
  • 42
  • 43
  • 44
  • 45
  • 46

导出jar包,上传到Linux服务器…

Step 1: add jar ‘jar-path’ 

Step 2: create function maxflow as ‘包名+类名’ 
这里写图片描述

Step 3: 使用该函数 
这里写图片描述
于是此时,hive便会将sql语句转换为mapreduce任务去执行了。 
这里写图片描述

当我们创建函数之后,得出的结果却不是想要的结果的时候,我们将Java代码修改之后,重新打了包上传过来,也重新加到了hive的classpath中,但是新创建出来的函数得出的结果跟修改之前的一样。这个因为新修改过后的类名与之前的类名重复了,在当前session中会优先以之前的来创建函数。此时有两种办法解决,一是断开当前的连接,重新使用beeline客户端登陆一次,还有就是将修改后的Java类改一个名称,重新导入,使用新的Java类来创建函数。

当然,这些才都只是 UDF 的小皮毛,我们可以发现,通过自定义函数,我们可以省去写很多sql,并且通过使用api,我们可以更随意的操作数据库里的字段,实现多种计算和统计。

这篇关于hive中UDF、UDTF、UDAF快速上手的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/571449

相关文章

电脑桌面文件删除了怎么找回来?别急,快速恢复攻略在此

在日常使用电脑的过程中,我们经常会遇到这样的情况:一不小心,桌面上的某个重要文件被删除了。这时,大多数人可能会感到惊慌失措,不知所措。 其实,不必过于担心,因为有很多方法可以帮助我们找回被删除的桌面文件。下面,就让我们一起来了解一下这些恢复桌面文件的方法吧。 一、使用撤销操作 如果我们刚刚删除了桌面上的文件,并且还没有进行其他操作,那么可以尝试使用撤销操作来恢复文件。在键盘上同时按下“C

hdu 4565 推倒公式+矩阵快速幂

题意 求下式的值: Sn=⌈ (a+b√)n⌉%m S_n = \lceil\ (a + \sqrt{b}) ^ n \rceil\% m 其中: 0<a,m<215 0< a, m < 2^{15} 0<b,n<231 0 < b, n < 2^{31} (a−1)2<b<a2 (a-1)^2< b < a^2 解析 令: An=(a+b√)n A_n = (a +

v0.dev快速开发

探索v0.dev:次世代开发者之利器 今之技艺日新月异,开发者之工具亦随之进步不辍。v0.dev者,新兴之开发者利器也,迅速引起众多开发者之瞩目。本文将引汝探究v0.dev之基本功能与优势,助汝速速上手,提升开发之效率。 何谓v0.dev? v0.dev者,现代化之开发者工具也,旨在简化并加速软件开发之过程。其集多种功能于一体,助开发者高效编写、测试及部署代码。无论汝为前端开发者、后端开发者

利用Django框架快速构建Web应用:从零到上线

随着互联网的发展,Web应用的需求日益增长,而Django作为一个高级的Python Web框架,以其强大的功能和灵活的架构,成为了众多开发者的选择。本文将指导你如何从零开始使用Django框架构建一个简单的Web应用,并将其部署到线上,让世界看到你的作品。 Django简介 Django是由Adrian Holovaty和Simon Willison于2005年开发的一个开源框架,旨在简

CentOs7上Mysql快速迁移脚本

因公司业务需要,对原来在/usr/local/mysql/data目录下的数据迁移到/data/local/mysql/mysqlData。 原因是系统盘太小,只有20G,几下就快满了。 参考过几篇文章,基于大神们的思路,我封装成了.sh脚本。 步骤如下: 1) 先修改好/etc/my.cnf,        ##[mysqld]       ##datadir=/data/loc

SAM2POINT:以zero-shot且快速的方式将任何 3D 视频分割为视频

摘要 我们介绍 SAM2POINT,这是一种采用 Segment Anything Model 2 (SAM 2) 进行零样本和快速 3D 分割的初步探索。 SAM2POINT 将任何 3D 数据解释为一系列多向视频,并利用 SAM 2 进行 3D 空间分割,无需进一步训练或 2D-3D 投影。 我们的框架支持各种提示类型,包括 3D 点、框和掩模,并且可以泛化到不同的场景,例如 3D 对象、室

UE5 半透明阴影 快速解决方案

Step 1: 打开该选项 Step 2: 将半透明材质给到模型后,设置光照的Shadow Resolution Scale,越大,阴影的效果越好

快速排序(java代码实现)

简介: 1.采用“分治”的思想,对于一组数据,选择一个基准元素,这里选择中间元素mid 2.通过第一轮扫描,比mid小的元素都在mid左边,比mid大的元素都在mid右边 3.然后使用递归排序这两部分,直到序列中所有数据均有序为止。 public class csdnTest {public static void main(String[] args){int[] arr = {3,

快速幂(基础算法)

文章目录 目的基本例子暴力代码思路讲解优化(即快速幂)位运算写法(终极优化) 目的 减小时间复杂度 基本例子 a的b次方,最后取模 暴力代码 long long ans=1;long long a,b;for(long long i=1;i<=b;i++){ans*=a;}ans%=c; 当数据大的时候就不行了 思路讲解 3¹⁰=(3²)⁵= 9⁵ =

Kafka (快速)安装部署

文章目录 1、软件下载&配置环境1_JDK安装2_Zookeeper安装3_Kafka安装 2、单机安装1_配置主机名和IP映射2_单机Kafka配置 3、集群安装1_配置主机名和IP的映射关系2_时钟同步3_Zookeeper配置信息4_集群Kafka配置 4、kafka的其他脚本命令 1、软件下载&配置环境 下面的操作无论是单机部署还是分布式集群环境下都是通用的。 准