hive中自定义UDT,UDTF函数

2024-05-01 00:38
文章标签 函数 自定义 hive udtf udt

本文主要是介绍hive中自定义UDT,UDTF函数,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

自定函数

**** 自定义函数

1.Hive 自带了一些函数,比如:max/min 等,但是数量有限,自己可以通过自定义 UDF 来

方便的扩展。

2.当 Hive 提供的内置函数无法满足你的业务处理需要时,此时就可以考虑使用用户自定义

函数(UDF:user-defined function)。

3根据用户自定义函数类别分为以下三种:

(1)UDF(User-Defined-Function)

一进一出

(2)UDAF(User-Defined Aggregation Function)

聚集函数,多进一出

类似于:count/max/min

(3)UDTF(User-Defined Table-Generating Functions)

一进多出

如 lateral view explode()

1.使用idea自定义UDF函数

自定义一个 UDF 实现计算给定字符串的长度,例如:

hive(default)> select my_len("abcd"); 

1.创建maven工程

2.导入依赖

<dependencies><dependency><groupId>org.apache.hive</groupId><artifactId>hive-exec</artifactId><version>3.1.2</version></dependency></dependencies>

2.创建一个UDF类继承 GenericUDF 重写方法

package com.lhh.udf;import org.apache.hadoop.hive.ql.exec.UDFArgumentException;
import org.apache.hadoop.hive.ql.metadata.HiveException;
import org.apache.hadoop.hive.ql.udf.generic.GenericUDF;
import org.apache.hadoop.hive.serde2.objectinspector.ObjectInspector;
import org.apache.hadoop.hive.serde2.objectinspector.primitive.PrimitiveObjectInspectorFactory;/*** @program: hive-api* @description:* @author: 华仔* @create: 2021-03-25 22:43*/
//自定义 myudf
public class MyUDF extends GenericUDF {//初始化 校验数据参数个数public ObjectInspector initialize(ObjectInspector[] objectInspectors) throws UDFArgumentException {if (objectInspectors.length != 1) {throw new UDFArgumentException("参数个数不为1");}return PrimitiveObjectInspectorFactory.javaIntObjectInspector;}//计算 处理数据public Object evaluate(DeferredObject[] deferredObjects) throws HiveException {///取出数据String input = deferredObjects[0].get().toString();//判断数据是否为nullif (input == null) {return 0;}//返回输入数据的长度
//        return input.toUpperCase();//转大写
//        return input.toLowerCase();//转小写return input.length();}public String getDisplayString(String[] strings) {return "";}
}
2.自定义 UDTF 函数

1.需求

自定义一个 UDTF 实现将一个任意分割符的字符串切割成独立的单词,例如

hive(default)> select myudtf("hello,world,hadoop,hive", ",");
hello
world
hadoop
hive

2.代码实现

package com.lhh.udf;import org.apache.hadoop.hive.ql.exec.UDFArgumentException;
import org.apache.hadoop.hive.ql.metadata.HiveException;
import org.apache.hadoop.hive.ql.udf.generic.GenericUDTF;
import org.apache.hadoop.hive.serde2.objectinspector.ObjectInspector;
import org.apache.hadoop.hive.serde2.objectinspector.ObjectInspectorFactory;
import org.apache.hadoop.hive.serde2.objectinspector.StructObjectInspector;
import org.apache.hadoop.hive.serde2.objectinspector.primitive.PrimitiveObjectInspectorFactory;import java.util.ArrayList;
import java.util.List;/*** @program: hive-api* @description:* @author: 华仔* @create: 2021-03-25 23:23*/
//自定义myudtf/*** 输入数据: hello,atguigu,hive (stirng类型)* 输出数据 :* hello* atuigu* hive*/
public class MyUDTF extends GenericUDTF {//输出数据的集合private ArrayList<String> Output = new ArrayList<String>();//初始化 校验数据参数个数public StructObjectInspector initialize(ObjectInspector[] args) throws UDFArgumentException {//输出数据的默认列名,可以被别名覆盖List<String> fieldNames = new ArrayList<String>();fieldNames.add("word");//输出数据的类型List<ObjectInspector> fieldOIs = new ArrayList<ObjectInspector>();fieldOIs.add(PrimitiveObjectInspectorFactory.javaStringObjectInspector);return ObjectInspectorFactory.getStandardStructObjectInspector(fieldNames, fieldOIs);}//处理输入数据public void process(Object[] objects) throws HiveException {//第一步取出输入数据String input = objects[0].toString();//取出自己定义的分隔符 select my_udtf(name,',') String s1 = objects[1].toString();//按分割符拆分String[] split = input.split(s1);for (String s : split) {//清空集合Output.clear();//将数据添加到集合Output.add(s);//输出数据forward(Output);}}//首尾方法public void close() throws HiveException {}
}
3.在hive中使用自定义方法

1.将工程导成jar包放到 /opt/module/hive/lib/ 下面去

2.添加jar包

add jar /opt/module/hive/data/hive-demo-1.0-SNAPSHOT.jar;

3.为稳妥,直接ctrl +c 先退出一波

4.重新进来创建自定函数

 --UDFcreate temporary function my_len as 
"com.lhh.udf.MyUDF";--UDTFcreate temporary function my_udtf as 
"com.lhh.udf.MUDTF";

5.使用自定义函数

--UDF  计算长度
SELECT my_len('lhhhuazi') from test;
--UDTF
SELECT MY_UDTF(words,',') from test;

这篇关于hive中自定义UDT,UDTF函数的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/950313

相关文章

C/C++错误信息处理的常见方法及函数

《C/C++错误信息处理的常见方法及函数》C/C++是两种广泛使用的编程语言,特别是在系统编程、嵌入式开发以及高性能计算领域,:本文主要介绍C/C++错误信息处理的常见方法及函数,文中通过代码介绍... 目录前言1. errno 和 perror()示例:2. strerror()示例:3. perror(

Kotlin 作用域函数apply、let、run、with、also使用指南

《Kotlin作用域函数apply、let、run、with、also使用指南》在Kotlin开发中,作用域函数(ScopeFunctions)是一组能让代码更简洁、更函数式的高阶函数,本文将... 目录一、引言:为什么需要作用域函数?二、作用域函China编程数详解1. apply:对象配置的 “流式构建器”最

使用Sentinel自定义返回和实现区分来源方式

《使用Sentinel自定义返回和实现区分来源方式》:本文主要介绍使用Sentinel自定义返回和实现区分来源方式,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录Sentinel自定义返回和实现区分来源1. 自定义错误返回2. 实现区分来源总结Sentinel自定

Android Kotlin 高阶函数详解及其在协程中的应用小结

《AndroidKotlin高阶函数详解及其在协程中的应用小结》高阶函数是Kotlin中的一个重要特性,它能够将函数作为一等公民(First-ClassCitizen),使得代码更加简洁、灵活和可... 目录1. 引言2. 什么是高阶函数?3. 高阶函数的基础用法3.1 传递函数作为参数3.2 Lambda

如何自定义Nginx JSON日志格式配置

《如何自定义NginxJSON日志格式配置》Nginx作为最流行的Web服务器之一,其灵活的日志配置能力允许我们根据需求定制日志格式,本文将详细介绍如何配置Nginx以JSON格式记录访问日志,这种... 目录前言为什么选择jsON格式日志?配置步骤详解1. 安装Nginx服务2. 自定义JSON日志格式各

Android自定义Scrollbar的两种实现方式

《Android自定义Scrollbar的两种实现方式》本文介绍两种实现自定义滚动条的方法,分别通过ItemDecoration方案和独立View方案实现滚动条定制化,文章通过代码示例讲解的非常详细,... 目录方案一:ItemDecoration实现(推荐用于RecyclerView)实现原理完整代码实现

C++中::SHCreateDirectoryEx函数使用方法

《C++中::SHCreateDirectoryEx函数使用方法》::SHCreateDirectoryEx用于创建多级目录,类似于mkdir-p命令,本文主要介绍了C++中::SHCreateDir... 目录1. 函数原型与依赖项2. 基本使用示例示例 1:创建单层目录示例 2:创建多级目录3. 关键注

C++中函数模板与类模板的简单使用及区别介绍

《C++中函数模板与类模板的简单使用及区别介绍》这篇文章介绍了C++中的模板机制,包括函数模板和类模板的概念、语法和实际应用,函数模板通过类型参数实现泛型操作,而类模板允许创建可处理多种数据类型的类,... 目录一、函数模板定义语法真实示例二、类模板三、关键区别四、注意事项 ‌在C++中,模板是实现泛型编程

kotlin的函数forEach示例详解

《kotlin的函数forEach示例详解》在Kotlin中,forEach是一个高阶函数,用于遍历集合中的每个元素并对其执行指定的操作,它的核心特点是简洁、函数式,适用于需要遍历集合且无需返回值的场... 目录一、基本用法1️⃣ 遍历集合2️⃣ 遍历数组3️⃣ 遍历 Map二、与 for 循环的区别三、高

基于Spring实现自定义错误信息返回详解

《基于Spring实现自定义错误信息返回详解》这篇文章主要为大家详细介绍了如何基于Spring实现自定义错误信息返回效果,文中的示例代码讲解详细,感兴趣的小伙伴可以跟随小编一起学习一下... 目录背景目标实现产出背景Spring 提供了 @RestConChina编程trollerAdvice 用来实现 HTT