Hive+UDTF简单示例

2024-04-24 16:32
文章标签 简单 示例 hive udtf

本文主要是介绍Hive+UDTF简单示例,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

       UDTF(User-Defined Table-Generating Functions)  用来解输入一行输出多行(On-to-many maping)的需求

         我们来看一个简单的例子。

         现在有一个名为studentScore.txt的文本,里面的内容如下:

                        A       90
                        A       80
                        A       70
                        A       50
                        B       60
                        B       90
                        B       95
                        B       80

         我们 要统计 A和B的总分。

          1)将studentScore.txt上传至hdfs.

                 bin/hadoop fs -put /home/wangzhun/tmp/studentScore.txt wz

          2)  在hive里面,创建studentScore表,并导入 数据 

                 create table studentScore(name string,score int) ROW FORMAT DELIMITED Fields TERMINATED BY '\t';

                 load data inpath '/user/root/wz/studentScore.txt' overwrite into table studentScore;               

          3)编写UDTF。

                

[java]  view plain copy 在CODE上查看代码片 派生到我的代码片
  1. package com.wz.udf;  
  2. import java.util.ArrayList;  
  3.   
  4. import org.apache.hadoop.hive.ql.udf.generic.GenericUDTF;  
  5. import org.apache.hadoop.hive.ql.exec.UDFArgumentException;  
  6. import org.apache.hadoop.hive.ql.exec.UDFArgumentLengthException;  
  7. import org.apache.hadoop.hive.ql.metadata.HiveException;  
  8. import org.apache.hadoop.hive.serde2.objectinspector.ObjectInspector;  
  9. import org.apache.hadoop.hive.serde2.objectinspector.ObjectInspectorFactory;  
  10. import org.apache.hadoop.hive.serde2.objectinspector.StructObjectInspector;  
  11. import org.apache.hadoop.hive.serde2.objectinspector.primitive.PrimitiveObjectInspectorFactory;  
  12.   
  13. public class staticScore extends GenericUDTF{  
  14.   Integer nTotalScore = Integer.valueOf(0);       //总分  
  15.   Object forwardObj[] = new Object[1];  
  16.   String strStudent;       //学生姓名  
  17.   @Override  
  18.   public void close() throws HiveException {    
  19.         //输出最后一个学生的总分  
  20.     forwardObj[0]=(strStudent+":"+String.valueOf(nTotalScore));  
  21.     forward(forwardObj);  
  22.     }  
  23.   
  24.     
  25.   @Override  
  26.   public StructObjectInspector initialize(ObjectInspector[] args)throws UDFArgumentException {  
  27.           strStudent="";  
  28.       ArrayList<String> fieldNames = new ArrayList<String>();  
  29.           ArrayList<ObjectInspector> fieldOIs = new ArrayList<ObjectInspector>();  
  30.           fieldNames.add("col1");  
  31.           fieldOIs.add(PrimitiveObjectInspectorFactory.javaStringObjectInspector);  
  32.           return ObjectInspectorFactory.getStandardStructObjectInspector(fieldNames,fieldOIs);  
  33.        }  
  34.   
  35.   
  36.   @Override  
  37.   public void process(Object[] args) throws HiveException {  
  38.     if(!strStudent.isEmpty() && !strStudent.equals(args[0].toString()))  
  39.     {  
  40.            //当学生名字变化时,输出该学生的总分  
  41.        String[] newRes = new String[1];  
  42.        newRes[0]=(strStudent+":"+String.valueOf(nTotalScore));  
  43.        forward(newRes);  
  44.        nTotalScore=0;  
  45.     }     
  46.     strStudent=args[0].toString();  
  47.     nTotalScore+=Integer.parseInt(args[1].toString());  
  48.        }  
  49.   
  50.    }  


          4)打包编译成jar包.

                 javac -classpath /home/wangzhun/hadoop/hadoop-0.20.2/hadoop-0.20.2-core.jar:/home/wangzhun/hive/hive-0.8.1/lib/hive-exec-0.8.1.jar staticScore.java

                 jar -cvf staticScore.jar com/wz/udf/staticScore.class

           5) 在hive里面添加jar包,创建临时函数,并执行得到结果。

                add jar /home/wangzhun/hive/hive-0.8.1/lib/staticScore.jar; 
                create temporary function statics as 'com.wz.udf.staticScore';
               

[plain]  view plain copy 在CODE上查看代码片 派生到我的代码片
  1. hive> select statics(studentScore.name,studentScore.score) as col1 from studentSselect statics(studentScore.name,studentScore.score) mytable as col1 from studencreate temporary function statics as 'com.wz.udf.staticScore';         
  2. OK  
  3. Time taken: 0.213 seconds  
  4. hive> select statics(studentScore.name,studentScore.score) as col1 from studentScore;  
  5. Total MapReduce jobs = 1  
  6. Launching Job 1 out of 1  
  7. Number of reduce tasks is set to 0 since there's no reduce operator  
  8. Starting Job = job_201311282251_0001, Tracking URL = http://localhost:50030/jobdetails.jsp?jobid=job_201311282251_0001  
  9. Kill Command = /home/wangzhun/hadoop/hadoop-0.20.2/bin/../bin/hadoop job  -Dmapred.job.tracker=localhost:9001 -kill job_201311282251_0001  
  10. Hadoop job information for Stage-1: number of mappers: 1; number of reducers: 0  
  11. 2013-11-28 23:02:24,612 Stage-1 map = 0%,  reduce = 0%  
  12. 2013-11-28 23:02:30,689 Stage-1 map = 100%,  reduce = 0%  
  13. 2013-11-28 23:02:33,732 Stage-1 map = 100%,  reduce = 100%  
  14. Ended Job = job_201311282251_0001  
  15. MapReduce Jobs Launched:   
  16. Job 0: Map: 1   HDFS Read: 40 HDFS Write: 12 SUCESS  
  17. Total MapReduce CPU Time Spent: 0 msec  
  18. OK  
  19. A:290  
  20. B:325  
  21. Time taken: 34.356 seconds  

这篇关于Hive+UDTF简单示例的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/932248

相关文章

SpringBoot中SM2公钥加密、私钥解密的实现示例详解

《SpringBoot中SM2公钥加密、私钥解密的实现示例详解》本文介绍了如何在SpringBoot项目中实现SM2公钥加密和私钥解密的功能,通过使用Hutool库和BouncyCastle依赖,简化... 目录一、前言1、加密信息(示例)2、加密结果(示例)二、实现代码1、yml文件配置2、创建SM2工具

MySQL 定时新增分区的实现示例

《MySQL定时新增分区的实现示例》本文主要介绍了通过存储过程和定时任务实现MySQL分区的自动创建,解决大数据量下手动维护的繁琐问题,具有一定的参考价值,感兴趣的可以了解一下... mysql创建好分区之后,有时候会需要自动创建分区。比如,一些表数据量非常大,有些数据是热点数据,按照日期分区MululbU

Python函数作用域示例详解

《Python函数作用域示例详解》本文介绍了Python中的LEGB作用域规则,详细解析了变量查找的四个层级,通过具体代码示例,展示了各层级的变量访问规则和特性,对python函数作用域相关知识感兴趣... 目录一、LEGB 规则二、作用域实例2.1 局部作用域(Local)2.2 闭包作用域(Enclos

C++20管道运算符的实现示例

《C++20管道运算符的实现示例》本文简要介绍C++20管道运算符的使用与实现,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧... 目录标准库的管道运算符使用自己实现类似的管道运算符我们不打算介绍太多,因为它实际属于c++20最为重要的

Java中调用数据库存储过程的示例代码

《Java中调用数据库存储过程的示例代码》本文介绍Java通过JDBC调用数据库存储过程的方法,涵盖参数类型、执行步骤及数据库差异,需注意异常处理与资源管理,以优化性能并实现复杂业务逻辑,感兴趣的朋友... 目录一、存储过程概述二、Java调用存储过程的基本javascript步骤三、Java调用存储过程示

ModelMapper基本使用和常见场景示例详解

《ModelMapper基本使用和常见场景示例详解》ModelMapper是Java对象映射库,支持自动映射、自定义规则、集合转换及高级配置(如匹配策略、转换器),可集成SpringBoot,减少样板... 目录1. 添加依赖2. 基本用法示例:简单对象映射3. 自定义映射规则4. 集合映射5. 高级配置匹

C++11作用域枚举(Scoped Enums)的实现示例

《C++11作用域枚举(ScopedEnums)的实现示例》枚举类型是一种非常实用的工具,C++11标准引入了作用域枚举,也称为强类型枚举,本文主要介绍了C++11作用域枚举(ScopedEnums... 目录一、引言二、传统枚举类型的局限性2.1 命名空间污染2.2 整型提升问题2.3 类型转换问题三、C

Java实现自定义table宽高的示例代码

《Java实现自定义table宽高的示例代码》在桌面应用、管理系统乃至报表工具中,表格(JTable)作为最常用的数据展示组件,不仅承载对数据的增删改查,还需要配合布局与视觉需求,而JavaSwing... 目录一、项目背景详细介绍二、项目需求详细介绍三、相关技术详细介绍四、实现思路详细介绍五、完整实现代码

C++ 检测文件大小和文件传输的方法示例详解

《C++检测文件大小和文件传输的方法示例详解》文章介绍了在C/C++中获取文件大小的三种方法,推荐使用stat()函数,并详细说明了如何设计一次性发送压缩包的结构体及传输流程,包含CRC校验和自动解... 目录检测文件的大小✅ 方法一:使用 stat() 函数(推荐)✅ 用法示例:✅ 方法二:使用 fsee

mysql查询使用_rowid虚拟列的示例

《mysql查询使用_rowid虚拟列的示例》MySQL中,_rowid是InnoDB虚拟列,用于无主键表的行ID查询,若存在主键或唯一列,则指向其,否则使用隐藏ID(不稳定),推荐使用ROW_NUM... 目录1. 基本查询(适用于没有主键的表)2. 检查表是否支持 _rowid3. 注意事项4. 最佳实