Hive+UDTF简单示例

2024-04-24 16:32
文章标签 简单 示例 hive udtf

本文主要是介绍Hive+UDTF简单示例,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

       UDTF(User-Defined Table-Generating Functions)  用来解输入一行输出多行(On-to-many maping)的需求

         我们来看一个简单的例子。

         现在有一个名为studentScore.txt的文本,里面的内容如下:

                        A       90
                        A       80
                        A       70
                        A       50
                        B       60
                        B       90
                        B       95
                        B       80

         我们 要统计 A和B的总分。

          1)将studentScore.txt上传至hdfs.

                 bin/hadoop fs -put /home/wangzhun/tmp/studentScore.txt wz

          2)  在hive里面,创建studentScore表,并导入 数据 

                 create table studentScore(name string,score int) ROW FORMAT DELIMITED Fields TERMINATED BY '\t';

                 load data inpath '/user/root/wz/studentScore.txt' overwrite into table studentScore;               

          3)编写UDTF。

                

[java]  view plain copy 在CODE上查看代码片 派生到我的代码片
  1. package com.wz.udf;  
  2. import java.util.ArrayList;  
  3.   
  4. import org.apache.hadoop.hive.ql.udf.generic.GenericUDTF;  
  5. import org.apache.hadoop.hive.ql.exec.UDFArgumentException;  
  6. import org.apache.hadoop.hive.ql.exec.UDFArgumentLengthException;  
  7. import org.apache.hadoop.hive.ql.metadata.HiveException;  
  8. import org.apache.hadoop.hive.serde2.objectinspector.ObjectInspector;  
  9. import org.apache.hadoop.hive.serde2.objectinspector.ObjectInspectorFactory;  
  10. import org.apache.hadoop.hive.serde2.objectinspector.StructObjectInspector;  
  11. import org.apache.hadoop.hive.serde2.objectinspector.primitive.PrimitiveObjectInspectorFactory;  
  12.   
  13. public class staticScore extends GenericUDTF{  
  14.   Integer nTotalScore = Integer.valueOf(0);       //总分  
  15.   Object forwardObj[] = new Object[1];  
  16.   String strStudent;       //学生姓名  
  17.   @Override  
  18.   public void close() throws HiveException {    
  19.         //输出最后一个学生的总分  
  20.     forwardObj[0]=(strStudent+":"+String.valueOf(nTotalScore));  
  21.     forward(forwardObj);  
  22.     }  
  23.   
  24.     
  25.   @Override  
  26.   public StructObjectInspector initialize(ObjectInspector[] args)throws UDFArgumentException {  
  27.           strStudent="";  
  28.       ArrayList<String> fieldNames = new ArrayList<String>();  
  29.           ArrayList<ObjectInspector> fieldOIs = new ArrayList<ObjectInspector>();  
  30.           fieldNames.add("col1");  
  31.           fieldOIs.add(PrimitiveObjectInspectorFactory.javaStringObjectInspector);  
  32.           return ObjectInspectorFactory.getStandardStructObjectInspector(fieldNames,fieldOIs);  
  33.        }  
  34.   
  35.   
  36.   @Override  
  37.   public void process(Object[] args) throws HiveException {  
  38.     if(!strStudent.isEmpty() && !strStudent.equals(args[0].toString()))  
  39.     {  
  40.            //当学生名字变化时,输出该学生的总分  
  41.        String[] newRes = new String[1];  
  42.        newRes[0]=(strStudent+":"+String.valueOf(nTotalScore));  
  43.        forward(newRes);  
  44.        nTotalScore=0;  
  45.     }     
  46.     strStudent=args[0].toString();  
  47.     nTotalScore+=Integer.parseInt(args[1].toString());  
  48.        }  
  49.   
  50.    }  


          4)打包编译成jar包.

                 javac -classpath /home/wangzhun/hadoop/hadoop-0.20.2/hadoop-0.20.2-core.jar:/home/wangzhun/hive/hive-0.8.1/lib/hive-exec-0.8.1.jar staticScore.java

                 jar -cvf staticScore.jar com/wz/udf/staticScore.class

           5) 在hive里面添加jar包,创建临时函数,并执行得到结果。

                add jar /home/wangzhun/hive/hive-0.8.1/lib/staticScore.jar; 
                create temporary function statics as 'com.wz.udf.staticScore';
               

[plain]  view plain copy 在CODE上查看代码片 派生到我的代码片
  1. hive> select statics(studentScore.name,studentScore.score) as col1 from studentSselect statics(studentScore.name,studentScore.score) mytable as col1 from studencreate temporary function statics as 'com.wz.udf.staticScore';         
  2. OK  
  3. Time taken: 0.213 seconds  
  4. hive> select statics(studentScore.name,studentScore.score) as col1 from studentScore;  
  5. Total MapReduce jobs = 1  
  6. Launching Job 1 out of 1  
  7. Number of reduce tasks is set to 0 since there's no reduce operator  
  8. Starting Job = job_201311282251_0001, Tracking URL = http://localhost:50030/jobdetails.jsp?jobid=job_201311282251_0001  
  9. Kill Command = /home/wangzhun/hadoop/hadoop-0.20.2/bin/../bin/hadoop job  -Dmapred.job.tracker=localhost:9001 -kill job_201311282251_0001  
  10. Hadoop job information for Stage-1: number of mappers: 1; number of reducers: 0  
  11. 2013-11-28 23:02:24,612 Stage-1 map = 0%,  reduce = 0%  
  12. 2013-11-28 23:02:30,689 Stage-1 map = 100%,  reduce = 0%  
  13. 2013-11-28 23:02:33,732 Stage-1 map = 100%,  reduce = 100%  
  14. Ended Job = job_201311282251_0001  
  15. MapReduce Jobs Launched:   
  16. Job 0: Map: 1   HDFS Read: 40 HDFS Write: 12 SUCESS  
  17. Total MapReduce CPU Time Spent: 0 msec  
  18. OK  
  19. A:290  
  20. B:325  
  21. Time taken: 34.356 seconds  

这篇关于Hive+UDTF简单示例的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/932248

相关文章

pandas中位数填充空值的实现示例

《pandas中位数填充空值的实现示例》中位数填充是一种简单而有效的方法,用于填充数据集中缺失的值,本文就来介绍一下pandas中位数填充空值的实现,具有一定的参考价值,感兴趣的可以了解一下... 目录什么是中位数填充?为什么选择中位数填充?示例数据结果分析完整代码总结在数据分析和机器学习过程中,处理缺失数

Pandas统计每行数据中的空值的方法示例

《Pandas统计每行数据中的空值的方法示例》处理缺失数据(NaN值)是一个非常常见的问题,本文主要介绍了Pandas统计每行数据中的空值的方法示例,具有一定的参考价值,感兴趣的可以了解一下... 目录什么是空值?为什么要统计空值?准备工作创建示例数据统计每行空值数量进一步分析www.chinasem.cn处

利用Python调试串口的示例代码

《利用Python调试串口的示例代码》在嵌入式开发、物联网设备调试过程中,串口通信是最基础的调试手段本文将带你用Python+ttkbootstrap打造一款高颜值、多功能的串口调试助手,需要的可以了... 目录概述:为什么需要专业的串口调试工具项目架构设计1.1 技术栈选型1.2 关键类说明1.3 线程模

Python使用getopt处理命令行参数示例解析(最佳实践)

《Python使用getopt处理命令行参数示例解析(最佳实践)》getopt模块是Python标准库中一个简单但强大的命令行参数处理工具,它特别适合那些需要快速实现基本命令行参数解析的场景,或者需要... 目录为什么需要处理命令行参数?getopt模块基础实际应用示例与其他参数处理方式的比较常见问http

Android实现在线预览office文档的示例详解

《Android实现在线预览office文档的示例详解》在移动端展示在线Office文档(如Word、Excel、PPT)是一项常见需求,这篇文章为大家重点介绍了两种方案的实现方法,希望对大家有一定的... 目录一、项目概述二、相关技术知识三、实现思路3.1 方案一:WebView + Office Onl

Mysql用户授权(GRANT)语法及示例解读

《Mysql用户授权(GRANT)语法及示例解读》:本文主要介绍Mysql用户授权(GRANT)语法及示例,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录mysql用户授权(GRANT)语法授予用户权限语法GRANT语句中的<权限类型>的使用WITH GRANT

Java中Scanner的用法示例小结

《Java中Scanner的用法示例小结》有时候我们在编写代码的时候可能会使用输入和输出,那Java也有自己的输入和输出,今天我们来探究一下,对JavaScanner用法相关知识感兴趣的朋友一起看看吧... 目录前言一 输出二 输入Scanner的使用多组输入三 综合练习:猜数字游戏猜数字前言有时候我们在

html5的响应式布局的方法示例详解

《html5的响应式布局的方法示例详解》:本文主要介绍了HTML5中使用媒体查询和Flexbox进行响应式布局的方法,简要介绍了CSSGrid布局的基础知识和如何实现自动换行的网格布局,详细内容请阅读本文,希望能对你有所帮助... 一 使用媒体查询响应式布局        使用的参数@media这是常用的

Java使用SLF4J记录不同级别日志的示例详解

《Java使用SLF4J记录不同级别日志的示例详解》SLF4J是一个简单的日志门面,它允许在运行时选择不同的日志实现,这篇文章主要为大家详细介绍了如何使用SLF4J记录不同级别日志,感兴趣的可以了解下... 目录一、SLF4J简介二、添加依赖三、配置Logback四、记录不同级别的日志五、总结一、SLF4J

Java字符串操作技巧之语法、示例与应用场景分析

《Java字符串操作技巧之语法、示例与应用场景分析》在Java算法题和日常开发中,字符串处理是必备的核心技能,本文全面梳理Java中字符串的常用操作语法,结合代码示例、应用场景和避坑指南,可快速掌握字... 目录引言1. 基础操作1.1 创建字符串1.2 获取长度1.3 访问字符2. 字符串处理2.1 子字