【hive】transform脚本

2024-05-05 23:20
文章标签 hive transform 脚本

本文主要是介绍【hive】transform脚本,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

文档地址:https://cwiki.apache.org/confluence/display/Hive/LanguageManual+Transform

  • 一、介绍
  • 二、实现
    • 1.脚本上传到本地
    • 2.脚本上传到hdfs
  • 三、几个需要注意的点
    • 1.脚本名不要写全路径
    • 2.using后面语句中,带不带"python"的问题
    • 3.py脚本Shebang:#!/usr/bin/env python

一、介绍

和udf差不多的作用,支持用python实现。通过标准输入流从hive读取数据,内部处理完再通过标准输出流将处理结果返回给hive。实现流程上比udf要更简单灵活一些,只需要上传脚本=>add file加载到分布式缓存=>使用。

二、实现

先定义一个名为transform.py的脚本,将传入的两个字段值都+1。

#!/usr/bin/env python
import sysfor line in sys.stdin:try:x, y = map(float, line.strip().split('\t'))x += 1y += 1print('\t'.join(map(str, [x, y])))except ValueError as e:print('\t'.join([r'\N'] * 2))

上面对输入流按照\t分隔是因为hive中的数据在传递到py脚本时,多个字段间默认会用\t分隔拼接为字符串,并且空值null会被转为字符串\N。同样将处理结果返回给hive时,如果多个字段,为了hive能够正确解析,也需要用\t拼接输出,单独的\N在hive中也会被重新解释为null。
在这里插入图片描述
除了单独的\N会被重新解释为null外,还有一种情况也会被hive解释为null,就是脚本里返回的字段个数小于hive中接收的字段个数时,hive中多余的字段会被赋值为null。

1.脚本上传到本地

这里的本地指的是hive主服务hive server2所在的节点,也就是我们客户端连接的那个机器。

先上传到主服务机器下的某个路径:

# 文件上传路径
[root@node1 HiveLib]# readlink -e transform.py
/root/HiveLib/transform.py

上传后通过add file命令将脚本添加到分布式缓存,之后就可以直接使用了。

-- 添加到分布式缓存
add file /root/HiveLib/transform.py;-- 创建一个临时表测试执行
with `table` as (select '1' as id, '1.6789' as col1, '7.13' as col2union allselect '2' as id, '11.568' as col1, null as col2union allselect '3' as id, '26.09761' as col1, '71.89002' as col2
)
-- as后面接收脚本返回值的字段也可以指定字段类型, eg:(col1 double, col2 double), 省略时默认都是字符串string类型
select transform (col1, col2) using 'transform.py' as (col1, col2) from `table`;

在这里插入图片描述

2.脚本上传到hdfs

这种方式和本地实现基本一致,只不过需要将脚本上传到hdfs中,add file时后面跟的是hdfs路径。

[root@node1 HiveLib]# hadoop fs -put ./transform.py /user/hive/lib
[root@node1 HiveLib]# hadoop fs -ls /user/hive/lib
Found 2 items
-rw-r--r--   3 root supergroup       4164 2022-12-18 00:48 /user/hive/lib/hive_udf-1.0-SNAPSHOT.jar
-rw-r--r--   3 root supergroup        257 2024-05-05 19:13 /user/hive/lib/transform.py

sql客户端中执行:

-- 脚本路径换为hdfs路径
add file hdfs://node1:8020/user/hive/lib/transform.py;with `table` as (select '1' as id, '1.6789' as col1, '7.13' as col2union allselect '2' as id, '11.568' as col1, null as col2union allselect '3' as id, '26.09761' as col1, '71.89002' as col2
)
select transform (col1, col2) using 'transform.py' as (col1, col2) from `table`;

在这里插入图片描述

三、几个需要注意的点

1.脚本名不要写全路径

using语句后面指定脚本只写脚本名即可,不要写全路径。全路径的话会报错[08S01][20000] Error while processing statement: FAILED: Execution Error, return code 20000 from org.apache.hadoop.hive.ql.exec.mr.MapRedTask. Unable to initialize custom script.,参考
https://stackoverflow.com/questions/15106127/i-met-an-error-when-i-using-hive-transform-features,我也不太理解为什么有这要求,先照做就行。
在这里插入图片描述

2.using后面语句中,带不带"python"的问题

这里说的是sql语句中,是using 'transform.py'还是using 'python transform.py'的问题。可以不带python这个关键字,但是前提脚本中必须指定了Shebang,类似于#!/usr/bin/env python这样,指定脚本的解释器。如果指定Shebang,using后面带不带python都可以,如果脚本中没指定,using后面必须带python这个关键字,否则报错。

看到有人说需要给py脚本chmod +x transform.py赋予可执行权限,实际操作中经过验证本地和hdfs都不需要。

3.py脚本Shebang:#!/usr/bin/env python

Shebang(也称为Hashbang)是一个源于Unix系统中的概念,特别是在类Unix操作系统中广泛使用。它是指脚本文件第一行以#!开头的特殊注释行,用于指定该脚本应该由哪个解释器程序来执行。这个名称来源于这两个起始字符—井号(#)和叹号(!)。

主要解释下#!/usr/bin/env python#!/usr/bin/python的区别。两者都是用来指定该脚本的解释器,但是前者比后者有更好的兼容性,可以理解为:后者是指定了一个固定的解释器路径,虽然多数情况下遵循规范解释器路径会在该目录下,但是并不能保证一定存在。而前者逻辑上等价于env | grep python,它是从当前所有的环境变量中按照一定的优先级顺序去找python解释器,最先找到哪个就用哪个执行,所以可以有效避免路径指定错误的问题,推荐前面这种写法。

[root@node1 HiveLib]# which python
/root/anaconda3/bin/python
[root@node1 HiveLib]# which env
/usr/bin/env
[root@node1 HiveLib]# env | grep python
CONDA_PYTHON_EXE=/root/anaconda3/bin/python

这篇关于【hive】transform脚本的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/962933

相关文章

python 脚本压缩文件linux 正常,windows 文件夹/文件名称 被加上了上级文件夹名

场景: php 在调用python 脚本,进行文件压缩(因为php的压缩大文件总是超时),linux/mac 环境文件/文件夹名压缩前后一致,windows 压缩后 文件/文件夹名被改变为 上级 文件夹+原名 原因: windows 和 mac、linux 文件路径的分隔符 不一样 解决: 使用php 自带的分隔符常量DIRECTORY_SEPARATOR,该常量会根据 不同系统,变化

15.SVG变形 Transform

SVG的transform属性非常强大,它允许你对图形进行平移、缩放、旋转、倾斜等操作。以下是一篇关于SVG图形变形的教程,包括详细的描述和代码示例。 平移(Translate) 平移操作可以将图形从一个位置移动到另一个位置。使用translate(x, y),其中x和y是沿着X轴和Y轴移动的距离。 <!-- 在X轴上移动100px,在Y轴上移动50px --><rect x="10

Java调用linux命令及Shell脚本

Java可以通过Runtime.getRuntime().exec()方法调用linux平台下的命令及Shell脚本。 获取命令执行结果通常有两种,一种是waitfor方法,另一种是exitValue。 但waitfor方法可能造成阻塞,原因如下: 当调用exec方法后,JVM启动一个子进程,该进程会与JVM进程建立3个管道连接,即标准输入流、标准输出流、错误错误流。假

python脚本执行传递的参数获取方法

获取向python脚本传递的参数的方法:              需要引入模块:sys              参数个数:        len(sys.argv)              脚本名:            sys.argv[0]              参数1:              sys.argv[1]              参数2:

Wondershaper网络限制脚本源码分析一(下载速度限制篇)

Wondershaper 是一个简单的 Linux 命令行工具,用于自动管理和控制网络接口的上行和下行带宽,旨在为用户提供稳定的网络体验,尤其是在网络拥塞的情况下。它通过 Traffic Control (tc) 工具集实现这一功能,但与直接使用 tc 相比,Wondersbaper 提供了更简洁易用的界面,特别适合没有深入网络管理知识的用户,但它其实就是由一个bash脚本组成,当然里面的思想非常

Hive的窗口函数

定义:聚合函数是针对定义的行集(组)执行聚集,每组只返回一个值.如sum()、avg()、max()窗口函数也是针对定义的行集(组)执行聚集,可为每组返回多个值.如既要显示聚集前的数据,又要显示聚集后的数据.步骤:1.将记录分割成多个分区.2.在各个分区上调用窗口函数. 语法:--先执行over后面的部分,再执行over前面的部分. function() over (PARTITI

hive小技巧

val 和coalesce效果一样只不过val不是标准得函数。 coalesce coalesce(exp1,exp2,exp3....) 从一系列数中获取第一个不为null值得数 case case when exp1 is not null then exp1 when exp2 is not null then exp2 when exp3 is not null then

轻量级监控平台之监控脚本配置下发

轻量级监控平台之监控脚本配置下发&定时任务启动 #!/bin/bash#进程监控脚本#功能需求: 轻量级监控平台下载ticket,帮助后续数据上报脚本完善入参. /etc/profile. ~/.bash_profilepushurl="https://lightmonitorapi.test.cn/pull/ticket"ip=$(ip addr | grep 'BROADCAST

第25次修改留言板,修改了布局,样式和脚本分离

伤心城市  首页 <!DOCTYPE html><html lang="zh-CN"><head><meta charset="UTF-8"><meta name="beiwanglu" content="width=device-width, initial-scale=1.0"><link rel="stylesheet" type="text/css" href="f

Linux脚本结构化命令

一、if结构 1、shell命令退出状态作if的判断条件 格式 if commandthencommandselsecommandsfi 其中command为shell命令,shell命令执行完毕后,退出状态为0表示执行成功,执行if中命令;非0为不成功,执行else中命令。 新建script7脚本,执行脚本时根据传入的参数判断是否在file文件中 echo $1pattern