Hive metastore 无法解析分区字段 is not null问题排查

2024-09-04 17:18

本文主要是介绍Hive metastore 无法解析分区字段 is not null问题排查,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

文章目录

    • 一、问题描述
    • 二、解决方案

一、问题描述

周中发现一个问题,metastore根据条件获取分区时发生异常,导致扫描所有分区,最终导致gc异常。

hive编译时会进行逻辑优化,在执行分区裁剪时,会根据相关的分区过滤条件去metastore查询要扫描的分区目录。metastore会根据hiveserver传过来的条件表达式进行解析,然后过滤不需要的分区。

目前的问题是hiveserver传了一个 'date_p is not null’的子句,metastore这边无法解析(不支持),最终导致解析异常

另外经过测试发现如果hive QL中有between子句,并且join on中有分区字段,hiveserver查询分区时就会拼接 **‘date_p is not null’**的条件给metastore,导致metastore解析异常。

sql语句如下,其中date_p 是test表的一个分区

selectCOUNT(1)
from(selectdate_pfromtestwheredate_p BETWEEN 1and 2) ainner join (selectdate_pfromtestwheredate_p BETWEEN 1and 2) b on a.date_p = b.date_p;

metastore这边会收到分区过滤条件的语句:“date_p BETWEEN 1 AND 2 and date_p is not null”。

另外,将between换成大于、小于语句则可以正常运行。hiveserver 就不会自动拼接 "date_p is not null"给metastore。

二、解决方案

在metastore服务这边,PartFilterExprUtil#makeExpressionTree(PartitionExpressionProxy proxy,byte[] expr)会接收hiveserver传过来的分区过滤表达式,然后生成一个 ExpressionTree 后面用于去mysql中扫描分区。

代码如下

public static ExpressionTree makeExpressionTree(PartitionExpressionProxy expressionProxy,byte[] expr) throws MetaException {String filter = null;try {//使用PartitionExpressionProxy解析hiveserver传过来的数据,并生成分区过滤表达式filter = expressionProxy.convertExprToFilter(expr);} catch (MetaException ex) {throw new IMetaStoreClient.IncompatibleMetastoreException(ex.getMessage());}//根据分区过滤表达式构建ExpressionTree。如果filter中有 date_p is not null,因为不支持,此处就会报错return PartFilterExprUtil.makeExpressionTree(filter);
}

现在问题在于hiveserver传过来的 expr 中可能会有IsNotNull类型的过滤条件,metastore不支持,因此最简单的做法就是搜索 expr 中的所有节点,然后将IsNotNull节点移除,之后再去计算分区过滤表达式就不会带上date_p is Not Null了。

计算分区过滤表达式主要是PartitionExpressionProxy的工作,这是一个接口,metastore用的是它的实现类PartitionExpressionForMetastore,因此我们修改这个类的convertExprToFilter方法即可。

PartitionExpressionForMetastore#convertExprToFilter方法的原代码如下

@Override
public String convertExprToFilter(byte[] exprBytes) throws MetaException {return deserializeExpr(exprBytes).getExprString();
}

改成如下代码

@Override
public String convertExprToFilter(byte[] exprBytes) throws MetaException {ExprNodeGenericFuncDesc exprNodeGenericFuncDesc = deserializeExpr(exprBytes);GenericUDF genericUDF = exprNodeGenericFuncDesc.getGenericUDF();//如果是not null类型的过滤,就不处理if(genericUDF.getClass() == GenericUDFOPNotNull.class){return "";}//如果是and或者or类型,就检查子句中是否有not null类型的子句,有的话去掉Iterator<ExprNodeDesc> iterator = exprNodeGenericFuncDesc.getChildren().iterator();while (iterator.hasNext()){ExprNodeDesc child = iterator.next();if(child.getClass() == ExprNodeGenericFuncDesc.class){GenericUDF childUdf = ((ExprNodeGenericFuncDesc) child).getGenericUDF();if(childUdf.getClass() == GenericUDFOPNotNull.class){iterator.remove();}}}return exprNodeGenericFuncDesc.getExprString();
}

改完重新编译hive/ql 模块代码,然后替换到metastore的lib下的包重启即可。

由于PartitionExpressionForMetastore#convertExprToFilter中只有metastore的PartFilterExprUtil类会调用到,因此改造这个方法不会引起其他的问题。

这篇关于Hive metastore 无法解析分区字段 is not null问题排查的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1136535

相关文章

网页解析 lxml 库--实战

lxml库使用流程 lxml 是 Python 的第三方解析库,完全使用 Python 语言编写,它对 XPath表达式提供了良好的支 持,因此能够了高效地解析 HTML/XML 文档。本节讲解如何通过 lxml 库解析 HTML 文档。 pip install lxml lxm| 库提供了一个 etree 模块,该模块专门用来解析 HTML/XML 文档,下面来介绍一下 lxml 库

好题——hdu2522(小数问题:求1/n的第一个循环节)

好喜欢这题,第一次做小数问题,一开始真心没思路,然后参考了网上的一些资料。 知识点***********************************无限不循环小数即无理数,不能写作两整数之比*****************************(一开始没想到,小学没学好) 此题1/n肯定是一个有限循环小数,了解这些后就能做此题了。 按照除法的机制,用一个函数表示出来就可以了,代码如下

hdu1043(八数码问题,广搜 + hash(实现状态压缩) )

利用康拓展开将一个排列映射成一个自然数,然后就变成了普通的广搜题。 #include<iostream>#include<algorithm>#include<string>#include<stack>#include<queue>#include<map>#include<stdio.h>#include<stdlib.h>#include<ctype.h>#inclu

三国地理揭秘:为何北伐之路如此艰难,为何诸葛亮无法攻克陇右小城?

俗话说:天时不如地利,不是随便说说,诸葛亮六出祁山,连关中陇右的几座小城都攻不下来,行军山高路险,无法携带和建造攻城器械,是最难的,所以在汉中,无论从哪一方进攻,防守方都是一夫当关,万夫莫开;再加上千里运粮,根本不需要打,司马懿只需要坚守城池拼消耗就能不战而屈人之兵。 另一边,洛阳的虎牢关,一旦突破,洛阳就无险可守,这样的进军路线,才是顺势而为的用兵之道。 读历史的时候我们常常看到某一方势

【C++】_list常用方法解析及模拟实现

相信自己的力量,只要对自己始终保持信心,尽自己最大努力去完成任何事,就算事情最终结果是失败了,努力了也不留遗憾。💓💓💓 目录   ✨说在前面 🍋知识点一:什么是list? •🌰1.list的定义 •🌰2.list的基本特性 •🌰3.常用接口介绍 🍋知识点二:list常用接口 •🌰1.默认成员函数 🔥构造函数(⭐) 🔥析构函数 •🌰2.list对象

购买磨轮平衡机时应该注意什么问题和技巧

在购买磨轮平衡机时,您应该注意以下几个关键点: 平衡精度 平衡精度是衡量平衡机性能的核心指标,直接影响到不平衡量的检测与校准的准确性,从而决定磨轮的振动和噪声水平。高精度的平衡机能显著减少振动和噪声,提高磨削加工的精度。 转速范围 宽广的转速范围意味着平衡机能够处理更多种类的磨轮,适应不同的工作条件和规格要求。 振动监测能力 振动监测能力是评估平衡机性能的重要因素。通过传感器实时监

缓存雪崩问题

缓存雪崩是缓存中大量key失效后当高并发到来时导致大量请求到数据库,瞬间耗尽数据库资源,导致数据库无法使用。 解决方案: 1、使用锁进行控制 2、对同一类型信息的key设置不同的过期时间 3、缓存预热 1. 什么是缓存雪崩 缓存雪崩是指在短时间内,大量缓存数据同时失效,导致所有请求直接涌向数据库,瞬间增加数据库的负载压力,可能导致数据库性能下降甚至崩溃。这种情况往往发生在缓存中大量 k

6.1.数据结构-c/c++堆详解下篇(堆排序,TopK问题)

上篇:6.1.数据结构-c/c++模拟实现堆上篇(向下,上调整算法,建堆,增删数据)-CSDN博客 本章重点 1.使用堆来完成堆排序 2.使用堆解决TopK问题 目录 一.堆排序 1.1 思路 1.2 代码 1.3 简单测试 二.TopK问题 2.1 思路(求最小): 2.2 C语言代码(手写堆) 2.3 C++代码(使用优先级队列 priority_queue)

【VUE】跨域问题的概念,以及解决方法。

目录 1.跨域概念 2.解决方法 2.1 配置网络请求代理 2.2 使用@CrossOrigin 注解 2.3 通过配置文件实现跨域 2.4 添加 CorsWebFilter 来解决跨域问题 1.跨域概念 跨域问题是由于浏览器实施了同源策略,该策略要求请求的域名、协议和端口必须与提供资源的服务相同。如果不相同,则需要服务器显式地允许这种跨域请求。一般在springbo

OWASP十大安全漏洞解析

OWASP(开放式Web应用程序安全项目)发布的“十大安全漏洞”列表是Web应用程序安全领域的权威指南,它总结了Web应用程序中最常见、最危险的安全隐患。以下是对OWASP十大安全漏洞的详细解析: 1. 注入漏洞(Injection) 描述:攻击者通过在应用程序的输入数据中插入恶意代码,从而控制应用程序的行为。常见的注入类型包括SQL注入、OS命令注入、LDAP注入等。 影响:可能导致数据泄