HIVE数仓数据血缘分析工具-SQL解析

2024-04-01 07:18

本文主要是介绍HIVE数仓数据血缘分析工具-SQL解析,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

一、数仓经常会碰到的几类问题:
1、两个数据报表进行对比,结果差异很大,需要人工核对分析指标的维度信息,比如从头分析数据指标从哪里来,处理条件是什么,最后才能分析出问题原因。
2、基础数据表因某种原因需要修改字段,需要评估其对数仓的影响,费时费力,然后在做方案。

二、问题分析:
数据源长途跋涉,经过大量的处理和组件来传递,呈现在业务用户面前,对数据进行回溯其实很难。元数据回溯在有效决策、策略制定、差异分析等过程中很重要。这两类问题都属于数据血缘分析问题,第一类叫做数据回溯、第二类叫做影响分析,是数据回溯的逆向。

三、解决方法:
自己实现了一套基于hive数仓的数据血缘分析工具,来完成各个数据表、字段之间的关系梳理,进而解决上面两个问题。

  • 工具主要目标:解析计算脚本中的HQL语句,分析得到输入输出表、输入输出字段和相应的处理条件,进行分析展现。
  • 实现思路:对AST深度优先遍历,遇到操作的token则判断当前的操作,遇到子句则压栈当前处理,处理子句。子句处理完,栈弹出。处理字句的过程中,遇到子查询就保存当前子查询的信息,判断与其父查询的关系,最终形成树形结构; 遇到字段或者条件处理则记录当前的字段和条件信息、组成Block,嵌套调用。
  • 关键点解析:
    1、遇到TOK_TAB或TOK_TABREF则判断出当前操作的表
    2、压栈判断是否是join,判断join条件
    3、定义数据结构Block,遇到在where\select\join时获得其下相应的字段和条件,组成Block
    4、定义数据结构ColLine,遇到TOK_SUBQUERY保存当前的子查询信息,供父查询使用
    5、定义数据结构ColLine,遇到TOK_UNION结束时,合并并截断当前的列信息
    6、遇到select 或者未明确指出的字段,查询元数据进行辅助分析
    7、解析结果进行相关校验

代码地址:http://download.csdn.net/detail/thomas0yang/9354943
https://download.csdn.net/download/thomas0yang/9369949
懒得改成github了☺

代码如下:
Block类

package com.xiaoju.products.parse;
import java.util.ArrayList;
import java.util.HashMap;
import java.util.HashSet;
import java.util.List;
import java.util.Map;
import java.util.Set;
import java.util.Stack;
import java.util.Map.Entry;
import java.util.LinkedHashSet;import org.antlr.runtime.tree.Tree;
import org.apache.hadoop.hive.ql.parse.ASTNode;
import org.apache.hadoop.hive.ql.parse.BaseSemanticAnalyzer;
import org.apache.hadoop.hive.ql.parse.HiveParser;
import org.apache.hadoop.hive.ql.parse.ParseDriver;import com.xiaoju.products.bean.Block;
import com.xiaoju.products.bean.ColLine;
import com.xiaoju.products.bean.QueryTree;
import com.xiaoju.products.exception.SQLParseException;
import com.xiaoju.products.exception.UnSupportedException;
import com.xiaoju.products.util.Check;
import com.xiaoju.products.util.MetaCache;
import com.xiaoju.products.util.NumberUtil;
import com.xiaoju.products.util.ParseUtil;
import com.xiaoju.products.util.PropertyFileUtil;/*** hive sql解析类* * 目的:实现HQL的语句解析,分析出输入输出表、字段和相应的处理条件。为字段级别的数据血缘提供基础。* 重点:获取SELECT操作中的表和列的相关操作。其他操作这判断到字段级别。* 实现思路:对AST深度优先遍历,遇到操作的token则判断当前的操作,遇到子句则压栈当前处理,处理子句。子句处理完,栈弹出。* 处理字句的过程中,遇到子查询就保存当前子查询的信息,判断与其父查询的关系,最终形成树形结构;* 遇到字段或者条件处理则记录当前的字段和条件信息、组成Block,嵌套调用。 * 关键点解析 * 		   1、遇到TOK_TAB或TOK_TABREF则判断出当前操作的表*         2、压栈判断是否是join,判断join条件*         3、定义数据结构Block,遇到在where\select\join时获得其下相应的字段和条件,组成Block*         4、定义数据结构ColLine,遇到TOK_SUBQUERY保存当前的子查询信息,供父查询使用*         5、定义数据结构ColLine,遇到TOK_UNION结束时,合并并截断当前的列信息*         6、遇到select * 或者未明确指出的字段,查询元数据进行辅助分析*         7、解析结果进行相关校验* 试用范围:* 1、支持标准SQL * 2、不支持transform using script*        * @author yangyangthomas     *    */
public class LineParser {private static final String SPLIT_DOT = ".";private static final String SPLIT_COMMA = ",";private static final String SPLIT_AND = "&";private static final String TOK_EOF = "<EOF>";private static final String CON_WHERE = "WHERE:";private static final String TOK_TMP_FILE = "TOK_TMP_FILE";private Map<String /*table*/, List<String/*column*/>> dbMap = new HashMap<String, List<String>>();private List<QueryTree> queryTreeList = new ArrayList<QueryTree>(); //子查询树形关系保存private Stack<Set<String>> conditionsStack = new Stack<Set<String>>();private Stack<List<ColLine>> colsStack = new Stack<List<ColLine>>();private Map<String, List<ColLine>> resultQueryMap = new HashMap<String,  List<ColLine>>();private Set<String> conditions = new HashSet<String>(); //where or join 条件缓存private List<ColLine> cols = new ArrayList<ColLine>(); //一个子查询内的列缓存private Stack<String> tableNameStack = new Stack<String>();private Stack<Boolean> joinStack = new Stack<Boolean>();private Stack<ASTNode> joinOnStack = new Stack<ASTNode>();private Map<String, QueryTree> queryMap = new HashMap<String, QueryTree>();private boolean joinClause = false;private ASTNode joinOn = null;private String nowQueryDB = "default"; //hive的默认库private boolean isCreateTable = false;//结果private List<ColLine> colLines = new ArrayList<ColLine>();  private Set<String> outputTables = new HashSet<String>();private Set<String> inputTables = new HashSet<String>();private List<ColLine> tmpColLines = new ArrayList<ColLine>();  private Set<String> tmpOutputTables = new HashSet<String>();private Set<String> tmpInputTables = new HashSet<String>();public List<ColLine> getColLines() {return colLines;}public Set<String> getOutputTables() {return outputTables;}public Set<String> getInputTables() {return inputTables;}private void parseIteral(ASTNode ast) {prepareToParseCurrentNodeAndChilds(ast);parseChildNodes(ast);parseCurrentNode(ast);endParseCurrentNode(ast);}/*** 解析当前节点* @param ast* @param set* @return*/private void parseCurrentNode(ASTNode ast){if (ast.getToken() != null) {switch (ast.getToken().getType()) {case HiveParser.TOK_CREATETABLE: //outputtableisCreateTable = true;String tableOut = fillDB(BaseSemanticAnalyzer.getUnescapedName((ASTNode) ast.getChild(0)));tmpOutputTables.add(tableOut);MetaCache.getInstance().init(tableOut); //初始化数据,供以后使用break;case HiveParser.TOK_TAB:// outputTableString tableTab = BaseSemanticAnalyzer.getUnescapedName((ASTNode) ast.getChild(0));String tableOut2 = fillDB(tableTab);tmpOutputTables.add(tableOut2);MetaCache.getInstance().init(tableOut2); //初始化数据,供以后使用break;case HiveParser.TOK_TABREF:// inputTableASTNode tabTree = (ASTNode) ast.getChild(0);String tableInFull = fillDB((tabTree.getChildCount() == 1) ?  BaseSemanticAnalyzer.getUnescapedName((ASTNode) tabTree.getChild(0)): BaseSemanticAnalyzer.getUnescapedName((ASTNode) tabTree.getChild(0))+ SPLIT_DOT + BaseSemanticAnalyzer.getUnescapedName((ASTNode) tabTree.getChild(1)));String tableIn = tableInFull.substring(tableInFull.indexOf(SPLIT_DOT) + 1);	tmpInputTables.add(tableInFull);MetaCache.getInstance().init(tableInFull); //初始化数据,供以后使用queryMap.clear();String alia = null;if (ast.getChild(1) != null) { //(TOK_TABREF (TOK_TABNAME detail usersequence_client) c) alia = ast.getChild(1).getText().toLowerCase();QueryTree qt = new QueryTree();qt.setCurrent(alia);qt.getTableSet().add(tableInFull);QueryTree pTree = getSubQueryParent(ast);qt.setpId(pTree.getpId());qt.setParent(pTree.getParent());queryTreeList.add(qt);if (joinClause && ast.getParent() == joinOn) { // TOK_SUBQUERY join TOK_TABREF ,此处的TOK_SUBQUERY信息不应该清楚for (QueryTree entry : queryTreeList) { //当前的查询范围if (qt.getParent().equals(entry.getParent())) {queryMap.put(entry.getCurrent(), entry);

这篇关于HIVE数仓数据血缘分析工具-SQL解析的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/866540

相关文章

使用Java解析JSON数据并提取特定字段的实现步骤(以提取mailNo为例)

《使用Java解析JSON数据并提取特定字段的实现步骤(以提取mailNo为例)》在现代软件开发中,处理JSON数据是一项非常常见的任务,无论是从API接口获取数据,还是将数据存储为JSON格式,解析... 目录1. 背景介绍1.1 jsON简介1.2 实际案例2. 准备工作2.1 环境搭建2.1.1 添加

MySQL中删除重复数据SQL的三种写法

《MySQL中删除重复数据SQL的三种写法》:本文主要介绍MySQL中删除重复数据SQL的三种写法,文中通过代码示例讲解的非常详细,对大家的学习或工作有一定的帮助,需要的朋友可以参考下... 目录方法一:使用 left join + 子查询删除重复数据(推荐)方法二:创建临时表(需分多步执行,逻辑清晰,但会

Java实现任务管理器性能网络监控数据的方法详解

《Java实现任务管理器性能网络监控数据的方法详解》在现代操作系统中,任务管理器是一个非常重要的工具,用于监控和管理计算机的运行状态,包括CPU使用率、内存占用等,对于开发者和系统管理员来说,了解这些... 目录引言一、背景知识二、准备工作1. Maven依赖2. Gradle依赖三、代码实现四、代码详解五

Redis连接失败:客户端IP不在白名单中的问题分析与解决方案

《Redis连接失败:客户端IP不在白名单中的问题分析与解决方案》在现代分布式系统中,Redis作为一种高性能的内存数据库,被广泛应用于缓存、消息队列、会话存储等场景,然而,在实际使用过程中,我们可能... 目录一、问题背景二、错误分析1. 错误信息解读2. 根本原因三、解决方案1. 将客户端IP添加到Re

详谈redis跟数据库的数据同步问题

《详谈redis跟数据库的数据同步问题》文章讨论了在Redis和数据库数据一致性问题上的解决方案,主要比较了先更新Redis缓存再更新数据库和先更新数据库再更新Redis缓存两种方案,文章指出,删除R... 目录一、Redis 数据库数据一致性的解决方案1.1、更新Redis缓存、删除Redis缓存的区别二

Redis事务与数据持久化方式

《Redis事务与数据持久化方式》该文档主要介绍了Redis事务和持久化机制,事务通过将多个命令打包执行,而持久化则通过快照(RDB)和追加式文件(AOF)两种方式将内存数据保存到磁盘,以防止数据丢失... 目录一、Redis 事务1.1 事务本质1.2 数据库事务与redis事务1.2.1 数据库事务1.

Mysql 中的多表连接和连接类型详解

《Mysql中的多表连接和连接类型详解》这篇文章详细介绍了MySQL中的多表连接及其各种类型,包括内连接、左连接、右连接、全外连接、自连接和交叉连接,通过这些连接方式,可以将分散在不同表中的相关数据... 目录什么是多表连接?1. 内连接(INNER JOIN)2. 左连接(LEFT JOIN 或 LEFT

Python pyinstaller实现图形化打包工具

《Pythonpyinstaller实现图形化打包工具》:本文主要介绍一个使用PythonPYQT5制作的关于pyinstaller打包工具,代替传统的cmd黑窗口模式打包页面,实现更快捷方便的... 目录1.简介2.运行效果3.相关源码1.简介一个使用python PYQT5制作的关于pyinstall

Oracle Expdp按条件导出指定表数据的方法实例

《OracleExpdp按条件导出指定表数据的方法实例》:本文主要介绍Oracle的expdp数据泵方式导出特定机构和时间范围的数据,并通过parfile文件进行条件限制和配置,文中通过代码介绍... 目录1.场景描述 2.方案分析3.实验验证 3.1 parfile文件3.2 expdp命令导出4.总结

Redis主从复制实现原理分析

《Redis主从复制实现原理分析》Redis主从复制通过Sync和CommandPropagate阶段实现数据同步,2.8版本后引入Psync指令,根据复制偏移量进行全量或部分同步,优化了数据传输效率... 目录Redis主DodMIK从复制实现原理实现原理Psync: 2.8版本后总结Redis主从复制实