spark sql 从antlr的ast到Unresolved Logical Plan

2024-03-13 17:50

本文主要是介绍spark sql 从antlr的ast到Unresolved Logical Plan,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

spark sql 从antlr的ast到Unresolved Logical Plan
前提
  • 了解spark sql流程
  • 了解antlr,能看懂antlr的语法文件(*.g4),了解antlr访问者模式,安装idea antlr插件
准备

生成antlr语法树

  • 在idea中打开SqlBase.g4,这个是antlr规定的spark sql的sql语法.如果我们想看看某个关键字在spark sql 中怎么用,如果熟悉antlr的话,也可以到这个文件中查看.
  • 编写sql
/* 在插件中所有字母必需大写
fragment LETTER: [A-Z];*/
SELECT NAME,AGE FROM USER

image
image
spark 中编写相应的代码,方便调试

import org.apache.spark.sql.SparkSessionobject TestSql {def main(args: Array[String]): Unit = {val spark: SparkSession = SparkSession.builder().config("spark.sql.shuffle.partitions", 5).master("local[*]").appName("us").getOrCreate()import spark._sql("SELECT NAME,AGE FROM USER").show()}}
  /** Creates LogicalPlan for a given SQL string. *///追踪代码,在这里把 sql转成了LogicalPlanoverride def parsePlan(sqlText: String): LogicalPlan = parse(sqlText) { parser =>astBuilder.visitSingleStatement(parser.singleStatement()) match {case plan: LogicalPlan => plancase _ =>val position = Origin(None, None)throw new ParseException(Option(sqlText), "Unsupported SQL statement", position, position)}}
  • 打开类
class AstBuilder(conf: SQLConf) extends SqlBaseBaseVisitor[AnyRef] with Logging

这个类extends 了antlr的SqlBaseBaseVisitor,SqlBaseBaseVisitor对所有的方法都有一个默认的实现,即访问子节点.所以AstBuilder并不需要重新实现全部的方法,只用实现关心的方法.

public class SqlBaseBaseVisitor<T> extends AbstractParseTreeVisitor<T> implements SqlBaseVisitor<T> {/*** {@inheritDoc}** <p>The default implementation returns the result of calling* {@link #visitChildren} on {@code ctx}.</p>*/@Override public T visitSingleStatement(SqlBaseParser.SingleStatementContext ctx) { return visitChildren(ctx); }
  • 开始分析
    结合上图生成的ast,第一个访问的节点是 singleStatement,ast中的
  /*第1步 singleStatement  语法树的起点*/override def visitSingleStatement(ctx: SingleStatementContext): LogicalPlan = withOrigin(ctx) {//visit 直接去访问子节点,由图可知下一个是statement:statementDefault(看冒号扣面的,给每个分支定义一个名称)visit(ctx.statement).asInstanceOf[LogicalPlan]}

visitStatementDefault没有实现,直接访问下一个节点

  /*** Create a top-level plan with Common Table Expressions.* query* : ctes? queryNoWith* 第2步* ;*/override def visitQuery(ctx: QueryContext): LogicalPlan = withOrigin(ctx) {//访问 queryNoWith节点val query = plan(ctx.queryNoWith)/*这个ctes不知道是干什么的,这条sql没有这个部分,我们可以查看sqlBase.g4关于ctes的定义ctes: WITH namedQuery (',' namedQuery)*;*/// Apply CTEsquery.optional(ctx.ctes) {val ctes = ctx.ctes.namedQuery.asScala.map { nCtx =>val namedQuery = visitNamedQuery(nCtx)(namedQuery.alias, namedQuery)}// Check for duplicate names.checkDuplicateKeys(ctes, ctx)With(query, ctes.toMap)}}

以此类推,我们就可以自己去追踪如何根据ast生成LogicalPlan

  /*** Create a logical plan for a regular (single-insert) query.* 创建一个logical计划,为一个常规的(简单查询)* 第3步*/override def visitSingleInsertQuery(ctx: SingleInsertQueryContext): LogicalPlan = withOrigin(ctx) {//访问queryTermDefault 没有实现,访问子节点plan(ctx.queryTerm).// Add organization statements.// 以with开头的方法添加信息到Logical planoptionalMap(ctx.queryOrganization)(withQueryResultClauses).// Add insert.optionalMap(ctx.insertInto())(withInsertInto)}/*** Create a logical plan using a query specification.* 用一个查询规范 创建一个 logical plan* 第4步  SELECT xxx from xxx where xxx having xxx  剔除了 sort by /order by /limit 等*/override def visitQuerySpecification(ctx: QuerySpecificationContext): LogicalPlan = withOrigin(ctx) {val from = OneRowRelation.optional(ctx.fromClause) {visitFromClause(ctx.fromClause)}withQuerySpecification(ctx, from)}

在了解了LogicalPlan,expression表达式后,再来继续.

这篇关于spark sql 从antlr的ast到Unresolved Logical Plan的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/805683

相关文章

Mysql虚拟列的使用场景

《Mysql虚拟列的使用场景》MySQL虚拟列是一种在查询时动态生成的特殊列,它不占用存储空间,可以提高查询效率和数据处理便利性,本文给大家介绍Mysql虚拟列的相关知识,感兴趣的朋友一起看看吧... 目录1. 介绍mysql虚拟列1.1 定义和作用1.2 虚拟列与普通列的区别2. MySQL虚拟列的类型2

mysql数据库分区的使用

《mysql数据库分区的使用》MySQL分区技术通过将大表分割成多个较小片段,提高查询性能、管理效率和数据存储效率,本文就来介绍一下mysql数据库分区的使用,感兴趣的可以了解一下... 目录【一】分区的基本概念【1】物理存储与逻辑分割【2】查询性能提升【3】数据管理与维护【4】扩展性与并行处理【二】分区的

MySQL中时区参数time_zone解读

《MySQL中时区参数time_zone解读》MySQL时区参数time_zone用于控制系统函数和字段的DEFAULTCURRENT_TIMESTAMP属性,修改时区可能会影响timestamp类型... 目录前言1.时区参数影响2.如何设置3.字段类型选择总结前言mysql 时区参数 time_zon

Python MySQL如何通过Binlog获取变更记录恢复数据

《PythonMySQL如何通过Binlog获取变更记录恢复数据》本文介绍了如何使用Python和pymysqlreplication库通过MySQL的二进制日志(Binlog)获取数据库的变更记录... 目录python mysql通过Binlog获取变更记录恢复数据1.安装pymysqlreplicat

使用SQL语言查询多个Excel表格的操作方法

《使用SQL语言查询多个Excel表格的操作方法》本文介绍了如何使用SQL语言查询多个Excel表格,通过将所有Excel表格放入一个.xlsx文件中,并使用pandas和pandasql库进行读取和... 目录如何用SQL语言查询多个Excel表格如何使用sql查询excel内容1. 简介2. 实现思路3

Mysql DATETIME 毫秒坑的解决

《MysqlDATETIME毫秒坑的解决》本文主要介绍了MysqlDATETIME毫秒坑的解决,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着... 今天写代码突发一个诡异的 bug,代码逻辑大概如下。1. 新增退款单记录boolean save = s

mysql-8.0.30压缩包版安装和配置MySQL环境过程

《mysql-8.0.30压缩包版安装和配置MySQL环境过程》该文章介绍了如何在Windows系统中下载、安装和配置MySQL数据库,包括下载地址、解压文件、创建和配置my.ini文件、设置环境变量... 目录压缩包安装配置下载配置环境变量下载和初始化总结压缩包安装配置下载下载地址:https://d

MySQL中的锁和MVCC机制解读

《MySQL中的锁和MVCC机制解读》MySQL事务、锁和MVCC机制是确保数据库操作原子性、一致性和隔离性的关键,事务必须遵循ACID原则,锁的类型包括表级锁、行级锁和意向锁,MVCC通过非锁定读和... 目录mysql的锁和MVCC机制事务的概念与ACID特性锁的类型及其工作机制锁的粒度与性能影响多版本

MYSQL行列转置方式

《MYSQL行列转置方式》本文介绍了如何使用MySQL和Navicat进行列转行操作,首先,创建了一个名为`grade`的表,并插入多条数据,然后,通过修改查询SQL语句,使用`CASE`和`IF`函... 目录mysql行列转置开始列转行之前的准备下面开始步入正题总结MYSQL行列转置环境准备:mysq

MySQL不使用子查询的原因及优化案例

《MySQL不使用子查询的原因及优化案例》对于mysql,不推荐使用子查询,效率太差,执行子查询时,MYSQL需要创建临时表,查询完毕后再删除这些临时表,所以,子查询的速度会受到一定的影响,本文给大家... 目录不推荐使用子查询和JOIN的原因解决方案优化案例案例1:查询所有有库存的商品信息案例2:使用EX