SparkSQL Catalyst优化器

2023-12-13 10:48
文章标签 优化 sparksql catalyst

本文主要是介绍SparkSQL Catalyst优化器,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

文章目录

  • RDD 和 SpakSQL 运行时的区别
  • Catalyst
    • step1:解析 SQL,并且生成 AST(抽象语法树)
    • step2:在 AST 中加入元数据信息
    • step3:对已经加入元数据的 AST,输入优化器,进行优化
      • 谓词下推(Predicate Pushdown)
      • 列值裁剪(Column Pruning)
    • step4:生成物理计划 RDD


RDD 和 SpakSQL 运行时的区别

RDD 的运行流程
在这里插入图片描述
大致运行步骤:先将 RDD 解析为由 Stage 组成的 DAG,后将 Stage 转为 Task 直接运行

RDD 无法自我优化,RDD 没有 Schema 信息,RDD 可以同时处理结构化和非结构化的数据。

SparkSQL 提供了什么?

在这里插入图片描述
和 RDD 不同,SparkSQL 和 Dataset 和 SQL 并不是直接生成计划交给集群执行,而是经过了一个叫 Catalyst 的优化器,这个优化器能够自动帮助开发者优化代码。也就是说,在 SparkSQL 中,开发者的代码即使不够优化,也会被优化为相对较好的形式去执行。

SparkSQL 大部分情况用于处理结构化数据和半结构化数据,所以 SparkSQL 可以获知数据的 Schema,从而根据其 Schema来进行优化。


Catalyst

为了解决过多依赖 Hive 的问题,SparkSQL 使用了一个新的 SQL 优化器替代 Hive 中的优化器,整个 SparkSQL 的架构大致如下:
在这里插入图片描述

  • 1.API 层简单的说就是 Spark 会通过一些 API 接受 SQL 语句。
  • 2.收到 SQL 语句以后,将其交给 Catalyst,Catalyst 负责解析 SQL,生成执行计划等。
  • 3.Catalyst 的输出应该是 RDD 的执行计划。
  • 4.最终交由集群执行。

在这里插入图片描述


step1:解析 SQL,并且生成 AST(抽象语法树)

在这里插入图片描述

step2:在 AST 中加入元数据信息

做这一步主要是为了一些优化, 例如 col = col 这样的条件, 下图是一个简略图, 便于理解。
在这里插入图片描述

  • score.id → id#1#L 为 score.id 生成 id 为 1, 类型是 Long
  • score.math_score → math_score#2#L 为 score.math_score 生成 id 为 2, 类型为 Long
  • people.id → id#3#L 为 people.id 生成 id 为 3, 类型为 Long
  • people.age → age#4#L 为 people.age 生成 id 为 4, 类型为 Long

step3:对已经加入元数据的 AST,输入优化器,进行优化

谓词下推(Predicate Pushdown)

减少操作时候的数据量
在这里插入图片描述

列值裁剪(Column Pruning)

在谓词下推后, people 表之上的操作只用到了 id 列, 所以可以把其它列裁剪掉, 这样可以减少处理的数据量, 从而优化处理速度,如下图
在这里插入图片描述
百种优化方式, 源码在 org.apache.spark.sql.catalyst.optimizer.Optimizer

step4:生成物理计划 RDD

上面的过程生成的 AST 其实最终还没办法直接运行,这个 AST 叫做逻辑计划,结束后,需要生成 物理计划,从而生成 RDD 来运行。

  • 在生成物理计划的时候,会经过成本模型对整课数再次执行优化,选择一个更好的计划
  • 在生成物理计划以后,因为考虑到性能,所以会使用代码生成,在机器中运行

总结:

  • SparkSQL 和 RDD 不同的主要点是在于其所操作的数据是结构化的,提供了对数据更强的感知和分析能力,能够对代码进行更深层的优化,而这种能力是有一个叫做 Catalyst 的优化器所提供的。
  • Catalyst 的主要运作原理是分为三步,先对 SQL 或者 Dataset 的代码解析,生成逻辑计划,后对逻辑计划进行优化,再生成物理计划,最后生成代码到集群中以 RDD 的形式运行。

这篇关于SparkSQL Catalyst优化器的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/488193

相关文章

Oracle查询优化之高效实现仅查询前10条记录的方法与实践

《Oracle查询优化之高效实现仅查询前10条记录的方法与实践》:本文主要介绍Oracle查询优化之高效实现仅查询前10条记录的相关资料,包括使用ROWNUM、ROW_NUMBER()函数、FET... 目录1. 使用 ROWNUM 查询2. 使用 ROW_NUMBER() 函数3. 使用 FETCH FI

C#使用HttpClient进行Post请求出现超时问题的解决及优化

《C#使用HttpClient进行Post请求出现超时问题的解决及优化》最近我的控制台程序发现有时候总是出现请求超时等问题,通常好几分钟最多只有3-4个请求,在使用apipost发现并发10个5分钟也... 目录优化结论单例HttpClient连接池耗尽和并发并发异步最终优化后优化结论我直接上优化结论吧,

Java内存泄漏问题的排查、优化与最佳实践

《Java内存泄漏问题的排查、优化与最佳实践》在Java开发中,内存泄漏是一个常见且令人头疼的问题,内存泄漏指的是程序在运行过程中,已经不再使用的对象没有被及时释放,从而导致内存占用不断增加,最终... 目录引言1. 什么是内存泄漏?常见的内存泄漏情况2. 如何排查 Java 中的内存泄漏?2.1 使用 J

MySQL不使用子查询的原因及优化案例

《MySQL不使用子查询的原因及优化案例》对于mysql,不推荐使用子查询,效率太差,执行子查询时,MYSQL需要创建临时表,查询完毕后再删除这些临时表,所以,子查询的速度会受到一定的影响,本文给大家... 目录不推荐使用子查询和JOIN的原因解决方案优化案例案例1:查询所有有库存的商品信息案例2:使用EX

MySQL中my.ini文件的基础配置和优化配置方式

《MySQL中my.ini文件的基础配置和优化配置方式》文章讨论了数据库异步同步的优化思路,包括三个主要方面:幂等性、时序和延迟,作者还分享了MySQL配置文件的优化经验,并鼓励读者提供支持... 目录mysql my.ini文件的配置和优化配置优化思路MySQL配置文件优化总结MySQL my.ini文件

正则表达式高级应用与性能优化记录

《正则表达式高级应用与性能优化记录》本文介绍了正则表达式的高级应用和性能优化技巧,包括文本拆分、合并、XML/HTML解析、数据分析、以及性能优化方法,通过这些技巧,可以更高效地利用正则表达式进行复杂... 目录第6章:正则表达式的高级应用6.1 模式匹配与文本处理6.1.1 文本拆分6.1.2 文本合并6

Vue3 的 shallowRef 和 shallowReactive:优化性能

大家对 Vue3 的 ref 和 reactive 都很熟悉,那么对 shallowRef 和 shallowReactive 是否了解呢? 在编程和数据结构中,“shallow”(浅层)通常指对数据结构的最外层进行操作,而不递归地处理其内部或嵌套的数据。这种处理方式关注的是数据结构的第一层属性或元素,而忽略更深层次的嵌套内容。 1. 浅层与深层的对比 1.1 浅层(Shallow) 定义

HDFS—存储优化(纠删码)

纠删码原理 HDFS 默认情况下,一个文件有3个副本,这样提高了数据的可靠性,但也带来了2倍的冗余开销。 Hadoop3.x 引入了纠删码,采用计算的方式,可以节省约50%左右的存储空间。 此种方式节约了空间,但是会增加 cpu 的计算。 纠删码策略是给具体一个路径设置。所有往此路径下存储的文件,都会执行此策略。 默认只开启对 RS-6-3-1024k

使用opencv优化图片(画面变清晰)

文章目录 需求影响照片清晰度的因素 实现降噪测试代码 锐化空间锐化Unsharp Masking频率域锐化对比测试 对比度增强常用算法对比测试 需求 对图像进行优化,使其看起来更清晰,同时保持尺寸不变,通常涉及到图像处理技术如锐化、降噪、对比度增强等 影响照片清晰度的因素 影响照片清晰度的因素有很多,主要可以从以下几个方面来分析 1. 拍摄设备 相机传感器:相机传

MySQL高性能优化规范

前言:      笔者最近上班途中突然想丰富下自己的数据库优化技能。于是在查阅了多篇文章后,总结出了这篇! 数据库命令规范 所有数据库对象名称必须使用小写字母并用下划线分割 所有数据库对象名称禁止使用mysql保留关键字(如果表名中包含关键字查询时,需要将其用单引号括起来) 数据库对象的命名要能做到见名识意,并且最后不要超过32个字符 临时库表必须以tmp_为前缀并以日期为后缀,备份