SparkSQL Catalyst优化器

2023-12-13 10:48
文章标签 优化 sparksql catalyst

本文主要是介绍SparkSQL Catalyst优化器,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

文章目录

  • RDD 和 SpakSQL 运行时的区别
  • Catalyst
    • step1:解析 SQL,并且生成 AST(抽象语法树)
    • step2:在 AST 中加入元数据信息
    • step3:对已经加入元数据的 AST,输入优化器,进行优化
      • 谓词下推(Predicate Pushdown)
      • 列值裁剪(Column Pruning)
    • step4:生成物理计划 RDD


RDD 和 SpakSQL 运行时的区别

RDD 的运行流程
在这里插入图片描述
大致运行步骤:先将 RDD 解析为由 Stage 组成的 DAG,后将 Stage 转为 Task 直接运行

RDD 无法自我优化,RDD 没有 Schema 信息,RDD 可以同时处理结构化和非结构化的数据。

SparkSQL 提供了什么?

在这里插入图片描述
和 RDD 不同,SparkSQL 和 Dataset 和 SQL 并不是直接生成计划交给集群执行,而是经过了一个叫 Catalyst 的优化器,这个优化器能够自动帮助开发者优化代码。也就是说,在 SparkSQL 中,开发者的代码即使不够优化,也会被优化为相对较好的形式去执行。

SparkSQL 大部分情况用于处理结构化数据和半结构化数据,所以 SparkSQL 可以获知数据的 Schema,从而根据其 Schema来进行优化。


Catalyst

为了解决过多依赖 Hive 的问题,SparkSQL 使用了一个新的 SQL 优化器替代 Hive 中的优化器,整个 SparkSQL 的架构大致如下:
在这里插入图片描述

  • 1.API 层简单的说就是 Spark 会通过一些 API 接受 SQL 语句。
  • 2.收到 SQL 语句以后,将其交给 Catalyst,Catalyst 负责解析 SQL,生成执行计划等。
  • 3.Catalyst 的输出应该是 RDD 的执行计划。
  • 4.最终交由集群执行。

在这里插入图片描述


step1:解析 SQL,并且生成 AST(抽象语法树)

在这里插入图片描述

step2:在 AST 中加入元数据信息

做这一步主要是为了一些优化, 例如 col = col 这样的条件, 下图是一个简略图, 便于理解。
在这里插入图片描述

  • score.id → id#1#L 为 score.id 生成 id 为 1, 类型是 Long
  • score.math_score → math_score#2#L 为 score.math_score 生成 id 为 2, 类型为 Long
  • people.id → id#3#L 为 people.id 生成 id 为 3, 类型为 Long
  • people.age → age#4#L 为 people.age 生成 id 为 4, 类型为 Long

step3:对已经加入元数据的 AST,输入优化器,进行优化

谓词下推(Predicate Pushdown)

减少操作时候的数据量
在这里插入图片描述

列值裁剪(Column Pruning)

在谓词下推后, people 表之上的操作只用到了 id 列, 所以可以把其它列裁剪掉, 这样可以减少处理的数据量, 从而优化处理速度,如下图
在这里插入图片描述
百种优化方式, 源码在 org.apache.spark.sql.catalyst.optimizer.Optimizer

step4:生成物理计划 RDD

上面的过程生成的 AST 其实最终还没办法直接运行,这个 AST 叫做逻辑计划,结束后,需要生成 物理计划,从而生成 RDD 来运行。

  • 在生成物理计划的时候,会经过成本模型对整课数再次执行优化,选择一个更好的计划
  • 在生成物理计划以后,因为考虑到性能,所以会使用代码生成,在机器中运行

总结:

  • SparkSQL 和 RDD 不同的主要点是在于其所操作的数据是结构化的,提供了对数据更强的感知和分析能力,能够对代码进行更深层的优化,而这种能力是有一个叫做 Catalyst 的优化器所提供的。
  • Catalyst 的主要运作原理是分为三步,先对 SQL 或者 Dataset 的代码解析,生成逻辑计划,后对逻辑计划进行优化,再生成物理计划,最后生成代码到集群中以 RDD 的形式运行。

这篇关于SparkSQL Catalyst优化器的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/488193

相关文章

Python通过模块化开发优化代码的技巧分享

《Python通过模块化开发优化代码的技巧分享》模块化开发就是把代码拆成一个个“零件”,该封装封装,该拆分拆分,下面小编就来和大家简单聊聊python如何用模块化开发进行代码优化吧... 目录什么是模块化开发如何拆分代码改进版:拆分成模块让模块更强大:使用 __init__.py你一定会遇到的问题模www.

SpringBoot首笔交易慢问题排查与优化方案

《SpringBoot首笔交易慢问题排查与优化方案》在我们的微服务项目中,遇到这样的问题:应用启动后,第一笔交易响应耗时高达4、5秒,而后续请求均能在毫秒级完成,这不仅触发监控告警,也极大影响了用户体... 目录问题背景排查步骤1. 日志分析2. 性能工具定位优化方案:提前预热各种资源1. Flowable

SpringBoot3实现Gzip压缩优化的技术指南

《SpringBoot3实现Gzip压缩优化的技术指南》随着Web应用的用户量和数据量增加,网络带宽和页面加载速度逐渐成为瓶颈,为了减少数据传输量,提高用户体验,我们可以使用Gzip压缩HTTP响应,... 目录1、简述2、配置2.1 添加依赖2.2 配置 Gzip 压缩3、服务端应用4、前端应用4.1 N

Spring Boot + MyBatis Plus 高效开发实战从入门到进阶优化(推荐)

《SpringBoot+MyBatisPlus高效开发实战从入门到进阶优化(推荐)》本文将详细介绍SpringBoot+MyBatisPlus的完整开发流程,并深入剖析分页查询、批量操作、动... 目录Spring Boot + MyBATis Plus 高效开发实战:从入门到进阶优化1. MyBatis

MyBatis 动态 SQL 优化之标签的实战与技巧(常见用法)

《MyBatis动态SQL优化之标签的实战与技巧(常见用法)》本文通过详细的示例和实际应用场景,介绍了如何有效利用这些标签来优化MyBatis配置,提升开发效率,确保SQL的高效执行和安全性,感... 目录动态SQL详解一、动态SQL的核心概念1.1 什么是动态SQL?1.2 动态SQL的优点1.3 动态S

Python如何使用__slots__实现节省内存和性能优化

《Python如何使用__slots__实现节省内存和性能优化》你有想过,一个小小的__slots__能让你的Python类内存消耗直接减半吗,没错,今天咱们要聊的就是这个让人眼前一亮的技巧,感兴趣的... 目录背景:内存吃得满满的类__slots__:你的内存管理小助手举个大概的例子:看看效果如何?1.

一文详解SpringBoot响应压缩功能的配置与优化

《一文详解SpringBoot响应压缩功能的配置与优化》SpringBoot的响应压缩功能基于智能协商机制,需同时满足很多条件,本文主要为大家详细介绍了SpringBoot响应压缩功能的配置与优化,需... 目录一、核心工作机制1.1 自动协商触发条件1.2 压缩处理流程二、配置方案详解2.1 基础YAML

MySQL中慢SQL优化的不同方式介绍

《MySQL中慢SQL优化的不同方式介绍》慢SQL的优化,主要从两个方面考虑,SQL语句本身的优化,以及数据库设计的优化,下面小编就来给大家介绍一下有哪些方式可以优化慢SQL吧... 目录避免不必要的列分页优化索引优化JOIN 的优化排序优化UNION 优化慢 SQL 的优化,主要从两个方面考虑,SQL 语

MySQL中慢SQL优化方法的完整指南

《MySQL中慢SQL优化方法的完整指南》当数据库响应时间超过500ms时,系统将面临三大灾难链式反应,所以本文将为大家介绍一下MySQL中慢SQL优化的常用方法,有需要的小伙伴可以了解下... 目录一、慢SQL的致命影响二、精准定位问题SQL1. 启用慢查询日志2. 诊断黄金三件套三、六大核心优化方案方案

Redis中高并发读写性能的深度解析与优化

《Redis中高并发读写性能的深度解析与优化》Redis作为一款高性能的内存数据库,广泛应用于缓存、消息队列、实时统计等场景,本文将深入探讨Redis的读写并发能力,感兴趣的小伙伴可以了解下... 目录引言一、Redis 并发能力概述1.1 Redis 的读写性能1.2 影响 Redis 并发能力的因素二、