浪尖以案例聊聊spark3的动态分区裁剪

2023-10-09 02:38

文章标签 动态裁剪案例聊聊分区浪尖 spark3

本文主要是介绍浪尖以案例聊聊spark3的动态分区裁剪，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

动态分区裁剪，其实就牵涉到谓词下推，希望在读本文之前，你已经掌握了什么叫做谓词下推执行。

SparkSql 中外连接查询中的谓词下推规则

动态分区裁剪比谓词下推更复杂点，因为他会整合维表的过滤条件，生成filterset，然后用于事实表的过滤，从而减少join。当然，假设数据源能直接下推执行就更好了，下推到数据源处，是需要有索引和预计算类似的内容。

1.静态数据集分区谓词下推执行

下面sql 是为例

SELECT * FROM Sales WHERE day_of_week = ‘Mon’

该语句执行有两种可能：

1) .全表扫描，然后过滤。

2) .先过滤再扫描。

假如表按照day_of_week字段分区，那sql应该是将filter下推，先过滤，然后在scan。

这就是传统数据库存在索引及预计算的时候所说的谓词下推执行。

2.动态分区裁剪场景

Spark 3.0的分区裁剪的场景主要是基于谓词下推执行filter(动态生成)，然后应用于事实表和维表join的场景。

如果存在分区表和维表上的filter，则通过添加dynamic-partition-pruning filter来实现对另一张表的动态分区修剪。

有下面一个简单的sql，完成的功能是事实表(sales)和维表(Date)的join:

SELECT * FROM Sales JOIN Date WHERE Date.day_of_week = ‘Mon’；

假如不存在任何下推执行的优化，执行过程就应该如下图：

上图就是不存在任何谓词下推执行优化的计算过程，全量扫描事实表sales和维表date表，然后完成join，生成的表基础上进行filter操作，然后在scan计算，显然这样做很浪费性能。

假如维表支持下推执行，那么就可以先进行维表的filter操作，减少维表Date的数据量加载，然后在进行事实表sales的scan和维表date的scan，最后进行join操作。

想一想，由于where条件的filter是维表Date的，spark读取事实表的时候也是需要使用扫描的全表数据来实现join，这就大大增加了计算量。

假如能进一步优化，通过维表date的filter，生成一个新的事实表的salesFilterSet，应用到事实表sales，那么就可以大大减少join计算性能消耗。也即是这个样子：

这个就叫做动态分区裁剪。下面的例子会更详细点：

表t1和t2进行join，为了减少参加join计算的数据量，就为t1表计算（上图右侧sql）生成了一个filter数据集，然后再扫描之后过滤。当然，这个就要权衡一下，filter数据集生成的子查询及保存的性能消耗，与对数据过滤对join的性能优化的对比了，这就要讲到spark sql的优化模型了。

spark sql 是如何实现sql优化操作的呢？

一张图可以概括：

现在sql解析的过程中完成sql语法优化，然后再根据统计代价模型来进行动态执行优化。

逻辑执行计划的优化都是静态的，物理计划的选择可以基于统计代价模型来计算动态选择。

下图是一个基于分区ID的join实现。维表的数据是没有分区的，事实表的数据是分区的。假如没有动态分区裁剪，那么完成的执行过程就如图所示。事实表和维表都需要全表扫描，然后对维表执行filter操作，最后再进行join操作。

假如对维表的filter操作，进行一些计算然后可以生成事实表的filter set，那么就可以减少维表和事实表join的数据量了。就如前面的t1和t2的join例子一样。

当然，上面的例子要考虑计算和保存事实表的filter set集合的开销是否远小于其减少join数据量的增益，否则就得不偿失了。

还有一种join大家都比较熟悉，那就是Broadcast Hash Join。

这种主要是重用广播的结果，来实现filter功能。这个的理解要基于BroadcastExchangeExec。后面出文章详细聊吧。

至于效果码，可以关注浪尖微信公众号：bigdatatip。然后输入：dpp获取完整的ppt及测试数据。

这篇关于浪尖以案例聊聊spark3的动态分区裁剪的文章就介绍到这儿，希望我们推荐的文章对编程师们有所帮助！

http://www.chinasem.cn/article/169742。 23002807@qq.com

相关文章

springboot循环依赖问题案例代码及解决办法

springboot循环依赖问题案例代码及解决办法

《springboot循环依赖问题案例代码及解决办法》在SpringBoot中,如果两个或多个Bean之间存在循环依赖（即BeanA依赖BeanB,而BeanB又依赖BeanA）,会导致Spring的... 目录1. 什么是循环依赖？2. 循环依赖的场景案例3. 解决循环依赖的常见方法方法 1：使用 @La

阅读更多...

C#如何动态创建Label,及动态label事件

C#如何动态创建Label,及动态label事件

《C#如何动态创建Label,及动态label事件》：本文主要介绍C#如何动态创建Label,及动态label事件,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录C#如何动态创建Label,及动态label事件第一点：switch中的生成我们的label事件接着，

阅读更多...

SpringCloud动态配置注解@RefreshScope与@Component的深度解析

SpringCloud动态配置注解@RefreshScope与@Component的深度解析

《SpringCloud动态配置注解@RefreshScope与@Component的深度解析》在现代微服务架构中,动态配置管理是一个关键需求,本文将为大家介绍SpringCloud中相关的注解@Re... 目录引言1. @RefreshScope 的作用与原理1.1 什么是 @RefreshScope1.

阅读更多...

MyBatis 动态 SQL 优化之标签的实战与技巧(常见用法)

MyBatis 动态 SQL 优化之标签的实战与技巧(常见用法)

《MyBatis动态SQL优化之标签的实战与技巧(常见用法)》本文通过详细的示例和实际应用场景,介绍了如何有效利用这些标签来优化MyBatis配置,提升开发效率,确保SQL的高效执行和安全性,感... 目录动态SQL详解一、动态SQL的核心概念1.1 什么是动态SQL？1.2 动态SQL的优点1.3 动态S

阅读更多...

MySQL大表数据的分区与分库分表的实现

MySQL大表数据的分区与分库分表的实现

《MySQL大表数据的分区与分库分表的实现》数据库的分区和分库分表是两种常用的技术方案,本文主要介绍了MySQL大表数据的分区与分库分表的实现,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有... 目录1. mysql大表数据的分区1.1 什么是分区？1.2 分区的类型1.3 分区的优点1.4 分

阅读更多...

mybatis-plus 实现查询表名动态修改的示例代码

mybatis-plus 实现查询表名动态修改的示例代码

《mybatis-plus实现查询表名动态修改的示例代码》通过MyBatis-Plus实现表名的动态替换,根据配置或入参选择不同的表,本文主要介绍了mybatis-plus实现查询表名动态修改的示... 目录实现数据库初始化依赖包配置读取类设置 myBATis-plus 插件测试通过 mybatis-plu

阅读更多...

MySQL中实现多表查询的操作方法(配sql+实操图+案例巩固通俗易懂版)

MySQL中实现多表查询的操作方法(配sql+实操图+案例巩固通俗易懂版)

《MySQL中实现多表查询的操作方法(配sql+实操图+案例巩固通俗易懂版)》本文主要讲解了MySQL中的多表查询,包括子查询、笛卡尔积、自连接、多表查询的实现方法以及多列子查询等,通过实际例子和操... 目录复合查询1. 回顾查询基本操作group by 分组having1. 显示部门号为10的部门名，员

阅读更多...

基于Canvas的Html5多时区动态时钟实战代码

基于Canvas的Html5多时区动态时钟实战代码

《基于Canvas的Html5多时区动态时钟实战代码》：本文主要介绍了如何使用Canvas在HTML5上实现一个多时区动态时钟的web展示，通过Canvas的API，可以绘制出6个不同城市的时钟，并且这些时钟可以动态转动，每个时钟上都会标注出对应的24小时制时间，详细内容请阅读本文，希望能对你有所帮助...

阅读更多...

Vue中动态权限到按钮的完整实现方案详解

Vue中动态权限到按钮的完整实现方案详解

《Vue中动态权限到按钮的完整实现方案详解》这篇文章主要为大家详细介绍了Vue如何在现有方案的基础上加入对路由的增、删、改、查权限控制,感兴趣的小伙伴可以跟随小编一起学习一下... 目录一、数据库设计扩展1.1 修改路由表（routes）1.2 修改角色与路由权限表（role_routes）二、后端接口设计

阅读更多...

前端 CSS 动态设置样式：:class、:style 等技巧(推荐)

前端 CSS 动态设置样式：:class、:style 等技巧(推荐)

《前端CSS动态设置样式：:class、:style等技巧(推荐)》：本文主要介绍了Vue.js中动态绑定类名和内联样式的两种方法：对象语法和数组语法，通过对象语法，可以根据条件动态切换类名或样式；通过数组语法，可以同时绑定多个类名或样式，此外，还可以结合计算属性来生成复杂的类名或样式对象，详细内容请阅读本文，希望能对你有所帮助...

阅读更多...