SparkSQL在字节跳动的应用实践和优化实战

2024-09-06 21:32

文章标签 实战实践应用优化字节跳动 sparksql

本文主要是介绍SparkSQL在字节跳动的应用实践和优化实战，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

来源:字节跳动白泉的分享

作者:大数据技术与架构整理

点击右侧关注，大数据开发领域最强公众号！

点击右侧关注，暴走大数据！

By 大数据技术与架构

场景描述： 面对大量复杂的数据分析需求，提供一套稳定、高效、便捷的企业级查询分析服务具有重大意义。本次演讲介绍了字节跳动基于SparkSQL建设大数据查询统一服务TQS（Toutiao Query Service）的一些实践以及在执行计划调优、数据读取剪枝、SQL兼容性等方面对SparkSQL引擎的一些优化。

关键词：SparkSQL优化字节跳动

本文是根据来自字节跳动的分享整理而成。

作者来自字节跳动数据平台查询分析团队。

目标和能力

为公司内部提供 Hive 、 Spark - SQL 等 OLAP 查询引擎服务支持。

提供全公司大数据查询的统一服务入口，支持丰富的API接口，覆盖Adhoc、ETL等SQL查询需求
支持多引擎的智能路由、参数的动态优化
Spark-SQL/Hive引擎性能优化

针对SparkSQL，主要做了以下优化：

1. 执行计划自动调优

•基于AE的 ShuffledHashJoin调整

•Leftjoinbuildleftmap技术

2. 数据读取剪枝

•Parquetlocalsort

•BloomFilter&BitMap

•Prewhere

3. 一些其它优化

执行计划调优

执行计划的自动调优：

Spark Adaptive Execution （ Intel®Software）,简称SparkAE，总体思想是将sparksql生成的1个job中的所有stage单独执行，为每一个stage单独创建一个子job，子job执行完后收集该stage相关的统计信息（主要是数据量和记录数），并依据这些统计信息优化调整下游stage的执行计划。

目前SparkAE主要支持的功能：

（1）数据倾斜的调整

（2）小task的合并

（3）sortmerge-> broadcase

Spark 有3种join方式：Broadcastjoin、ShuffledHashJoin、SortMergeJoin

普通leftjoin无法build 左表

优化点：

在AE的框架下，根据shuffle数据量大小，自动调整join执行计划：SortMergeJoin调整为 ShuffledHashJoin•扩展支持left-join时将左表build成HashMap。

省去了大表join小表的情况下对shuffle数据的排序过程、join过程以HashMap完成，实现join提速。

SortMergeJoin调整为ShuffledHashJoin

640?wx_fmt=png

Leftjoin build left sidemap

1、初始化表A的一个匹配记录的映射表

目标：

对于Left-join的情况，可以对左表进行HashMapbuild。使得小左表leftjoin大右表的情况可以进行ShuffledHashJoin调整

难点：

Left-join语义：左表没有join成功的key，也需要输出

原理

在构建左表Map的时候，额外维持一个"是否已匹配"的映射表；在和右表join结束之后，把所有没有匹配到的key，用null进行join填充。

以 Aleft join B 为例：

640?wx_fmt=png

2、join过程中，匹配到的key置为1，没有匹配到的项不变（如key3）

640?wx_fmt=png

3、join结束后，没有匹配到的项，生成一个补充结果集R2

640?wx_fmt=png

640?wx_fmt=png

4.合并结果集R1和结果集R2，输出最终生成的join结果R。

640?wx_fmt=png

优化结果

约95%左右的joinSQL有被调整成ShuffledHashJoin/BroadcastJoin
被优化的SQL整体速度提升20%~30%
整体执行时长缩短

640?wx_fmt=png

基于Parquet数据读取剪枝

以parquet格式数据为对象，在数据读取时进行适当的过滤剪枝，从而减少读取的数据量，加速查询速度

优化点：

LocalSort
BoomFilter
BitMap
Prewhere

基于Parquet数据读取剪枝：LocalSort

对parquet文件针对某个高频字段进行排序。从而实现读数据时RowGroup的过滤

目标：

自动选择排序字段
生成文件时自动排序

640?wx_fmt=png

Parquet文件读取原理：

（1）每个rowgroup的元信息里，都会记录自己包含的各个列的最大值和最小值

（2）读取时如何这个值不在最大值、最小值范围内，则跳过RowGroup

生成hive分区文件时，先读取metastore，获取它是否需要使用localsort，如果需要，选择它的高频列是哪个。

基于Parquet数据读取剪枝：BloomFilter&BitMap

640?wx_fmt=png

640?wx_fmt=png

640?wx_fmt=png

整体优化结果：

命中索引平均性能提升 30%
生成时间增加：10%
空间开销增加：5%

如何选取合适的列

640?wx_fmt=png

Local_sort &BloomFilter & BitMap 如何自动生效

640?wx_fmt=png

基于Parquet数据读取剪枝：Prewhere

基于列式存储各列分别存储、读取的特性•针对需要返回多列的SQL，先根据下推条件对RowId进行过滤、选取。再有跳过地读取其他列，从而减少无关IO和后续计算•谓词选择（简单、计算量小）:in,=,<>,isnull,isnotnull

优化结果使得：特定 SQL （ Project16 列， where条件 2 列） SQL 平均性能提升 20%

其他优化

Hive/SparkLoad分区Move文件优化：

通过调整staging目录位置，实现在Load过程中mv文件夹，替代逐个mv文件，从而减少与NameNode的交互次数

Spark生成文件合并

通过最后增加一个repartitionstage合并spark生成文件。

Vcore

对于CPU使用率低的场景，通过vcore技术使得一个yarn-core可以启动多个spark-core

Spark 访问hivemetastore 特定filter下推：

构造 get_partitions_by_filter实现 cast、substring等条件下推hivemetastore，从而减轻metastore返回数据量

运行期调优

在SQL执行前，通过统一的查询入口，对其进行基于代价的预估，选择合适的引擎和参数:

1.SQL分析

抽取Hiveexplain逻辑，进行SQL语法正确性检查
对SQL包含的算子、输入的数据量进行标注

2.自动引擎选择/自动参数优化

标注结果自动选择执行引擎：

小SQL走SparkServer（省去yarn申请资源耗时）
其他默认走Spark-Submit

标注结果选择不同运行参数：

Executor个数/内存
Overhead、堆外内存

调优后使得Adhoc30s以内SQL占比45%，Spark-Submit内存使用量平均减少20%。

欢迎点赞+收藏+转发朋友圈素质三连

640?wx_fmt=jpeg

文章不错？点个【在看】吧！ ?

这篇关于SparkSQL在字节跳动的应用实践和优化实战的文章就介绍到这儿，希望我们推荐的文章对编程师们有所帮助！

http://www.chinasem.cn/article/1143176。 23002807@qq.com

相关文章

从原理到实战深入理解Java 断言assert

从原理到实战深入理解Java 断言assert

《从原理到实战深入理解Java断言assert》本文深入解析Java断言机制,涵盖语法、工作原理、启用方式及与异常的区别,推荐用于开发阶段的条件检查与状态验证,并强调生产环境应使用参数验证工具类替代... 目录深入理解 Java 断言（assert）：从原理到实战引言：为什么需要断言？一、断言基础1.1 语

阅读更多...

Java中的雪花算法Snowflake解析与实践技巧

Java中的雪花算法Snowflake解析与实践技巧

《Java中的雪花算法Snowflake解析与实践技巧》本文解析了雪花算法的原理、Java实现及生产实践,涵盖ID结构、位运算技巧、时钟回拨处理、WorkerId分配等关键点,并探讨了百度UidGen... 目录一、雪花算法核心原理1.1 算法起源1.2 ID结构详解1.3 核心特性二、Java实现解析2.

阅读更多...

Python中re模块结合正则表达式的实际应用案例

Python中re模块结合正则表达式的实际应用案例

《Python中re模块结合正则表达式的实际应用案例》Python中的re模块是用于处理正则表达式的强大工具,正则表达式是一种用来匹配字符串的模式,它可以在文本中搜索和匹配特定的字符串模式,这篇文章主... 目录前言re模块常用函数一、查看文本中是否包含 A 或 B 字符串二、替换多个关键词为统一格式三、提

阅读更多...

Java MQTT实战应用

Java MQTT实战应用

《JavaMQTT实战应用》本文详解MQTT协议,涵盖其发布/订阅机制、低功耗高效特性、三种服务质量等级（QoS0/1/2）,以及客户端、代理、主题的核心概念,最后提供Linux部署教程、Sprin... 目录一、MQTT协议二、MQTT优点三、三种服务质量等级四、客户端、代理、主题1. 客户端（Clien

阅读更多...

MyBatisPlus如何优化千万级数据的CRUD

MyBatisPlus如何优化千万级数据的CRUD

《MyBatisPlus如何优化千万级数据的CRUD》最近负责的一个项目,数据库表量级破千万,每次执行CRUD都像走钢丝,稍有不慎就引起数据库报警,本文就结合这个项目的实战经验,聊聊MyBatisPl... 目录背景一、MyBATis Plus 简介二、千万级数据的挑战三、优化 CRUD 的关键策略1. 查

阅读更多...

MySQL 中 ROW_NUMBER() 函数最佳实践

MySQL 中 ROW_NUMBER() 函数最佳实践

《MySQL中ROW_NUMBER()函数最佳实践》MySQL中ROW_NUMBER()函数,作为窗口函数为每行分配唯一连续序号,区别于RANK()和DENSE_RANK(),特别适合分页、去重... 目录mysql 中 ROW_NUMBER() 函数详解一、基础语法二、核心特点三、典型应用场景1. 数据分

阅读更多...

在Spring Boot中集成RabbitMQ的实战记录

在Spring Boot中集成RabbitMQ的实战记录

《在SpringBoot中集成RabbitMQ的实战记录》本文介绍SpringBoot集成RabbitMQ的步骤,涵盖配置连接、消息发送与接收,并对比两种定义Exchange与队列的方式:手动声明(... 目录前言准备工作1. 安装 RabbitMQ2. 消息发送者（Producer）配置1. 创建 Spr

阅读更多...

深度解析Spring Boot拦截器Interceptor与过滤器Filter的区别与实战指南

深度解析Spring Boot拦截器Interceptor与过滤器Filter的区别与实战指南

《深度解析SpringBoot拦截器Interceptor与过滤器Filter的区别与实战指南》本文深度解析SpringBoot中拦截器与过滤器的区别,涵盖执行顺序、依赖关系、异常处理等核心差异,并... 目录Spring Boot拦截器（Interceptor）与过滤器（Filter）深度解析：区别、实现

阅读更多...

深度解析Spring AOP @Aspect 原理、实战与最佳实践教程

深度解析Spring AOP @Aspect 原理、实战与最佳实践教程

《深度解析SpringAOP@Aspect原理、实战与最佳实践教程》文章系统讲解了SpringAOP核心概念、实现方式及原理,涵盖横切关注点分离、代理机制（JDK/CGLIB）、切入点类型、性能... 目录1. @ASPect 核心概念1.1 AOP 编程范式1.2 @Aspect 关键特性2. 完整代码实

阅读更多...

MySQL中的索引结构和分类实战案例详解

MySQL中的索引结构和分类实战案例详解

《MySQL中的索引结构和分类实战案例详解》本文详解MySQL索引结构与分类,涵盖B树、B+树、哈希及全文索引,分析其原理与优劣势,并结合实战案例探讨创建、管理及优化技巧,助力提升查询性能,感兴趣的朋... 目录一、索引概述1.1 索引的定义与作用1.2 索引的基本原理二、索引结构详解2.1 B树索引2.2

阅读更多...