SparkSQL在字节跳动的应用实践和优化实战

2024-09-06 21:32

本文主要是介绍SparkSQL在字节跳动的应用实践和优化实战,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

来源:字节跳动白泉的分享
作者:大数据技术与架构整理

点击右侧关注,大数据开发领域最强公众号!

点击右侧关注,暴走大数据!



By  大数据技术与架构

场景描述: 面对大量复杂的数据分析需求,提供一套稳定、高效、便捷的企业级查询分析服务具有重大意义。本次演讲介绍了字节跳动基于SparkSQL建设大数据查询统一服务TQS(Toutiao Query Service)的一些实践以及在执行计划调优、数据读取剪枝、SQL兼容性等方面对SparkSQL引擎的一些优化。

关键词:SparkSQL优化 字节跳动

本文是根据来自字节跳动的分享整理而成。

作者来自字节跳动数据平台查询分析团队。

目标和能力

为公司内部提供 Hive 、 Spark - SQL 等 OLAP 查询引擎服务支持。
  • 提供全公司大数据查询的统一服务入口,支持丰富的API接口,覆盖Adhoc、ETL等SQL查询需求

  • 支持多引擎的智能路由、参数的动态优化

  • Spark-SQL/Hive引擎性能优化


针对SparkSQL,主要做了以下优化:
  1. 执行计划自动调优
        •基于AE的 ShuffledHashJoin调整
        •Leftjoinbuildleftmap技术
   2. 数据读取剪枝
        •Parquetlocalsort
        •BloomFilter&BitMap
        •Prewhere
   3. 一些其它优化
 

执行计划调优

  • 执行计划的自动调优:

Spark Adaptive Execution ( Intel®Software),简称SparkAE,总体思想是将sparksql生成的1个job中的所有stage单独执行,为每一个stage单独创建一个子job,子job执行完后收集该stage相关的统计信息(主要是数据量和记录数),并依据这些统计信息优化调整下游stage的执行计划。

目前SparkAE主要支持的功能:
(1)数据倾斜的调整
(2)小task的合并
(3)sortmerge-> broadcase
Spark 有3种join方式:Broadcastjoin、ShuffledHashJoin、SortMergeJoin
普通leftjoin无法build 左表

优化点:
在AE的框架下,根据shuffle数据量大小,自动调整join执行计划:SortMergeJoin调整为 ShuffledHashJoin•扩展支持left-join时将左表build成HashMap。

省去了大表join小表的情况下对shuffle数据的排序过程、join过程以HashMap完成,实现join提速。

  • SortMergeJoin调整为ShuffledHashJoin

640?wx_fmt=png

  • Leftjoin build left sidemap

1、初始化表A的一个匹配记录的映射表
目标:
对于Left-join的情况,可以对左表进行HashMapbuild。使得小左表leftjoin大右表的情况可以进行ShuffledHashJoin调整

难点:
Left-join语义:左表没有join成功的key,也需要输出

原理
在构建左表Map的时候,额外维持一个"是否已匹配"的映射表;在和右表join结束之后,把所有没有匹配到的key,用null进行join填充。
以 Aleft join B 为例:
640?wx_fmt=png

2、join过程中,匹配到的key置为1,没有匹配到的项不变(如key3)
640?wx_fmt=png

3、join结束后,没有匹配到的项,生成一个补充结果集R2
640?wx_fmt=png 640?wx_fmt=png

4.合并结果集R1和结果集R2,输出最终生成的join结果R。
640?wx_fmt=png
优化结果
  • 约95%左右的joinSQL有被调整成ShuffledHashJoin/BroadcastJoin

  • 被优化的SQL整体速度提升20%~30%

  • 整体执行时长缩短

640?wx_fmt=png

基于Parquet数据读取剪枝

以parquet格式数据为对象,在数据读取时进行适当的过滤剪枝,从而减少读取的数据量,加速查询速度
优化点:
  • LocalSort

  • BoomFilter

  • BitMap

  • Prewhere


基于Parquet数据读取剪枝:LocalSort
对parquet文件针对某个高频字段进行排序。从而实现读数据时RowGroup的过滤
目标:
  • 自动选择排序字段

  • 生成文件时自动排序

640?wx_fmt=png

Parquet文件读取原理:
(1)每个rowgroup的元信息里,都会记录自己包含的各个列的最大值和最小值
(2)读取时如何这个值不在最大值、最小值范围内,则跳过RowGroup
生成hive分区文件时,先读取metastore,获取它是否需要使用localsort,如果需要,选择它的高频列是哪个。

基于Parquet数据读取剪枝:BloomFilter&BitMap
640?wx_fmt=png
640?wx_fmt=png
640?wx_fmt=png
整体优化结果:
  • 命中索引平均性能提升 30%

  • 生成时间增加:10%

  • 空间开销增加:5%

  如何选取合适的列

640?wx_fmt=png

Local_sort &BloomFilter & BitMap 如何自动生效
640?wx_fmt=png

基于Parquet数据读取剪枝:Prewhere
基于列式存储各列分别存储、读取的特性•针对需要返回多列的SQL,先根据下推条件对RowId进行过滤、选取。再有跳过地读取其他列,从而减少无关IO和后续计算•谓词选择(简单、计算量小):in,=,<>,isnull,isnotnull
优化结果使得: 特定 SQL ( Project16 列, where条件 2 列) SQL 平均性能提升 20%

其他优化

  • Hive/SparkLoad分区Move文件优化:

通过调整staging目录位置,实现在Load过程中mv文件夹,替代逐个mv文件,从而减少与NameNode的交互次数
  • Spark生成文件合并

通过最后增加一个repartitionstage合并spark生成文件。
  • Vcore

对于CPU使用率低的场景,通过vcore技术使得一个yarn-core可以启动多个spark-core
  • Spark 访问hivemetastore 特定filter下推:

构造 get_partitions_by_filter实现 cast、substring等条件下推hivemetastore,从而减轻metastore返回数据量

运行期调优

在SQL执行前,通过统一的查询入口,对其进行基于代价的预估,选择合适的引擎和参数:
1.SQL分析
  • 抽取Hiveexplain逻辑,进行SQL语法正确性检查

  • 对SQL包含的算子、输入的数据量进行标注

2.自动引擎选择/自动参数优化
标注结果自动选择执行引擎:
  • 小SQL走SparkServer(省去yarn申请资源耗时)

  • 其他默认走Spark-Submit

标注结果选择不同运行参数:
  • Executor个数/内存

  • Overhead、堆外内存

调优后使得Adhoc30s以内SQL占比45%,Spark-Submit内存使用量平均减少20%。

欢迎点赞+收藏+转发朋友圈素质三连

640?wx_fmt=jpeg640?wx_fmt=jpeg

文章不错?点个【在看】吧! ?

这篇关于SparkSQL在字节跳动的应用实践和优化实战的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1143176

相关文章

网页解析 lxml 库--实战

lxml库使用流程 lxml 是 Python 的第三方解析库,完全使用 Python 语言编写,它对 XPath表达式提供了良好的支 持,因此能够了高效地解析 HTML/XML 文档。本节讲解如何通过 lxml 库解析 HTML 文档。 pip install lxml lxm| 库提供了一个 etree 模块,该模块专门用来解析 HTML/XML 文档,下面来介绍一下 lxml 库

Vue3 的 shallowRef 和 shallowReactive:优化性能

大家对 Vue3 的 ref 和 reactive 都很熟悉,那么对 shallowRef 和 shallowReactive 是否了解呢? 在编程和数据结构中,“shallow”(浅层)通常指对数据结构的最外层进行操作,而不递归地处理其内部或嵌套的数据。这种处理方式关注的是数据结构的第一层属性或元素,而忽略更深层次的嵌套内容。 1. 浅层与深层的对比 1.1 浅层(Shallow) 定义

基于MySQL Binlog的Elasticsearch数据同步实践

一、为什么要做 随着马蜂窝的逐渐发展,我们的业务数据越来越多,单纯使用 MySQL 已经不能满足我们的数据查询需求,例如对于商品、订单等数据的多维度检索。 使用 Elasticsearch 存储业务数据可以很好的解决我们业务中的搜索需求。而数据进行异构存储后,随之而来的就是数据同步的问题。 二、现有方法及问题 对于数据同步,我们目前的解决方案是建立数据中间表。把需要检索的业务数据,统一放到一张M

中文分词jieba库的使用与实景应用(一)

知识星球:https://articles.zsxq.com/id_fxvgc803qmr2.html 目录 一.定义: 精确模式(默认模式): 全模式: 搜索引擎模式: paddle 模式(基于深度学习的分词模式): 二 自定义词典 三.文本解析   调整词出现的频率 四. 关键词提取 A. 基于TF-IDF算法的关键词提取 B. 基于TextRank算法的关键词提取

水位雨量在线监测系统概述及应用介绍

在当今社会,随着科技的飞速发展,各种智能监测系统已成为保障公共安全、促进资源管理和环境保护的重要工具。其中,水位雨量在线监测系统作为自然灾害预警、水资源管理及水利工程运行的关键技术,其重要性不言而喻。 一、水位雨量在线监测系统的基本原理 水位雨量在线监测系统主要由数据采集单元、数据传输网络、数据处理中心及用户终端四大部分构成,形成了一个完整的闭环系统。 数据采集单元:这是系统的“眼睛”,

HDFS—存储优化(纠删码)

纠删码原理 HDFS 默认情况下,一个文件有3个副本,这样提高了数据的可靠性,但也带来了2倍的冗余开销。 Hadoop3.x 引入了纠删码,采用计算的方式,可以节省约50%左右的存储空间。 此种方式节约了空间,但是会增加 cpu 的计算。 纠删码策略是给具体一个路径设置。所有往此路径下存储的文件,都会执行此策略。 默认只开启对 RS-6-3-1024k

字节面试 | 如何测试RocketMQ、RocketMQ?

字节面试:RocketMQ是怎么测试的呢? 答: 首先保证消息的消费正确、设计逆向用例,在验证消息内容为空等情况时的消费正确性; 推送大批量MQ,通过Admin控制台查看MQ消费的情况,是否出现消费假死、TPS是否正常等等问题。(上述都是临场发挥,但是RocketMQ真正的测试点,还真的需要探讨) 01 先了解RocketMQ 作为测试也是要简单了解RocketMQ。简单来说,就是一个分

性能分析之MySQL索引实战案例

文章目录 一、前言二、准备三、MySQL索引优化四、MySQL 索引知识回顾五、总结 一、前言 在上一讲性能工具之 JProfiler 简单登录案例分析实战中已经发现SQL没有建立索引问题,本文将一起从代码层去分析为什么没有建立索引? 开源ERP项目地址:https://gitee.com/jishenghua/JSH_ERP 二、准备 打开IDEA找到登录请求资源路径位置

使用opencv优化图片(画面变清晰)

文章目录 需求影响照片清晰度的因素 实现降噪测试代码 锐化空间锐化Unsharp Masking频率域锐化对比测试 对比度增强常用算法对比测试 需求 对图像进行优化,使其看起来更清晰,同时保持尺寸不变,通常涉及到图像处理技术如锐化、降噪、对比度增强等 影响照片清晰度的因素 影响照片清晰度的因素有很多,主要可以从以下几个方面来分析 1. 拍摄设备 相机传感器:相机传

csu 1446 Problem J Modified LCS (扩展欧几里得算法的简单应用)

这是一道扩展欧几里得算法的简单应用题,这题是在湖南多校训练赛中队友ac的一道题,在比赛之后请教了队友,然后自己把它a掉 这也是自己独自做扩展欧几里得算法的题目 题意:把题意转变下就变成了:求d1*x - d2*y = f2 - f1的解,很明显用exgcd来解 下面介绍一下exgcd的一些知识点:求ax + by = c的解 一、首先求ax + by = gcd(a,b)的解 这个