PolarDB之后,PawSQL如何进一步优化相关标量子查询?

2024-09-02 18:52

本文主要是介绍PolarDB之后,PawSQL如何进一步优化相关标量子查询?,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

在数据分析领域里,相关标量子查询无疑是一把双刃剑:它功能强大,能解决许多复杂问题,同时又因其复杂性给数据库优化器带来了不小的挑战。当前,只有像Oracle这样的商业数据库巨头在这方面做得相对出色[1],在国产数据库领域,也只有PolarDB对其提供了一定的支持[2]。

除了PolarDB,领先的SQL优化引擎PawSQL也提供了对相关标量子查询进行基于成本的重写优化;此外,PawSQL还会合并查询中的多个类似标量子查询,从而进一步提升标量子查询优化的性能。

图片

🌟 相关标量子查询

在SQL的世界里,相关标量子查询(Correlated Scalar Subquery)是一种强大的工具,它允许子查询依赖于外部查询的列值。这与那些独立于外部查询的非相关标量子查询形成鲜明对比。相关标量子查询通过引用外部查询中的列,为每一行数据计算子查询的结果。

示例

SELECT employee_name
FROM employees e
WHERE salary > (SELECT AVG(salary)FROM employeesWHERE department_id = e.department_id);

在这个例子中,子查询计算每个部门的平均薪资,并与主查询中的salary进行比较,展示了相关标量子查询的强大功能。

🏎️ 性能挑战:数据库优化器的视角

相关标量子查询虽然强大,但也给数据库优化器带来了不小的挑战:

  • 重复计算:在大数据集上,子查询可能会被重复计算,影响性能。

  • 高计算开销:复杂的计算,如聚合函数,可能导致查询性能下降。

  • 查询重写难题:将标量子查询转换为连接操作或其他形式并不总是容易的。

  • 数据依赖性:优化效果依赖于数据分布和表结构,需要优化器灵活应对。

对于相关标量子查询,解关联后的性能并不总是优于关联子查询,所以仅仅依靠启发式算法的重写无法完成性能优化的目标,需要使用基于代价的重写优化策略。目前,只有少数数据库如Oracle[1]和PolarDB[2]实现了这些高级优化技术。

🚀PawSQL:相关标量子查询优化的新境界

PawSQL优化引擎通过以下方式优化相关标量子查询:

  1. 基于代价的重写:支持条件和选择列中的标量子查询重写优化。

  2. 合并重写:合并多个结构相似的标量子查询,减少计算量。

🎯 案例

1. 原始查询:原查询使用了两个相关标量子查询,分别计算每个客户在特定日期的订单总价和订单数量。这种结构通常效率较低,因为需要为每个客户重复执行两个子查询。

SELECT c_custkey,(SELECT SUM(o_totalprice)FROM ORDERSWHERE o_custkey = c_custkey AND o_orderdate = '2020-04-16') AS total,(SELECT COUNT(*)FROM ORDERSWHERE o_custkey = c_custkey AND o_orderdate = '2020-04-16') AS cnt
FROM CUSTOMER

2. 重写后的查询:PawSQL优化引擎将两个相关子查询合并为一个派生表(derived table),然后通过外连接(left outer join)与主查询关联。

SELECT /*QB_1*/ c_custkey, SUM_ AS total, count_ AS cnt
FROM CUSTOMER LEFT OUTER JOIN (SELECT o_custkey, SUM(o_totalprice) AS SUM_, COUNT(*) AS count_FROM ORDERSWHERE o_orderdate = '2020-04-16'GROUP BY o_custkey) AS SQ ON o_custkey = c_custkey

3. 执行计划改进:

  • 通过预先聚合 orders 表的数据,大大减少了需要处理的数据量

  • 消除了重复的子查询执行,将两个子查询合并为一个

  • 使用哈希连接来高效地关联 customer 和聚合后的 orders 数据

图片

4. 性能提升:从执行计划可以看到,优化后,性能提升了1131.26%!

🌟总结

这个优化案例展示了PawSQL对于相关标量子查询重写技术的有效性。通过将多个相关子查询合并为一个派生表,并使用外连接,优化器能够显著减少重复计算和数据访问。通过PawSQL,您可以在MySQL、PostgreSQL、openGauss等数据库上,体验Oracle般的重写优化能力。

🌐 关于PawSQL

PawSQL专注于数据库性能优化自动化和智能化,提供的解决方案覆盖SQL开发、测试、运维的整个流程,广泛支持MySQL、PostgreSQL、OpenGauss、Oracle等主流商用和开源数据库,以及openGauss,人大金仓、达梦等国产数据库,为开发者和企业提供一站式的创新SQL优化解决方案;有效解决了数据库SQL性能及质量问题,提升了数据库系统的稳定性、应用性能和基础设施利用率,为企业节省了大量的运维成本和时间投入。

PawSQL产品家族

  • PawSQL优化平台 - 面向应用开发者,只需三步即可智能优化SQL性能。该平台提供丰富的查询重写功能、智能索引推荐以及自动化性能验证,通过语义等价转换和执行计划分析,最大限度提升SQL执行效率。

  • PawSQL审核平台 - 面向DevOps管控人员,集成完备的审核规则集,能覆盖数据定义语言(DDL)、数据操作语言(DML)、数据查询语言(DQL)等各种SQL语法,审核准确率高达95%,有效提升SQL代码质量。

  • PawSQL巡检平台 - 面向数据库运维人员,具备自动化采集和分析慢查询的能力,并提供专业的SQL优化建议。同时支持对数据库对象如表、索引等进行审核巡检,及时发现并规避潜在风险。

PawSQL往期文章精选

  • SQL性能优化的新视界 - PawSQL Plan Visualizer

  • SQLE、SQM和PawSQL:企业级SQL审核平台的深度评测

  • SQL优化从未如此简单,PawSQL Cloud实践指南

    获取更多关于PawSQL的信息,点击关注PawSQL公众号👇👇👇

这篇关于PolarDB之后,PawSQL如何进一步优化相关标量子查询?的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1130787

相关文章

Vue3 的 shallowRef 和 shallowReactive:优化性能

大家对 Vue3 的 ref 和 reactive 都很熟悉,那么对 shallowRef 和 shallowReactive 是否了解呢? 在编程和数据结构中,“shallow”(浅层)通常指对数据结构的最外层进行操作,而不递归地处理其内部或嵌套的数据。这种处理方式关注的是数据结构的第一层属性或元素,而忽略更深层次的嵌套内容。 1. 浅层与深层的对比 1.1 浅层(Shallow) 定义

HDFS—存储优化(纠删码)

纠删码原理 HDFS 默认情况下,一个文件有3个副本,这样提高了数据的可靠性,但也带来了2倍的冗余开销。 Hadoop3.x 引入了纠删码,采用计算的方式,可以节省约50%左右的存储空间。 此种方式节约了空间,但是会增加 cpu 的计算。 纠删码策略是给具体一个路径设置。所有往此路径下存储的文件,都会执行此策略。 默认只开启对 RS-6-3-1024k

使用opencv优化图片(画面变清晰)

文章目录 需求影响照片清晰度的因素 实现降噪测试代码 锐化空间锐化Unsharp Masking频率域锐化对比测试 对比度增强常用算法对比测试 需求 对图像进行优化,使其看起来更清晰,同时保持尺寸不变,通常涉及到图像处理技术如锐化、降噪、对比度增强等 影响照片清晰度的因素 影响照片清晰度的因素有很多,主要可以从以下几个方面来分析 1. 拍摄设备 相机传感器:相机传

sqlite3 相关知识

WAL 模式 VS 回滚模式 特性WAL 模式回滚模式(Rollback Journal)定义使用写前日志来记录变更。使用回滚日志来记录事务的所有修改。特点更高的并发性和性能;支持多读者和单写者。支持安全的事务回滚,但并发性较低。性能写入性能更好,尤其是读多写少的场景。写操作会造成较大的性能开销,尤其是在事务开始时。写入流程数据首先写入 WAL 文件,然后才从 WAL 刷新到主数据库。数据在开始

活用c4d官方开发文档查询代码

当你问AI助手比如豆包,如何用python禁止掉xpresso标签时候,它会提示到 这时候要用到两个东西。https://developers.maxon.net/论坛搜索和开发文档 比如这里我就在官方找到正确的id描述 然后我就把参数标签换过来

MySQL高性能优化规范

前言:      笔者最近上班途中突然想丰富下自己的数据库优化技能。于是在查阅了多篇文章后,总结出了这篇! 数据库命令规范 所有数据库对象名称必须使用小写字母并用下划线分割 所有数据库对象名称禁止使用mysql保留关键字(如果表名中包含关键字查询时,需要将其用单引号括起来) 数据库对象的命名要能做到见名识意,并且最后不要超过32个字符 临时库表必须以tmp_为前缀并以日期为后缀,备份

SWAP作物生长模型安装教程、数据制备、敏感性分析、气候变化影响、R模型敏感性分析与贝叶斯优化、Fortran源代码分析、气候数据降尺度与变化影响分析

查看原文>>>全流程SWAP农业模型数据制备、敏感性分析及气候变化影响实践技术应用 SWAP模型是由荷兰瓦赫宁根大学开发的先进农作物模型,它综合考虑了土壤-水分-大气以及植被间的相互作用;是一种描述作物生长过程的一种机理性作物生长模型。它不但运用Richard方程,使其能够精确的模拟土壤中水分的运动,而且耦合了WOFOST作物模型使作物的生长描述更为科学。 本文让更多的科研人员和农业工作者

从状态管理到性能优化:全面解析 Android Compose

文章目录 引言一、Android Compose基本概念1.1 什么是Android Compose?1.2 Compose的优势1.3 如何在项目中使用Compose 二、Compose中的状态管理2.1 状态管理的重要性2.2 Compose中的状态和数据流2.3 使用State和MutableState处理状态2.4 通过ViewModel进行状态管理 三、Compose中的列表和滚动

两个月冲刺软考——访问位与修改位的题型(淘汰哪一页);内聚的类型;关于码制的知识点;地址映射的相关内容

1.访问位与修改位的题型(淘汰哪一页) 访问位:为1时表示在内存期间被访问过,为0时表示未被访问;修改位:为1时表示该页面自从被装入内存后被修改过,为0时表示未修改过。 置换页面时,最先置换访问位和修改位为00的,其次是01(没被访问但被修改过)的,之后是10(被访问了但没被修改过),最后是11。 2.内聚的类型 功能内聚:完成一个单一功能,各个部分协同工作,缺一不可。 顺序内聚:

ural 1026. Questions and Answers 查询

1026. Questions and Answers Time limit: 2.0 second Memory limit: 64 MB Background The database of the Pentagon contains a top-secret information. We don’t know what the information is — you