利用双表技术解决多列日期查询性能问题

2023-10-10 18:48

本文主要是介绍利用双表技术解决多列日期查询性能问题,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

一个数据库老兵(10几年数据库+数据仓库+大数据经验)遇到了这样一个难题:

有个订单表有2个字段,一个是 order_date 订单日期,一个是 entry_date 入库日期,平时业务系统查询使用的是 order_date,表呢是根据order_date 按天分区,每天凌晨ETL工具会根据 entry_date 将昨天入库的数据抽到数据仓库,他抱怨抽数的过程非常慢,因为每天入库的订单有几百万到上千万单,因为表是根据 order_date 分区的,ETL工具抽数又是用的 entry_date 来进行的过滤,这显然不能分区裁剪,每次ETL抽数据都要对订单表全表扫描,扫描所有分区,这个表一共有20几亿数据,这当然慢了,也许有人会说,可以对 entry_date 建立本地(local)索引,是的,这是一个不错的办法,但是这也不是最优解,每天有几百万到上千万单,通过索引返回几百万到上千万数据也是非常慢的,会引起大量的单块读I/O。

其实听他描述到一半我就知道他要说什么了,这个问题我在2012年就遇到过。

如果数据库支持物化视图,可以创建on commit 且按照 entry_date 分区的物化视图,业务平时查询原始订单表,ETL抽数据查询物化视图就行,物化视图是根据 entry_date 分区的,这样就可以分区裁剪,大大滴提升性能。

如果数据库不支持物化视图,可以改造业务系统,每次新订单写双份数据,一个表按照 order_date分区,一个表按照 entry_date 分区。

其实这个问题在 OLAP 中经常遇到, 不管是 HADOOP ,还是列存储数据库,还是常见的关系数据库,都可以用 "双表" 这种技术来解决性能问题,数据写双份,表按不同查询列分区/分桶 就可以了

 

 

 

 

 

 

这篇关于利用双表技术解决多列日期查询性能问题的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/182357

相关文章

linux报错INFO:task xxxxxx:634 blocked for more than 120 seconds.三种解决方式

《linux报错INFO:taskxxxxxx:634blockedformorethan120seconds.三种解决方式》文章描述了一个Linux最小系统运行时出现的“hung_ta... 目录1.问题描述2.解决办法2.1 缩小文件系统缓存大小2.2 修改系统IO调度策略2.3 取消120秒时间限制3

Oracle查询优化之高效实现仅查询前10条记录的方法与实践

《Oracle查询优化之高效实现仅查询前10条记录的方法与实践》:本文主要介绍Oracle查询优化之高效实现仅查询前10条记录的相关资料,包括使用ROWNUM、ROW_NUMBER()函数、FET... 目录1. 使用 ROWNUM 查询2. 使用 ROW_NUMBER() 函数3. 使用 FETCH FI

数据库oracle用户密码过期查询及解决方案

《数据库oracle用户密码过期查询及解决方案》:本文主要介绍如何处理ORACLE数据库用户密码过期和修改密码期限的问题,包括创建用户、赋予权限、修改密码、解锁用户和设置密码期限,文中通过代码介绍... 目录前言一、创建用户、赋予权限、修改密码、解锁用户和设置期限二、查询用户密码期限和过期后的修改1.查询用

关于@MapperScan和@ComponentScan的使用问题

《关于@MapperScan和@ComponentScan的使用问题》文章介绍了在使用`@MapperScan`和`@ComponentScan`时可能会遇到的包扫描冲突问题,并提供了解决方法,同时,... 目录@MapperScan和@ComponentScan的使用问题报错如下原因解决办法课外拓展总结@

MybatisGenerator文件生成不出对应文件的问题

《MybatisGenerator文件生成不出对应文件的问题》本文介绍了使用MybatisGenerator生成文件时遇到的问题及解决方法,主要步骤包括检查目标表是否存在、是否能连接到数据库、配置生成... 目录MyBATisGenerator 文件生成不出对应文件先在项目结构里引入“targetProje

C#使用HttpClient进行Post请求出现超时问题的解决及优化

《C#使用HttpClient进行Post请求出现超时问题的解决及优化》最近我的控制台程序发现有时候总是出现请求超时等问题,通常好几分钟最多只有3-4个请求,在使用apipost发现并发10个5分钟也... 目录优化结论单例HttpClient连接池耗尽和并发并发异步最终优化后优化结论我直接上优化结论吧,

Java内存泄漏问题的排查、优化与最佳实践

《Java内存泄漏问题的排查、优化与最佳实践》在Java开发中,内存泄漏是一个常见且令人头疼的问题,内存泄漏指的是程序在运行过程中,已经不再使用的对象没有被及时释放,从而导致内存占用不断增加,最终... 目录引言1. 什么是内存泄漏?常见的内存泄漏情况2. 如何排查 Java 中的内存泄漏?2.1 使用 J

C#使用yield关键字实现提升迭代性能与效率

《C#使用yield关键字实现提升迭代性能与效率》yield关键字在C#中简化了数据迭代的方式,实现了按需生成数据,自动维护迭代状态,本文主要来聊聊如何使用yield关键字实现提升迭代性能与效率,感兴... 目录前言传统迭代和yield迭代方式对比yield延迟加载按需获取数据yield break显式示迭

使用SQL语言查询多个Excel表格的操作方法

《使用SQL语言查询多个Excel表格的操作方法》本文介绍了如何使用SQL语言查询多个Excel表格,通过将所有Excel表格放入一个.xlsx文件中,并使用pandas和pandasql库进行读取和... 目录如何用SQL语言查询多个Excel表格如何使用sql查询excel内容1. 简介2. 实现思路3

numpy求解线性代数相关问题

《numpy求解线性代数相关问题》本文主要介绍了numpy求解线性代数相关问题,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧... 在numpy中有numpy.array类型和numpy.mat类型,前者是数组类型,后者是矩阵类型。数组