PostgreSQL 11 preview - BRIN索引接口功能扩展(BLOOM FILTER、min max分段)

本文主要是介绍PostgreSQL 11 preview - BRIN索引接口功能扩展(BLOOM FILTER、min max分段),希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

标签

PostgreSQL , brin索引 , bloom filter , min max 分段


背景

BRIN索引是PG的一种块索引接口,存储指定连续数据块内被索引字段的元数据。

https://www.postgresql.org/docs/devel/static/brin.html

目前BRIN存储的元数据包括被索引字段在每个指定连续数据块区间的MIN,MAX值。所以对于比较分散的数据实际上效果是很差的,对于数据分布比较有时序属性的(或者说线性相关性很好)的字段,效果特别赞。

《HTAP数据库 PostgreSQL 场景与性能测试之 24 - (OLTP) 物联网 - 时序数据并发写入(含时序索引BRIN)》

《PostgreSQL BRIN索引的pages_per_range选项优化与内核代码优化思考》

《万亿级电商广告 - brin黑科技带你(最低成本)玩转毫秒级圈人(视觉挖掘姊妹篇) - 阿里云RDS PostgreSQL, HybridDB for PostgreSQL最佳实践》

《PostGIS空间索引(GiST、BRIN、R-Tree)选择、优化 - 阿里云RDS PostgreSQL最佳实践》

《自动选择正确索引访问接口(btree,hash,gin,gist,sp-gist,brin,bitmap...)的方法》

《PostgreSQL 并行写入堆表,如何保证时序线性存储 - BRIN索引优化》

《PostgreSQL 10.0 preview 功能增强 - BRIN 索引更新smooth化》

《PostgreSQL 聚集存储 与 BRIN索引 - 高并发行为、轨迹类大吞吐数据查询场景解说》

《PostgreSQL 物联网黑科技 - 瘦身几百倍的索引(BRIN index)》

《PostgreSQL 9.5 new feature - lets BRIN be used with R-Tree-like indexing strategies For "inclusion" opclasses》

《PostgreSQL 9.5 new feature - BRIN (block range index) index》

目前BRIN存在的可以改进的点:

当数据分布与HEAP存储的 线性相关性很差时,效果不好。如何改进呢?

多段MIN,MAX可能是一个非常有效果的改进方法,举个例子,我们有一个非常大的小区,有很多栋房子,然后每一栋房子我们保存了年龄最小和年龄最大的住户,比如说真实的分布是每栋楼都包含少部分是1-35岁,1个80岁的。

现在要找一位40岁的住户,如果是BRIN索引,会把所有的楼栋都返回给你原因是每栋楼的范围都是1-80岁。

如果使用多段存储,那么应该是1-35, 80。这样的话使用BRIN索引找40岁的住户直接返回0条记录。

1、现在PostgreSQL 11马上要提交的PATCH,就包含了multi min max的优化

https://commitfest.postgresql.org/17/1348/

2、第二个改进是引入了BRIN的BLOOM FILTER,我们知道BLOOM FILTER用少量的BIT位表示某被索引值是否存在,存在则设定这些BIT为1,如果对应的BITS不全为1,则说明没有这条记录。但是为了节约空间,BIT存在冲撞,例如某个值的BITS可能被其他一个或多个值的BITS覆盖。

那么就会出现一种情况,索引告诉你包含某个值,并不一定真的包含。但是索引告诉你不包含某个值,那就肯定不包含。

pic

所以

select * from tbl where a=? and b=? and c=? or d=?  

bloom会告诉你一个较大的结果集,然后再回HEAP表,使用FILTER过滤不满足条件的记录。

https://en.wikipedia.org/wiki/Bloom_filter

https://www.postgresql.org/docs/devel/static/bloom.html

目前使用bloom插件可以创建BLOOM索引,而PostgreSQL 11,会把这个功能加入BRIN索引接口中。

min max 分段

这个是POC里面的例子,可以看到使用分段MIN MAX后,BRIN索引的过滤性好了很多。

PATCH连接

https://commitfest.postgresql.org/17/1348/

https://www.postgresql.org/message-id/flat/c1138ead-7668-f0e1-0638-c3be3237e812@2ndquadrant.com#c1138ead-7668-f0e1-0638-c3be3237e812@2ndquadrant.com

To illustrate the improvement, consider this table:

    create table a (val float8) with (fillfactor = 90);  insert into a select i::float from generate_series(1,10000000) s(i);  update a set val = 1 where random() < 0.01;  update a set val = 10000000 where random() < 0.01;  

Which means the column 'val' is almost perfectly correlated with the
position in the table (which would be great for BRIN minmax indexes),
but then 1% of the values is set to 1 and 10.000.000. That means pretty
much every range will be [1,10000000], which makes this BRIN index
mostly useless, as illustrated by these explain plans:

    create index on a using brin (val) with (pages_per_range = 16);  explain analyze select * from a where val = 100;  QUERY PLAN  --------------------------------------------------------------------  Bitmap Heap Scan on a  (cost=54.01..10691.02 rows=8 width=8)  (actual time=5.901..785.520 rows=1 loops=1)  Recheck Cond: (val = '100'::double precision)  Rows Removed by Index Recheck: 9999999  Heap Blocks: lossy=49020  ->  Bitmap Index Scan on a_val_idx  (cost=0.00..54.00 rows=3400 width=0)  (actual time=5.792..5.792 rows=490240 loops=1)  Index Cond: (val = '100'::double precision)  Planning time: 0.119 ms  Execution time: 785.583 ms  (8 rows)  explain analyze select * from a where val between 100 and 10000;  QUERY PLAN  ------------------------------------------------------------------  Bitmap Heap Scan on a  (cost=55.94..25132.00 rows=7728 width=8)  (actual time=5.939..858.125 rows=9695 loops=1)  Recheck Cond: ((val >= '100'::double precision) AND  (val <= '10000'::double precision))  Rows Removed by Index Recheck: 9990305  Heap Blocks: lossy=49020  ->  Bitmap Index Scan on a_val_idx  (cost=0.00..54.01 rows=10200 width=0)  (actual time=5.831..5.831 rows=490240 loops=1)  Index Cond: ((val >= '100'::double precision) AND  (val <= '10000'::double precision))  Planning time: 0.139 ms  Execution time: 871.132 ms  (8 rows)  

Obviously, the queries do scan the whole table and then eliminate most
of the rows in "Index Recheck". Decreasing pages_per_range does not
really make a measurable difference in this case - it eliminates maybe
10% of the rechecks, but most pages still have very wide minmax range.

With the patch, it looks about like this:

    create index on a using brin (val float8_minmax_multi_ops)  with (pages_per_range = 16);  explain analyze select * from a where val = 100;  QUERY PLAN  -------------------------------------------------------------------  Bitmap Heap Scan on a  (cost=830.01..11467.02 rows=8 width=8)  (actual time=7.772..8.533 rows=1 loops=1)  Recheck Cond: (val = '100'::double precision)  Rows Removed by Index Recheck: 3263  Heap Blocks: lossy=16  ->  Bitmap Index Scan on a_val_idx  (cost=0.00..830.00 rows=3400 width=0)  (actual time=7.729..7.729 rows=160 loops=1)  Index Cond: (val = '100'::double precision)  Planning time: 0.124 ms  Execution time: 8.580 ms  (8 rows)  explain analyze select * from a where val between 100 and 10000;  QUERY PLAN  ------------------------------------------------------------------  Bitmap Heap Scan on a  (cost=831.94..25908.00 rows=7728 width=8)  (actual time=9.318..23.715 rows=9695 loops=1)  Recheck Cond: ((val >= '100'::double precision) AND  (val <= '10000'::double precision))  Rows Removed by Index Recheck: 3361  Heap Blocks: lossy=64  ->  Bitmap Index Scan on a_val_idx  (cost=0.00..830.01 rows=10200 width=0)  (actual time=9.274..9.274 rows=640 loops=1)  Index Cond: ((val >= '100'::double precision) AND  (val <= '10000'::double precision))  Planning time: 0.138 ms  Execution time: 36.100 ms  (8 rows)  

bloom filter

https://www.postgresql.org/docs/devel/static/bloom.html

参考

https://commitfest.postgresql.org/17/1348/

https://www.postgresql.org/message-id/flat/c1138ead-7668-f0e1-0638-c3be3237e812@2ndquadrant.com#c1138ead-7668-f0e1-0638-c3be3237e812@2ndquadrant.com

这篇关于PostgreSQL 11 preview - BRIN索引接口功能扩展(BLOOM FILTER、min max分段)的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/338457

相关文章

mysql表操作与查询功能详解

《mysql表操作与查询功能详解》本文系统讲解MySQL表操作与查询,涵盖创建、修改、复制表语法,基本查询结构及WHERE、GROUPBY等子句,本文结合实例代码给大家介绍的非常详细,感兴趣的朋友跟随... 目录01.表的操作1.1表操作概览1.2创建表1.3修改表1.4复制表02.基本查询操作2.1 SE

MySQL之InnoDB存储引擎中的索引用法及说明

《MySQL之InnoDB存储引擎中的索引用法及说明》:本文主要介绍MySQL之InnoDB存储引擎中的索引用法及说明,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐... 目录1、背景2、准备3、正篇【1】存储用户记录的数据页【2】存储目录项记录的数据页【3】聚簇索引【4】二

Golang如何用gorm实现分页的功能

《Golang如何用gorm实现分页的功能》:本文主要介绍Golang如何用gorm实现分页的功能方式,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录背景go库下载初始化数据【1】建表【2】插入数据【3】查看数据4、代码示例【1】gorm结构体定义【2】分页结构体

全面解析MySQL索引长度限制问题与解决方案

《全面解析MySQL索引长度限制问题与解决方案》MySQL对索引长度设限是为了保持高效的数据检索性能,这个限制不是MySQL的缺陷,而是数据库设计中的权衡结果,下面我们就来看看如何解决这一问题吧... 目录引言:为什么会有索引键长度问题?一、问题根源深度解析mysql索引长度限制原理实际场景示例二、五大解决

深度解析Spring Boot拦截器Interceptor与过滤器Filter的区别与实战指南

《深度解析SpringBoot拦截器Interceptor与过滤器Filter的区别与实战指南》本文深度解析SpringBoot中拦截器与过滤器的区别,涵盖执行顺序、依赖关系、异常处理等核心差异,并... 目录Spring Boot拦截器(Interceptor)与过滤器(Filter)深度解析:区别、实现

postgresql数据库基本操作及命令详解

《postgresql数据库基本操作及命令详解》本文介绍了PostgreSQL数据库的基础操作,包括连接、创建、查看数据库,表的增删改查、索引管理、备份恢复及退出命令,适用于数据库管理和开发实践,感兴... 目录1. 连接 PostgreSQL 数据库2. 创建数据库3. 查看当前数据库4. 查看所有数据库

MySQL中的索引结构和分类实战案例详解

《MySQL中的索引结构和分类实战案例详解》本文详解MySQL索引结构与分类,涵盖B树、B+树、哈希及全文索引,分析其原理与优劣势,并结合实战案例探讨创建、管理及优化技巧,助力提升查询性能,感兴趣的朋... 目录一、索引概述1.1 索引的定义与作用1.2 索引的基本原理二、索引结构详解2.1 B树索引2.2

python3如何找到字典的下标index、获取list中指定元素的位置索引

《python3如何找到字典的下标index、获取list中指定元素的位置索引》:本文主要介绍python3如何找到字典的下标index、获取list中指定元素的位置索引问题,具有很好的参考价值,... 目录enumerate()找到字典的下标 index获取list中指定元素的位置索引总结enumerat

从入门到精通MySQL 数据库索引(实战案例)

《从入门到精通MySQL数据库索引(实战案例)》索引是数据库的目录,提升查询速度,主要类型包括BTree、Hash、全文、空间索引,需根据场景选择,建议用于高频查询、关联字段、排序等,避免重复率高或... 目录一、索引是什么?能干嘛?核心作用:二、索引的 4 种主要类型(附通俗例子)1. BTree 索引(

Java Web实现类似Excel表格锁定功能实战教程

《JavaWeb实现类似Excel表格锁定功能实战教程》本文将详细介绍通过创建特定div元素并利用CSS布局和JavaScript事件监听来实现类似Excel的锁定行和列效果的方法,感兴趣的朋友跟随... 目录1. 模拟Excel表格锁定功能2. 创建3个div元素实现表格锁定2.1 div元素布局设计2.