RocksDB参数记录

2024-06-12 05:44
文章标签 参数 记录 rocksdb

本文主要是介绍RocksDB参数记录,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

布隆过滤器(Bloom Filter)

LSM类型的存储引擎查询性能要低于B-tree 类型的存储引擎,RocksDB 有针对性的优化那就是:bloom filter。其实在LevelDB 里就存在bloom filter,但是RocksDB 在LevelDB的基础上又做了优化。

Bloom Filter

布隆过滤器(英语:Bloom Filter)是1970年由布隆提出的。它实际上是一个很长的二进制向量和一系列随机映射函数。布隆过滤器可以用于检索一个元素是否在一个集合中。它的优点是空间效率和查询时间都远远超过一般的算法,缺点是有一定的误识别率和删除困难。
布隆过滤器的原理是,当一个元素被加入集合时,通过K个散列函数将这个元素映射成一个位数组中的K个点,把它们置为1。检索时,我们只要看看这些点是不是都是1就(大约)知道集合中有没有它了:如果这些点有任何一个0,则被检元素一定不在;如果都是1,则被检元素很可能在。这就是布隆过滤器的基本思想。

以上内容摘自维基百科,RocksDB 磁盘的数据文件sst中的数据是不会再修改的,非常适合使用bloom filter,当然bloom filter存在一定的误算率:false positive probability。假设BloomFilter中元素总bit数量为m,插入的元素个数为n,

K = m/n * ln2 ,此时误算率低。

Bloom filter 在 RocksDB 中的实现

Bloom filter 的结构简单讲就是一个位数组,可以基于数据库所有key构建一个bloom filter,但是数据库key总数不可控,一个库一个bloom filter内存消耗也高,这种方式不可取。LevelDB 的做法是每个SST文件保存一份bloom filter,当查询的key可能在该SST时,对应的bloom filter block会被加载进block_cache中(rocksdb_cache_index_and_filter_blocks=true)。RocksDB 延续了LevelDB的方式,但是在bloom filter 存储格式上进一步做了优化。Bloom filter format在RocksDB 分Block-based bloom filter 和 full filter bloom filter,Block-based bloom filter 即LevelDB 采用的存储格式,full filter 是RocksDB 目前采用的格式,facebook 描述这种格式相比block-based 格式有40%的查询性能提升。

开启bloom filter的方法如下:

block_based_table_factory={cache_index_and_filter_blocks=1;filter_policy=bloomfilter:10:false;whole_key_filtering=1} ;

cache_index_and_filter_blocks=1: filter data 缓存在block cache中,不指定的话单独分配内存,建议开启。

filter_policy=bloomfilter:10:false :filter_policy 指定过滤的策略,目前只支持bloom filter。10表示bits_per_key,也就是上一节介绍的K = m/n * ln2中的m/n的值,在内部初始化时bits_per_key还会在乘以ln2,也就是散列函数的个数,该值默认是10,表示可能有1%的误判率。false: 表示use_block_based_builder,也就是bloom filter format是否用LevelDB那种格式存储位数组,false时表示使用新格式也就是full filter format。

whole_key_filtering=1:表示使用full key 过滤。

------

补充

Bloom过滤器是基于可能性的数据结构,用于检测一个元素是不是存在于一个结合中。RocksDB中的Bloom过滤器通过一个名为filter_polic的选项控制。当一个用户调用Get(key),会有一个文件列表,可能包含这个key。通常是Level 0的所有文件,以及大于0的每一层中的一个文件。然而,在我们读取每个文件前,我们先咨询bloom过滤器。Bloom过滤器会过滤掉大部分不包含该key的文件的读取。在大多数时候,Get通常只会做一次文件读取。Bloom过滤器总是保持在内存中,以方便打开文件,除非BlockBasedTableOptions::cache_index_and_filter_blocks为true。打开的文件的数量通过max_open_files选项控制。

有两个bloom过滤器类型:基于块的,和全过滤。

基于块的过滤器

通过调用一下接口使用基于块的过滤器:

options.filter_policy.reset(rocksdb::NewBloomFilterPolicy(10, true))

基于块的bloom过滤器是根据每个块分别建立的。在一个读取中,我们先咨询一个索引,返回我们正在找的块。现在我们有一个块了,我们咨询bloom过滤器来过滤这个块。

全过滤

通过一下调用设置全过滤:

options.filter_policy.reset(rocksdb::NewBloomFilterPolicy(10, false))

全过滤针对每个文件构建。每个文件只有一个bloom过滤器,这意味着我们可以先查询bloom过滤器,而不用查询索引。如果key不在bloom过滤器,相比基于块的过滤器,我们省略一个索引搜索。

参考:布隆过滤器(Bloom Filter)在MyRocks中的使用分析 - 文章详情

这篇关于RocksDB参数记录的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!


原文地址:
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.chinasem.cn/article/1053340

相关文章

关于Spring @Bean 相同加载顺序不同结果不同的问题记录

《关于Spring@Bean相同加载顺序不同结果不同的问题记录》本文主要探讨了在Spring5.1.3.RELEASE版本下,当有两个全注解类定义相同类型的Bean时,由于加载顺序不同,最终生成的... 目录问题说明测试输出1测试输出2@Bean注解的BeanDefiChina编程nition加入时机总结问题说明

Java通过反射获取方法参数名的方式小结

《Java通过反射获取方法参数名的方式小结》这篇文章主要为大家详细介绍了Java如何通过反射获取方法参数名的方式,文中的示例代码讲解详细,感兴趣的小伙伴可以跟随小编一起学习一下... 目录1、前言2、解决方式方式2.1: 添加编译参数配置 -parameters方式2.2: 使用Spring的内部工具类 -

将sqlserver数据迁移到mysql的详细步骤记录

《将sqlserver数据迁移到mysql的详细步骤记录》:本文主要介绍将SQLServer数据迁移到MySQL的步骤,包括导出数据、转换数据格式和导入数据,通过示例和工具说明,帮助大家顺利完成... 目录前言一、导出SQL Server 数据二、转换数据格式为mysql兼容格式三、导入数据到MySQL数据

关于rpc长连接与短连接的思考记录

《关于rpc长连接与短连接的思考记录》文章总结了RPC项目中长连接和短连接的处理方式,包括RPC和HTTP的长连接与短连接的区别、TCP的保活机制、客户端与服务器的连接模式及其利弊分析,文章强调了在实... 目录rpc项目中的长连接与短连接的思考什么是rpc项目中的长连接和短连接与tcp和http的长连接短

Python调用另一个py文件并传递参数常见的方法及其应用场景

《Python调用另一个py文件并传递参数常见的方法及其应用场景》:本文主要介绍在Python中调用另一个py文件并传递参数的几种常见方法,包括使用import语句、exec函数、subproce... 目录前言1. 使用import语句1.1 基本用法1.2 导入特定函数1.3 处理文件路径2. 使用ex

Oracle查询优化之高效实现仅查询前10条记录的方法与实践

《Oracle查询优化之高效实现仅查询前10条记录的方法与实践》:本文主要介绍Oracle查询优化之高效实现仅查询前10条记录的相关资料,包括使用ROWNUM、ROW_NUMBER()函数、FET... 目录1. 使用 ROWNUM 查询2. 使用 ROW_NUMBER() 函数3. 使用 FETCH FI

MySQL中时区参数time_zone解读

《MySQL中时区参数time_zone解读》MySQL时区参数time_zone用于控制系统函数和字段的DEFAULTCURRENT_TIMESTAMP属性,修改时区可能会影响timestamp类型... 目录前言1.时区参数影响2.如何设置3.字段类型选择总结前言mysql 时区参数 time_zon

Python MySQL如何通过Binlog获取变更记录恢复数据

《PythonMySQL如何通过Binlog获取变更记录恢复数据》本文介绍了如何使用Python和pymysqlreplication库通过MySQL的二进制日志(Binlog)获取数据库的变更记录... 目录python mysql通过Binlog获取变更记录恢复数据1.安装pymysqlreplicat

Python如何使用seleniumwire接管Chrome查看控制台中参数

《Python如何使用seleniumwire接管Chrome查看控制台中参数》文章介绍了如何使用Python的seleniumwire库来接管Chrome浏览器,并通过控制台查看接口参数,本文给大家... 1、cmd打开控制台,启动谷歌并制定端口号,找不到文件的加环境变量chrome.exe --rem

Linux中Curl参数详解实践应用

《Linux中Curl参数详解实践应用》在现代网络开发和运维工作中,curl命令是一个不可或缺的工具,它是一个利用URL语法在命令行下工作的文件传输工具,支持多种协议,如HTTP、HTTPS、FTP等... 目录引言一、基础请求参数1. -X 或 --request2. -d 或 --data3. -H 或