Apache Cassandra SSTable 存储格式详解

2024-06-02 16:48

本文主要是介绍Apache Cassandra SSTable 存储格式详解,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

 

简介: 在 Cassandra 中,当达到一定条件触发 flush 的时候,表对应的 Memtable 中的数据会被写入到这张表对应的数据目录(通过 data_file_directories 参数配置)中,并生成一个新的 SSTable(Sorted Strings Table,这个概念是从 Google 的 BigTable 借用的)。

在 Cassandra 中,当达到一定条件触发 flush 的时候,表对应的 Memtable 中的数据会被写入到这张表对应的数据目录(通过 data_file_directories 参数配置)中,并生成一个新的 SSTable(Sorted Strings Table,这个概念是从 Google 的 BigTable 借用的)。每个 SSTable 是由一系列的不可修改的文件组成,这些文件在 Cassandra 中被称为 Component。本文是基于 Cassandra 3.11.4 版本介绍的,这个版本生成的 SSTable 由以下 Component 组成:

-rw-r--r-- 1 root root   43 May  3 11:55 md-1-big-CompressionInfo.db
-rw-r--r-- 1 root root  155 May  3 11:55 md-1-big-Data.db
-rw-r--r-- 1 root root   10 May  3 11:55 md-1-big-Digest.crc32
-rw-r--r-- 1 root root   16 May  3 11:55 md-1-big-Filter.db
-rw-r--r-- 1 root root   66 May  3 11:55 md-1-big-Index.db
-rw-r--r-- 1 root root 4866 May  3 11:55 md-1-big-Statistics.db
-rw-r--r-- 1 root root   98 May  3 11:55 md-1-big-Summary.db
-rw-r--r-- 1 root root   92 May  3 11:55 md-1-big-TOC.txt

从上面文件名可以看出,所有的 Component 都是由 md-1-big 开头的,每个文件名都是由 version - generation - SSTable Format type - Component name 组成,由 - 分割,每个字符的含义如下:

  • version:这个代表 SSTable 存储格式的版本号,目前最新的 Cassandra 3.11.4 版本为 md,其他有效的版本为 jb、ka、la、lb、ma、mb 以及 mc 等,比如 Cassandra 3.0.8 的版本就是 mc。具体参见 org.apache.cassandra.io.sstable.format.big.BigFormat.BigVersion;
  • generation:代表索引号,每次生成新的 SSTable 时,这个索引号都会递增;
  • SSTable Format type:SSTable格式类型,主要有两种 BIG 和 LEGACY,但是他们的名字都是 big;
  • Component name:代表当前文件存储的信息类型,比如 Data 代表存储的是用户实际写入的数据;Index 代表存储的是索引数据等。当前版本的 Cassandra 组件有 Data.db、Digest.crc32、CompressionInfo.db、Summary.db、Filter.db、Index.db、TOC.txt 以及 Statistics.db。

上面这些组件共同构建 SSTable,每种文件存储不同类型的数据,本文就是来介绍这些文件的作用以及文件之间的关联。

md-1-big-Data.db、md-1-big-Index.db 以及 md-1-big-Summary.db 文件介绍

md-1-big-Data.db

从名字就可以看出,md-1-big-Data.db 是存储用户插入到 Cassandra 对应表中数据的,这个文件的数据存储格式我们在 《Apache Cassandra 数据存储模型》 这篇文章中已经详细介绍了。

为了有个更直观的了解,假设我们有一张名为 iteblog_test 的表,建表语句和导入数据的语句如下:

create table iteblog_test(username text, type text, email text, age text, cril text, briday text ,PRIMARY KEY(username, type));insert into iteblog_test(username, type, email) values ('iteblog', '456', 'wyphao.2007@163.com');
insert into iteblog_test(username, type, email, age) values ('iteblog', '123', 'hadoop@spark.org', '99');
insert into iteblog_test(username, type, briday) values ('cassandra', '246', '2019-04-29');

我们对这张表执行 flush 操作,这时候底层生成的 md-1-big-Data.db 内容如下:

00000000  87 00 00 00 f2 00 00 07  69 74 65 62 6c 6f 67 7f  |........iteblog.|
00000010  ff ff ff 80 00 01 00 fb  3d 04 00 03 31 32 33 1a  |........=...123.|
00000020  15 90 86 02 08 02 39 39  08 10 68 61 64 6f 6f 70  |......99..hadoop|
00000030  40 73 70 61 72 6b 2e 6f  72 67 04 00 03 34 35 36  |@spark.org...456|
00000040  18 21 00 03 08 13 77 79  70 68 61 6f 2e 32 30 30  |.!....wyphao.200|
00000050  37 40 31 36 33 2e 63 6f  6d 01 00 09 63 61 73 73  |7@163.com...cass|
00000060  61 6e 64 72 61 58 00 f0  08 32 34 36 12 17 e0 24  |andraX...246...$|
00000070  4d 75 05 08 0a 32 30 31  39 2d 30 34 2d 32 39 01  |Mu...2019-04-29.|
00000080  ac b6 4c 9c                                       |..L.|
00000084

从最后边那列可以看出,md-1-big-Data.db 文件存储了用户插入到 iteblog_test 表的数据,并且同一个 Partition Key 以及静态列(如果有)只会在同一个 SSTable 中存储一份;Partition Key 相同的行对应的 Clustering key 是有序排序的。比如上面 Partition Key 为 iteblog 对应了两行数据,他们在 md-1-big-Data.db 文件是按照字符串的字典顺序升序排序的。关于 md-1-big-Data.db 文件的底层存储格式可以参见 《Apache Cassandra 数据存储模型》 的说明,这里就不再详细介绍了。

md-1-big-Index.db

SSTable 对应的 md-1-big-Data.db 可能会很大,为了加快查询速度,Cassandra 对 md-1-big-Data.db 文件中的每个 Partition Key 建立了相关索引数据,这个就是 md-1-big-Index.db 文件的作用了。md-1-big-Index.db 文件存储的内容其实很简单,存储的是 Partition Key 及其在 md-1-big-Data.db 文件中的起始偏移量。

md-1-big-Summary.db

如果 md-1-big-Index.db 文件也很大,也可能会影响查询速度。所以 Cassandra 引入了 md-1-big-Summary.db 文件,对索引文件 md-1-big-Index.db 进行抽样。具体过程为:每隔 128 (这个数由 DEFAULT_MIN_INDEX_INTERVAL 决定,好像不可以配置)个 Partition Key 就将对应的 Partition Key 及其在索引文件中的起始偏移量写入到 Summary.db 文件中去。同时,Summary.db 文件最后面还会存储 md-1-big-Index.db 文件中的起止 Partition Key。

这三个文件的关系

前面已经简单介绍了这三个文件的作用,为了直观的表示这是三个文件的关系,我这里画了一张图,帮助大家理解。
Apache Cassandra SSTable 存储格式详解
注意:上面的 iteblogxxx 代表的是 Partition Key,并且假设这些 Partition Key 对应的 hash token 是升序的。

md-1-big-Statistics.db

包含有关 SSTable 的统计元数据的文件。主要包含当前 SSTable 的:

  • 最大最小 token 的值及对应的 Partition Key;
  • Partitioner,默认为 org.apache.cassandra.dht.Murmur3Partitioner,和 Bloom Filter FP chance,主要用于校验 SSTable,在读取 Data.db 之前会先被读取;
  • SSTable 元数据,比如 SSTable 最大最小的时间戳、最大最小 local deletion time、最大最小的 TTL、SSTable 文件的压缩率、行数、列个数以及最大和最小的 ClustringValues,如果为空这保存为 0 等等
  • Partition Key 的类型;
  • Clustering Key 的类型;
  • 静态列的名字及类型;
  • 正常类的名字及类型;
  • Clustering Key 的类型;

md-1-big-CompressionInfo.db

存储 SSTable 的压缩相关的信息,包括使用的压缩算法的名字(LZ4Compressor,SnappyCompressor 和 DeflateCompressor,SSTable 的压缩算法可以在创建表的时候通过 WITH compression = {'sstable_compression': 'SnappyCompressor' 设置,默认为 LZ4Compressor),压缩算法的配置选项,chunkLength(默认为 65536),未压缩数据的长度,chunk 的个数等相关的信息

md-1-big-Filter.db、md-1-big-Digest.crc32

md-1-big-Filter.db

存储 Partition Key 布隆过滤器相关的信息,这个文件会被加载到内存,在查询的时候可以确定某行数据是否在这个 SSTable 中,减少访问磁盘的次数。

md-1-big-Digest.crc32

这个文件存储的仅仅是数据文件的 CRC 校验码信息。

md-1-big-TOC.txt

这个文件主要存储 SSTable 的 Component 名字,所以我们打开这个文件可以看到如下的内容:

  • Statistics.db
  • Digest.crc32
  • Data.db
  • Filter.db
  • CompressionInfo.db
  • Summary.db
  • TOC.txt
  • Index.db
    这个就是 SSTable 对应的八个 Component 。

这篇关于Apache Cassandra SSTable 存储格式详解的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1024537

相关文章

Debezium 与 Apache Kafka 的集成方式步骤详解

《Debezium与ApacheKafka的集成方式步骤详解》本文详细介绍了如何将Debezium与ApacheKafka集成,包括集成概述、步骤、注意事项等,通过KafkaConnect,D... 目录一、集成概述二、集成步骤1. 准备 Kafka 环境2. 配置 Kafka Connect3. 安装 D

Java中ArrayList和LinkedList有什么区别举例详解

《Java中ArrayList和LinkedList有什么区别举例详解》:本文主要介绍Java中ArrayList和LinkedList区别的相关资料,包括数据结构特性、核心操作性能、内存与GC影... 目录一、底层数据结构二、核心操作性能对比三、内存与 GC 影响四、扩容机制五、线程安全与并发方案六、工程

Spring Cloud LoadBalancer 负载均衡详解

《SpringCloudLoadBalancer负载均衡详解》本文介绍了如何在SpringCloud中使用SpringCloudLoadBalancer实现客户端负载均衡,并详细讲解了轮询策略和... 目录1. 在 idea 上运行多个服务2. 问题引入3. 负载均衡4. Spring Cloud Load

Springboot中分析SQL性能的两种方式详解

《Springboot中分析SQL性能的两种方式详解》文章介绍了SQL性能分析的两种方式:MyBatis-Plus性能分析插件和p6spy框架,MyBatis-Plus插件配置简单,适用于开发和测试环... 目录SQL性能分析的两种方式:功能介绍实现方式:实现步骤:SQL性能分析的两种方式:功能介绍记录

在 Spring Boot 中使用 @Autowired和 @Bean注解的示例详解

《在SpringBoot中使用@Autowired和@Bean注解的示例详解》本文通过一个示例演示了如何在SpringBoot中使用@Autowired和@Bean注解进行依赖注入和Bean... 目录在 Spring Boot 中使用 @Autowired 和 @Bean 注解示例背景1. 定义 Stud

如何通过海康威视设备网络SDK进行Java二次开发摄像头车牌识别详解

《如何通过海康威视设备网络SDK进行Java二次开发摄像头车牌识别详解》:本文主要介绍如何通过海康威视设备网络SDK进行Java二次开发摄像头车牌识别的相关资料,描述了如何使用海康威视设备网络SD... 目录前言开发流程问题和解决方案dll库加载不到的问题老旧版本sdk不兼容的问题关键实现流程总结前言作为

SQL 中多表查询的常见连接方式详解

《SQL中多表查询的常见连接方式详解》本文介绍SQL中多表查询的常见连接方式,包括内连接(INNERJOIN)、左连接(LEFTJOIN)、右连接(RIGHTJOIN)、全外连接(FULLOUTER... 目录一、连接类型图表(ASCII 形式)二、前置代码(创建示例表)三、连接方式代码示例1. 内连接(I

Go路由注册方法详解

《Go路由注册方法详解》Go语言中,http.NewServeMux()和http.HandleFunc()是两种不同的路由注册方式,前者创建独立的ServeMux实例,适合模块化和分层路由,灵活性高... 目录Go路由注册方法1. 路由注册的方式2. 路由器的独立性3. 灵活性4. 启动服务器的方式5.

Java中八大包装类举例详解(通俗易懂)

《Java中八大包装类举例详解(通俗易懂)》:本文主要介绍Java中的包装类,包括它们的作用、特点、用途以及如何进行装箱和拆箱,包装类还提供了许多实用方法,如转换、获取基本类型值、比较和类型检测,... 目录一、包装类(Wrapper Class)1、简要介绍2、包装类特点3、包装类用途二、装箱和拆箱1、装

Go语言中三种容器类型的数据结构详解

《Go语言中三种容器类型的数据结构详解》在Go语言中,有三种主要的容器类型用于存储和操作集合数据:本文主要介绍三者的使用与区别,感兴趣的小伙伴可以跟随小编一起学习一下... 目录基本概念1. 数组(Array)2. 切片(Slice)3. 映射(Map)对比总结注意事项基本概念在 Go 语言中,有三种主要