本文主要是介绍Apache Paimon 基本概念解析,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
1、概述
1)架构图
2)基本概念
1.Snapshot
latest snapshot:访问最新快照数据;
time traveling-earlier snapshot:访问历史快照数据。
2.Partition
根据日期、城市等特定列的值将表进行切分,每个表可以有一个或多个分区键来识别特定的分区,通过分区,用户可以有效地对表中的一段记录进行操作。
3.Bucket
用户可以提供bucket-key
指定桶列,如果没有指定bucket-key
选项,主键或完整记录将用作桶键。
桶是读取和写入的最小存储单元,桶的数量限制了最大的处理并行性,如果桶的数量过大会导致很多小文件和低读性能,推荐每个桶中的数据大小约为200MB-1GB。
4.一致性保证
使用两阶段提交协议将一批记录原子地提交到表中,每个提交在提交时最多产生两张快照;
对于任何两个同时修改表的写者,只要不修改同一个桶,提交就可以并行发生,如果修改了同一个桶,则只保证快照隔离,最终表状态可能是两个提交的混合体,但不会丢失任何更改。
3)文件布局
1.概述
表的所有文件都存储在一个基本目录下,从快照文件开始,Paimon Readers可以递归访问表中的所有记录。
2.Snapshot Files-快照文件
所有快照文件都存储在snapshot
目录中。
快照文件是一个JSON文件,包含有关此快照的信息,包括
- 使用的模式文件
- 包含此快照所有更改的清单列表
3.Manifest Files-清单文件
所有清单列表和清单文件都存储在manifest
目录中。
a) 清单列表
清单列表是清单文件名的列表。
b) 清单文件
清单文件包含LSM数据文件和更改日志文件。
例如,在相应的快照中创建了哪个LSM数据文件,删除了哪个文件。
4.Data Files-数据文件
数据文件按分区和桶分组,每个桶目录都包含一个LSM树及其更改日志文件;
Paimon支持使用orc(默认)、parquet和avro作为数据文件格式。
这篇关于Apache Paimon 基本概念解析的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!