Apache Paimon 基本概念解析

2024-02-27 13:12

本文主要是介绍Apache Paimon 基本概念解析,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

1、概述
1)架构图

在这里插入图片描述

2)基本概念
1.Snapshot

latest snapshot:访问最新快照数据;

time traveling-earlier snapshot:访问历史快照数据。

2.Partition

根据日期、城市等特定列的值将表进行切分,每个表可以有一个或多个分区键来识别特定的分区,通过分区,用户可以有效地对表中的一段记录进行操作。

3.Bucket

用户可以提供bucket-key指定桶列,如果没有指定bucket-key选项,主键或完整记录将用作桶键。

桶是读取和写入的最小存储单元,桶的数量限制了最大的处理并行性,如果桶的数量过大会导致很多小文件和低读性能,推荐每个桶中的数据大小约为200MB-1GB。

4.一致性保证

使用两阶段提交协议将一批记录原子地提交到表中,每个提交在提交时最多产生两张快照;

对于任何两个同时修改表的写者,只要不修改同一个桶,提交就可以并行发生,如果修改了同一个桶,则只保证快照隔离,最终表状态可能是两个提交的混合体,但不会丢失任何更改。

3)文件布局
1.概述

表的所有文件都存储在一个基本目录下,从快照文件开始,Paimon Readers可以递归访问表中的所有记录。

在这里插入图片描述

2.Snapshot Files-快照文件

所有快照文件都存储在snapshot目录中。

快照文件是一个JSON文件,包含有关此快照的信息,包括

  • 使用的模式文件
  • 包含此快照所有更改的清单列表
3.Manifest Files-清单文件

所有清单列表和清单文件都存储在manifest目录中。

a) 清单列表

清单列表是清单文件名的列表。

b) 清单文件

清单文件包含LSM数据文件和更改日志文件。

例如,在相应的快照中创建了哪个LSM数据文件,删除了哪个文件。

4.Data Files-数据文件

数据文件按分区和桶分组,每个桶目录都包含一个LSM树及其更改日志文件;

Paimon支持使用orc(默认)、parquet和avro作为数据文件格式。

这篇关于Apache Paimon 基本概念解析的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/752500

相关文章

Debezium 与 Apache Kafka 的集成方式步骤详解

《Debezium与ApacheKafka的集成方式步骤详解》本文详细介绍了如何将Debezium与ApacheKafka集成,包括集成概述、步骤、注意事项等,通过KafkaConnect,D... 目录一、集成概述二、集成步骤1. 准备 Kafka 环境2. 配置 Kafka Connect3. 安装 D

C语言中自动与强制转换全解析

《C语言中自动与强制转换全解析》在编写C程序时,类型转换是确保数据正确性和一致性的关键环节,无论是隐式转换还是显式转换,都各有特点和应用场景,本文将详细探讨C语言中的类型转换机制,帮助您更好地理解并在... 目录类型转换的重要性自动类型转换(隐式转换)强制类型转换(显式转换)常见错误与注意事项总结与建议类型

MySQL 缓存机制与架构解析(最新推荐)

《MySQL缓存机制与架构解析(最新推荐)》本文详细介绍了MySQL的缓存机制和整体架构,包括一级缓存(InnoDBBufferPool)和二级缓存(QueryCache),文章还探讨了SQL... 目录一、mysql缓存机制概述二、MySQL整体架构三、SQL查询执行全流程四、MySQL 8.0为何移除查

在Rust中要用Struct和Enum组织数据的原因解析

《在Rust中要用Struct和Enum组织数据的原因解析》在Rust中,Struct和Enum是组织数据的核心工具,Struct用于将相关字段封装为单一实体,便于管理和扩展,Enum用于明确定义所有... 目录为什么在Rust中要用Struct和Enum组织数据?一、使用struct组织数据:将相关字段绑

使用Java实现一个解析CURL脚本小工具

《使用Java实现一个解析CURL脚本小工具》文章介绍了如何使用Java实现一个解析CURL脚本的工具,该工具可以将CURL脚本中的Header解析为KVMap结构,获取URL路径、请求类型,解析UR... 目录使用示例实现原理具体实现CurlParserUtilCurlEntityICurlHandler

深入解析Spring TransactionTemplate 高级用法(示例代码)

《深入解析SpringTransactionTemplate高级用法(示例代码)》TransactionTemplate是Spring框架中一个强大的工具,它允许开发者以编程方式控制事务,通过... 目录1. TransactionTemplate 的核心概念2. 核心接口和类3. TransactionT

数据库使用之union、union all、各种join的用法区别解析

《数据库使用之union、unionall、各种join的用法区别解析》:本文主要介绍SQL中的Union和UnionAll的区别,包括去重与否以及使用时的注意事项,还详细解释了Join关键字,... 目录一、Union 和Union All1、区别:2、注意点:3、具体举例二、Join关键字的区别&php

深入理解Apache Airflow 调度器(最新推荐)

《深入理解ApacheAirflow调度器(最新推荐)》ApacheAirflow调度器是数据管道管理系统的关键组件,负责编排dag中任务的执行,通过理解调度器的角色和工作方式,正确配置调度器,并... 目录什么是Airflow 调度器?Airflow 调度器工作机制配置Airflow调度器调优及优化建议最

Spring IOC控制反转的实现解析

《SpringIOC控制反转的实现解析》:本文主要介绍SpringIOC控制反转的实现,IOC是Spring的核心思想之一,它通过将对象的创建、依赖注入和生命周期管理交给容器来实现解耦,使开发者... 目录1. IOC的基本概念1.1 什么是IOC1.2 IOC与DI的关系2. IOC的设计目标3. IOC

java中的HashSet与 == 和 equals的区别示例解析

《java中的HashSet与==和equals的区别示例解析》HashSet是Java中基于哈希表实现的集合类,特点包括:元素唯一、无序和可包含null,本文给大家介绍java中的HashSe... 目录什么是HashSetHashSet 的主要特点是HashSet 的常用方法hasSet存储为啥是无序的