Apache Paimon 基本概念解析

2024-02-27 13:12

本文主要是介绍Apache Paimon 基本概念解析,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

1、概述
1)架构图

在这里插入图片描述

2)基本概念
1.Snapshot

latest snapshot:访问最新快照数据;

time traveling-earlier snapshot:访问历史快照数据。

2.Partition

根据日期、城市等特定列的值将表进行切分,每个表可以有一个或多个分区键来识别特定的分区,通过分区,用户可以有效地对表中的一段记录进行操作。

3.Bucket

用户可以提供bucket-key指定桶列,如果没有指定bucket-key选项,主键或完整记录将用作桶键。

桶是读取和写入的最小存储单元,桶的数量限制了最大的处理并行性,如果桶的数量过大会导致很多小文件和低读性能,推荐每个桶中的数据大小约为200MB-1GB。

4.一致性保证

使用两阶段提交协议将一批记录原子地提交到表中,每个提交在提交时最多产生两张快照;

对于任何两个同时修改表的写者,只要不修改同一个桶,提交就可以并行发生,如果修改了同一个桶,则只保证快照隔离,最终表状态可能是两个提交的混合体,但不会丢失任何更改。

3)文件布局
1.概述

表的所有文件都存储在一个基本目录下,从快照文件开始,Paimon Readers可以递归访问表中的所有记录。

在这里插入图片描述

2.Snapshot Files-快照文件

所有快照文件都存储在snapshot目录中。

快照文件是一个JSON文件,包含有关此快照的信息,包括

  • 使用的模式文件
  • 包含此快照所有更改的清单列表
3.Manifest Files-清单文件

所有清单列表和清单文件都存储在manifest目录中。

a) 清单列表

清单列表是清单文件名的列表。

b) 清单文件

清单文件包含LSM数据文件和更改日志文件。

例如,在相应的快照中创建了哪个LSM数据文件,删除了哪个文件。

4.Data Files-数据文件

数据文件按分区和桶分组,每个桶目录都包含一个LSM树及其更改日志文件;

Paimon支持使用orc(默认)、parquet和avro作为数据文件格式。

这篇关于Apache Paimon 基本概念解析的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/752500

相关文章

深入理解Apache Kafka(分布式流处理平台)

《深入理解ApacheKafka(分布式流处理平台)》ApacheKafka作为现代分布式系统中的核心中间件,为构建高吞吐量、低延迟的数据管道提供了强大支持,本文将深入探讨Kafka的核心概念、架构... 目录引言一、Apache Kafka概述1.1 什么是Kafka?1.2 Kafka的核心概念二、Ka

MySQL中FIND_IN_SET函数与INSTR函数用法解析

《MySQL中FIND_IN_SET函数与INSTR函数用法解析》:本文主要介绍MySQL中FIND_IN_SET函数与INSTR函数用法解析,本文通过实例代码给大家介绍的非常详细,感兴趣的朋友一... 目录一、功能定义与语法1、FIND_IN_SET函数2、INSTR函数二、本质区别对比三、实际场景案例分

Java图片压缩三种高效压缩方案详细解析

《Java图片压缩三种高效压缩方案详细解析》图片压缩通常涉及减少图片的尺寸缩放、调整图片的质量(针对JPEG、PNG等)、使用特定的算法来减少图片的数据量等,:本文主要介绍Java图片压缩三种高效... 目录一、基于OpenCV的智能尺寸压缩技术亮点:适用场景:二、JPEG质量参数压缩关键技术:压缩效果对比

关于WebSocket协议状态码解析

《关于WebSocket协议状态码解析》:本文主要介绍关于WebSocket协议状态码的使用方式,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录WebSocket协议状态码解析1. 引言2. WebSocket协议状态码概述3. WebSocket协议状态码详解3

CSS Padding 和 Margin 区别全解析

《CSSPadding和Margin区别全解析》CSS中的padding和margin是两个非常基础且重要的属性,它们用于控制元素周围的空白区域,本文将详细介绍padding和... 目录css Padding 和 Margin 全解析1. Padding: 内边距2. Margin: 外边距3. Padd

Oracle数据库常见字段类型大全以及超详细解析

《Oracle数据库常见字段类型大全以及超详细解析》在Oracle数据库中查询特定表的字段个数通常需要使用SQL语句来完成,:本文主要介绍Oracle数据库常见字段类型大全以及超详细解析,文中通过... 目录前言一、字符类型(Character)1、CHAR:定长字符数据类型2、VARCHAR2:变长字符数

使用Jackson进行JSON生成与解析的新手指南

《使用Jackson进行JSON生成与解析的新手指南》这篇文章主要为大家详细介绍了如何使用Jackson进行JSON生成与解析处理,文中的示例代码讲解详细,感兴趣的小伙伴可以跟随小编一起学习一下... 目录1. 核心依赖2. 基础用法2.1 对象转 jsON(序列化)2.2 JSON 转对象(反序列化)3.

Springboot @Autowired和@Resource的区别解析

《Springboot@Autowired和@Resource的区别解析》@Resource是JDK提供的注解,只是Spring在实现上提供了这个注解的功能支持,本文给大家介绍Springboot@... 目录【一】定义【1】@Autowired【2】@Resource【二】区别【1】包含的属性不同【2】@

SpringCloud动态配置注解@RefreshScope与@Component的深度解析

《SpringCloud动态配置注解@RefreshScope与@Component的深度解析》在现代微服务架构中,动态配置管理是一个关键需求,本文将为大家介绍SpringCloud中相关的注解@Re... 目录引言1. @RefreshScope 的作用与原理1.1 什么是 @RefreshScope1.

Java并发编程必备之Synchronized关键字深入解析

《Java并发编程必备之Synchronized关键字深入解析》本文我们深入探索了Java中的Synchronized关键字,包括其互斥性和可重入性的特性,文章详细介绍了Synchronized的三种... 目录一、前言二、Synchronized关键字2.1 Synchronized的特性1. 互斥2.