Apache Paimon 基本概念解析

2024-02-27 13:12

本文主要是介绍Apache Paimon 基本概念解析,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

1、概述
1)架构图

在这里插入图片描述

2)基本概念
1.Snapshot

latest snapshot:访问最新快照数据;

time traveling-earlier snapshot:访问历史快照数据。

2.Partition

根据日期、城市等特定列的值将表进行切分,每个表可以有一个或多个分区键来识别特定的分区,通过分区,用户可以有效地对表中的一段记录进行操作。

3.Bucket

用户可以提供bucket-key指定桶列,如果没有指定bucket-key选项,主键或完整记录将用作桶键。

桶是读取和写入的最小存储单元,桶的数量限制了最大的处理并行性,如果桶的数量过大会导致很多小文件和低读性能,推荐每个桶中的数据大小约为200MB-1GB。

4.一致性保证

使用两阶段提交协议将一批记录原子地提交到表中,每个提交在提交时最多产生两张快照;

对于任何两个同时修改表的写者,只要不修改同一个桶,提交就可以并行发生,如果修改了同一个桶,则只保证快照隔离,最终表状态可能是两个提交的混合体,但不会丢失任何更改。

3)文件布局
1.概述

表的所有文件都存储在一个基本目录下,从快照文件开始,Paimon Readers可以递归访问表中的所有记录。

在这里插入图片描述

2.Snapshot Files-快照文件

所有快照文件都存储在snapshot目录中。

快照文件是一个JSON文件,包含有关此快照的信息,包括

  • 使用的模式文件
  • 包含此快照所有更改的清单列表
3.Manifest Files-清单文件

所有清单列表和清单文件都存储在manifest目录中。

a) 清单列表

清单列表是清单文件名的列表。

b) 清单文件

清单文件包含LSM数据文件和更改日志文件。

例如,在相应的快照中创建了哪个LSM数据文件,删除了哪个文件。

4.Data Files-数据文件

数据文件按分区和桶分组,每个桶目录都包含一个LSM树及其更改日志文件;

Paimon支持使用orc(默认)、parquet和avro作为数据文件格式。

这篇关于Apache Paimon 基本概念解析的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/752500

相关文章

Agent开发核心技术解析以及现代Agent架构设计

《Agent开发核心技术解析以及现代Agent架构设计》在人工智能领域,Agent并非一个全新的概念,但在大模型时代,它被赋予了全新的生命力,简单来说,Agent是一个能够自主感知环境、理解任务、制定... 目录一、回归本源:到底什么是Agent?二、核心链路拆解:Agent的"大脑"与"四肢"1. 规划模

MySQL字符串转数值的方法全解析

《MySQL字符串转数值的方法全解析》在MySQL开发中,字符串与数值的转换是高频操作,本文从隐式转换原理、显式转换方法、典型场景案例、风险防控四个维度系统梳理,助您精准掌握这一核心技能,需要的朋友可... 目录一、隐式转换:自动但需警惕的&ld编程quo;双刃剑”二、显式转换:三大核心方法详解三、典型场景

SQL 注入攻击(SQL Injection)原理、利用方式与防御策略深度解析

《SQL注入攻击(SQLInjection)原理、利用方式与防御策略深度解析》本文将从SQL注入的基本原理、攻击方式、常见利用手法,到企业级防御方案进行全面讲解,以帮助开发者和安全人员更系统地理解... 目录一、前言二、SQL 注入攻击的基本概念三、SQL 注入常见类型分析1. 基于错误回显的注入(Erro

SpringBoot整合Apache Spark实现一个简单的数据分析功能

《SpringBoot整合ApacheSpark实现一个简单的数据分析功能》ApacheSpark是一个开源的大数据处理框架,它提供了丰富的功能和API,用于分布式数据处理、数据分析和机器学习等任务... 目录第一步、添加android依赖第二步、编写配置类第三步、编写控制类启动项目并测试总结ApacheS

Apache服务器IP自动跳转域名的问题及解决方案

《Apache服务器IP自动跳转域名的问题及解决方案》本教程将详细介绍如何通过Apache虚拟主机配置实现这一功能,并解决常见问题,本文给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,... 目录​​问题背景​​解决方案​​方法 1:修改 httpd-vhosts.conf(推荐)​​步骤

C++ 多态性实战之何时使用 virtual 和 override的问题解析

《C++多态性实战之何时使用virtual和override的问题解析》在面向对象编程中,多态是一个核心概念,很多开发者在遇到override编译错误时,不清楚是否需要将基类函数声明为virt... 目录C++ 多态性实战:何时使用 virtual 和 override?引言问题场景判断是否需要多态的三个关

Springboot主配置文件解析

《Springboot主配置文件解析》SpringBoot主配置文件application.yml支持多种核心值类型,包括字符串、数字、布尔值等,文章详细介绍了Profile环境配置和加载位置,本文... 目录Profile环境配置配置文件加载位置Springboot主配置文件 application.ym

Java中Redisson 的原理深度解析

《Java中Redisson的原理深度解析》Redisson是一个高性能的Redis客户端,它通过将Redis数据结构映射为Java对象和分布式对象,实现了在Java应用中方便地使用Redis,本文... 目录前言一、核心设计理念二、核心架构与通信层1. 基于 Netty 的异步非阻塞通信2. 编解码器三、

Java HashMap的底层实现原理深度解析

《JavaHashMap的底层实现原理深度解析》HashMap基于数组+链表+红黑树结构,通过哈希算法和扩容机制优化性能,负载因子与树化阈值平衡效率,是Java开发必备的高效数据结构,本文给大家介绍... 目录一、概述:HashMap的宏观结构二、核心数据结构解析1. 数组(桶数组)2. 链表节点(Node

Java 虚拟线程的创建与使用深度解析

《Java虚拟线程的创建与使用深度解析》虚拟线程是Java19中以预览特性形式引入,Java21起正式发布的轻量级线程,本文给大家介绍Java虚拟线程的创建与使用,感兴趣的朋友一起看看吧... 目录一、虚拟线程简介1.1 什么是虚拟线程?1.2 为什么需要虚拟线程?二、虚拟线程与平台线程对比代码对比示例:三