本文主要是介绍Apache Hudi File Layouts,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
File Layouts | Apache Hudi
Hudi将数据表组织到分布式文件系统的基本路径下的目录结构中
- 表被划分为多个分区
- 在每个分区中,文件被组织成文件组,由文件ID唯一标识
- 每个文件组包含多个文件切片
- 每个切片包含在某个提交/压缩瞬间生成的基文件(.parquet),以及一组日志文件(.log.*),这些文件包含自生成基文件以来对基文件的插入/更新。
Hudi采用了多版本并发控制(MVCC),其中压缩操作合并日志和基本文件以生成新的文件切片,而清理操作清除未使用的/旧的文件切片以回收文件系统上的空间。
这篇关于Apache Hudi File Layouts的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!