本文主要是介绍【数据湖Hudi的概念】Timeline和File Layouts,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
目录
- 1. Timeline
- 2. File Layouts
1. Timeline
Hudi对一个table的各种action都会记录操作的instant time和status。对一系列的instant time按发生的先后顺序排列,形成一个timeline
action有以下几种:
- commits:对包含一条或多条数据的一次原子性write,进行commit
- cleans:后台进程对不需要的老版本files进行删除
- delta_commit:对于MergeOnRead类型的table,对包含一条或多条数据的一次原子性write,进行delta commit,数据写入delta log中
- compaction:后台进程将一种数据结构转换成另一种数据结构。例如将avro格式的log文件转换成parquet格式的base file。在Hudi内部,compaction是一种特殊的commit
- rollback:对于commit或delta commit,如果失败了,会进行rollback
- savepoint:标记某个file groups的状态为saved,这样cleaner就不会对这些file groups删除。后面可以在timeline中restore到该savepoint
status有以下几种:
- requested:action已经被调度,但是还未初始化
- inflight:action正在被执行
- completed:action在timeline上已经完成操作
上图说明的是:几条数据的事件时间分别是07:00、08:00、09:00、10:00,存在不同程度的延迟,在10:00开始分别进行commit,timeline是以action的instant time为准,incrementally consume也是以timeline为准,数据的分区是以事件时间为准
2. File Layouts
- 每个partition由多个file group组成,每个file group都有一个file ID
- 每个file group由多个file slice组成
- 每个file slice由一个parquet格式的base file + 一个或多个log file(*.log.*)组成
- compaction将一个或多个file slice进行合并,生成新的file slice。cleans将老的不用的file slice删除
说明:
- 表总共有4个列式储存的字段
- 在10:05的时候进行compaction后,field1、field2、field3的数据全部在base file中
- 在10:06 ~ 10:09期间,field1、field2、field4分别有数据commit到log file中
- 在10:10的时候,field2、field4分别由数据commit到log file中
- Read Optimized Queries只能读取compaction后的base file中的数据
- Snapshot Queries:读取base file + log file中的数据
这篇关于【数据湖Hudi的概念】Timeline和File Layouts的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!