HBase Region分裂以及预分区

2024-04-01 17:08

文章标签 分区 hbase region 分裂

本文主要是介绍HBase Region分裂以及预分区，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

Region分裂

当MemStore的数据超过阈值时，将数据溢写磁盘，生成一个StoreFile文件。当Region中最大Store的大小超过阈值时，Region分裂，等分成两个Region，实现数据访问的负载均衡。新的Region的位置由HMaster来确定在哪个RegionServer中。

RegionServer决定本地的region分裂，并准备分裂工作。第一步是，在zookeeper的/hbase/region-in-transition/region-name下创建一个znode，并设为SPLITTING状态
Master通过父region-in-transition znode的watcher监测到刚刚创建的znode
RegionServer在HDFS中父region的目录下创建名为“.split”的子目录
RegionServer关闭父region，并强制刷新缓存内的数据，之后在本地数据结构中将标识为下线状态
RegionServer在.split目录下为子regionA和B创建目录和相关的数据结构。然后RegionServer分割store文件，为父region的每个store文件创建两个Reference文件，这些Reference文件将指向父region中的文件
RegionServer在HDFS中创建实际的region目录，并移动每个子region的Reference文件
RegionServer向.META.表发送Put请求，并在.META.中将父region改为下线状态，添加子region的信息。如果Put请求成功，那么父region将被有效地分割。如果在这条RPC成功之前RegionServer死掉了，那么Master和打开region的下一个RegionServer会清理关于该region分裂的脏状态。在.META.更新之后，region的分裂将被Master回滚到之前的状态
RegionServer打开子region，并行地接受写请求
RegionServer将子region A和B的相关信息写入.META.。此后，Client便可以扫描到新的region并且可以向其发送请求
RegionServer将zookeeper中的znode /hbase/region-in-transition/region-name更改为SPLIT状态，以便Master可以监测到。如果子Region被选中了，Balancer可以自由地将子region分派到其他RegionServer上
分裂之后，元数据和HDFS中依然包含着指向父region的Reference文件。这些Reference文件将在子region发生紧缩操作重写数据文件时被删除掉。Master的垃圾回收工会周期性地检测是否还有指向父region的Reference，如果没有，将删除父region

预分区

HBase默认建表时有一个region，这个region的rowkey是没有边界的，即没有start key和end key，在数据写入时，所有数据都会写入这个默认的region，随着数据量的不断增加，region的size越来越大时，大到一定的阀值，hbase认为再往这个region里塞数据已经不合适了，就会找到一个midKey将region一分为二，成为2个region,这个过程称为分裂(region-split).而midKey则为这二个region的临界，左为N无下界，右为M无上界。< midKey则被塞到N区，> midKey则会被塞到M区。
在此过程中，会产生两个问题：【1】热点写，总是会往最大的start-key所在的region写东西，因为rowkey总是会比之前的大，并且HBase的是按升序方式排序的。所以写操作总是被定位到无上界的那个region中。之前分裂出来的region不会再被写数据，会处于半满状态，这样的分布是不利的。【2】region split会消耗宝贵的集群I/O资源。
基于此可以控制在建表的时候，创建多个空region，并确定每个region的起始和终止rowkey，这样只要rowkey设计能均匀的命中各个region，就不会存在写热点问题，split的几率也会大大降低。当然随着数据量的不断增长，该split的还是要进行split。像这样预先创建hbase表分区的方式，称之为 预分区。
要进行预分区，首先要明确rowkey的取值范围或构成逻辑，以rowkey组成为例：两位随机数+时间戳+客户号，两位随机数的范围从00-99，于是划分了10个region来存储数据，每个region对应的rowkey范围如下：
-10,10-20,20-30,30-40,40-50,50-60,60-70,70-80,80-90,90-
在使用HBase API建表的时候，需要产生splitkeys二维数组，这个数组存储的rowkey的边界值。代码实现：

private byte[][] getSplitKeys() {String[] keys = new String[] { "10|", "20|", "30|", "40|", "50|","60|", "70|", "80|", "90|" };byte[][] splitKeys=new byte[keys.length][];TreeSet