HBase Region分裂以及预分区

2024-04-01 17:08
文章标签 分区 hbase region 分裂

本文主要是介绍HBase Region分裂以及预分区,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

Region分裂

  当MemStore的数据超过阈值时,将数据溢写磁盘,生成一个StoreFile文件。当Region中最大Store的大小超过阈值时,Region分裂,等分成两个Region,实现数据访问的负载均衡。新的Region的位置由HMaster来确定在哪个RegionServer中。

  1. RegionServer决定本地的region分裂,并准备分裂工作。第一步是,在zookeeper的/hbase/region-in-transition/region-name下创建一个znode,并设为SPLITTING状态
  2. Master通过父region-in-transition znode的watcher监测到刚刚创建的znode
  3. RegionServer在HDFS中父region的目录下创建名为“.split”的子目录
  4. RegionServer关闭父region,并强制刷新缓存内的数据,之后在本地数据结构中将标识为下线状态
  5. RegionServer在.split目录下为子regionA和B创建目录和相关的数据结构。然后RegionServer分割store文件,为父region的每个store文件创建两个Reference文件,这些Reference文件将指向父region中的文件
  6. RegionServer在HDFS中创建实际的region目录,并移动每个子region的Reference文件
  7. RegionServer向.META.表发送Put请求,并在.META.中将父region改为下线状态,添加子region的信息。如果Put请求成功,那么父region将被有效地分割。如果在这条RPC成功之前RegionServer死掉了,那么Master和打开region的下一个RegionServer会清理关于该region分裂的脏状态。在.META.更新之后,region的分裂将被Master回滚到之前的状态
  8. RegionServer打开子region,并行地接受写请求
  9. RegionServer将子region A和B的相关信息写入.META.。此后,Client便可以扫描到新的region并且可以向其发送请求
  10. RegionServer将zookeeper中的znode /hbase/region-in-transition/region-name更改为SPLIT状态,以便Master可以监测到。如果子Region被选中了,Balancer可以自由地将子region分派到其他RegionServer上
  11. 分裂之后,元数据和HDFS中依然包含着指向父region的Reference文件。这些Reference文件将在子region发生紧缩操作重写数据文件时被删除掉。Master的垃圾回收工会周期性地检测是否还有指向父region的Reference,如果没有,将删除父region

预分区

  HBase默认建表时有一个region,这个region的rowkey是没有边界的,即没有start key和end key,在数据写入时,所有数据都会写入这个默认的region,随着数据量的不断增加,region的size越来越大时,大到一定的阀值,hbase认为再往这个region里塞数据已经不合适了,就会找到一个midKey将region一分为二,成为2个region,这个过程称为分裂(region-split).而midKey则为这二个region的临界,左为N无下界,右为M无上界。< midKey则被塞到N区,> midKey则会被塞到M区。
  在此过程中,会产生两个问题:【1】热点写,总是会往最大的start-key所在的region写东西,因为rowkey总是会比之前的大,并且HBase的是按升序方式排序的。所以写操作总是被定位到无上界的那个region中。之前分裂出来的region不会再被写数据,会处于半满状态,这样的分布是不利的。【2】region split会消耗宝贵的集群I/O资源。
  基于此可以控制在建表的时候,创建多个空region,并确定每个region的起始和终止rowkey,这样只要rowkey设计能均匀的命中各个region,就不会存在写热点问题,split的几率也会大大降低。当然随着数据量的不断增长,该split的还是要进行split。像这样预先创建hbase表分区的方式,称之为 预分区
  要进行预分区,首先要明确rowkey的取值范围或构成逻辑,以rowkey组成为例:两位随机数+时间戳+客户号,两位随机数的范围从00-99,于是划分了10个region来存储数据,每个region对应的rowkey范围如下:
-10,10-20,20-30,30-40,40-50,50-60,60-70,70-80,80-90,90-
  在使用HBase API建表的时候,需要产生splitkeys二维数组,这个数组存储的rowkey的边界值。代码实现:

private byte[][] getSplitKeys() {String[] keys = new String[] { "10|", "20|", "30|", "40|", "50|","60|", "70|", "80|", "90|" };byte[][] splitKeys=new byte[keys.length][];TreeSet

这篇关于HBase Region分裂以及预分区的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/867697

相关文章

Hive和Hbase的区别

Hive 和 HBase 都是 Hadoop 生态系统中的重要组件,它们都能处理大规模数据,但各自有不同的适用场景和设计理念。以下是两者的主要区别: 1. 数据模型 Hive:Hive 类似于传统的关系型数据库 (RDBMS),以表格形式存储数据。它使用 SQL-like 语言 HiveQL 来查询和处理数据,数据通常是结构化或半结构化的。HBase:HBase 是一个 NoSQL 数据库,基

简单Hbase 分页方案

简单Hbase分页方案 网上大多数分页方案分为从服务端分页或者从客户端分页 服务端分页方式主要利用PageFilter过滤器,首先太复杂,其次针对集群的兼容性不是很好,作者利用服务端分页+客户端分页结合方式给出一种简单易行的中间方案。 1.利用PageFilter过滤器从服务端分页,过滤出所需要的最大条数, 注:作者认为大多数用户不会进行太深的翻页,假设pageSize=5,客户饭100页一共

Hbase Filter+Scan 查询效率优化

Hbase Filter+Scan 查询效率问题 众所周知,Hbase利用filter过滤器查询时候会进行全表扫描,查询效率低下,如果没有二级索引,在项目中很多情况需要利用filter,下面针对这种情况尝试了几种优化的方案,仅供参考,欢迎交流。 根据业务要求,作者需要根据时间范围搜索所需要的数据,所以作者设计的rowKey是以时间戳为起始字符串的。 正确尝试: 1.scan 设置 开始行和结

Hbase 查询相关用法

Hbase 查询相关用法 public static void main(String[] args) throws IOException {//Scan类常用方法说明//指定需要的family或column ,如果没有调用任何addFamily或Column,会返回所有的columns; // scan.addFamily(); // scan.addColumn();// scan.se

数据库系统 第41节 数据库分区简介

数据库分区是一种数据库设计技术,用于将大型表或索引的数据分布到不同的物理区域,以提高查询性能、优化数据管理、简化维护任务,并提高数据的可用性。下面我将详细介绍每种分区类型,并结合伪代码或概念性的源代码来说明其实现方式。 1. 范围分区 (Range Partitioning) 范围分区是根据某个列的值范围来划分数据。例如,可以按照日期或数值范围来分区。 示例场景:一个订单表,按年份分区。

Windows环境下SD卡多分区 隐藏分区 解决python裸读写扇区失败

SD卡分区 右键“我的电脑”->“管理”->“磁盘管理”; 如果SD卡有文件系统,点击"删除卷",重新做卡; 删除文件系统后如下图,点击“新建简单卷”; 在导航页“指定卷大小”,设置分区的大小,留出剩余的空间; python读写SD卡 这里需要注意的是,写SD卡需要加锁,否则写不成功 #带文件系统,需要锁定卷,否则无法写扇区@contextlib.contextmanagerd

在不损坏数据的情况下给WIN7重新划分分区

小易接到个求助电话:我的机器上已经装好了系统,但是只有一个分区。我不想重装系统重新分区,能不能再分出一个分区?   这个故障可能是困惑很多网友的一个故障。一般,有一些第三方的软件可以实现这些功能。但是,现在在 Windows Vista/Windows 7 里允许你对现有分区大小进行一定范围的调整。   来看一下操作办法:   准备工作   这个操作必须要求你的文件系统是 N

如何调整c盘分区大小,怎样把c盘空间调整小些

新买的笔记本电脑回来后发现电脑只分了C盘和D盘两个区,C盘就占了很大的空间,如何调整c盘分区大小,这样可以多腾些空间出来利用呢?虽然Win7有磁盘管理器可以压缩分区实现把C盘调小些,但是它的功能有限,压缩后也是很大一部分空间在C盘浪费,那怎样把c盘空间调整小些呢,下载我们介绍一个工具来完成这些复杂的动作:   1、下载安装分区助手DiskTool中文版。   在主界面上你可以看到C盘有60

win10 gpt分区+uefi引导 卸载双系统ubuntu

1、首先暴力卸载ubuntu 在win10里面磁盘管理中找到对应的linux磁盘分区 删除卷OK 2、重启 出现下面(根据机型不同界面可能不一样 ) 3、exit 退出grub引导 进入uefi引导  选择win10引导项 (当然你要是一直按着进入bios boot的那个按键的话 也不用看第二步了 直接选择windows启动项进去 dell的话是F12) 4、进入

青云QingCloud 推出 Region 服务,帮企业轻松构建多活架构

理想情况下,企业通过使用云的方式来消除地域对业务的影响,就像我们在使用水电时,不需要关心发电厂在哪里。但是,一般来说,不同地域之间,只能通过公网联通。 为帮助用户便捷地构建高可用的业务架构,青云QingCloud 推出 Region 服务,通过对基础网络架构进行升级,实现区域( Region )内的可用区( Availability Zone )之间内网高速互联,全面提升整体服务能力。