hbase表数据备份策略

2024-05-15 03:18

文章标签 策略 hbase 数据备份

本文主要是介绍hbase表数据备份策略，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

Hbase的数据备份策略有：

（1）Distcp

（2）CopyTable

（3）Export/Import

（4）Replication

（5）Snapshot

下面介绍这几种方式：

（一）Distcp（离线备份）

直接备份HDFS数据，备份前需要disable表，在备份完成之前
服务不可用对在线服务类业务不友好

（二）CopyTable（热备）

执行命令前，需要创建表，支持时间区间、row区间，改变表名称，改变列簇名称，指定是否copy删除数据等功能，例如：


 hbase org.apache.hadoop.hbase.mapreduce.CopyTable --starttime=1265875194289 --endtime=1265878794289 --peer.adr= dstClusterZK:2181:/hbase --families=myOldCf:myNewCf,cf2,cf3 TestTable

    1、同一个集群不同表名称

      hbase org.apache.hadoop.hbase.mapreduce.CopyTable --new.name=tableCopy  srcTable

    2、跨集群copy表

      hbase org.apache.hadoop.hbase.mapreduce.CopyTable --peer.adr=dstClusterZK:2181:/hbase srcTable

三、Export/Import（热备+离线）

通过Export导出数据到目标集群的hdfs，再在目标集群执行import导入数据，Export支持指定开始时间和结束时间，因此可以做增量备份。

四，Replication（实时）

通过Hbase的replication机制实现Hbase集群的主从模式实时同步

五，Snapshot（备份实时，恢复需要disable）

个人觉得这里备份里面最经济划算的一个，可以每天在固定时间点对hbase表数据进行快照备份，然后如果出现问题了，可以直接恢复到某个时间点上的数据，适合修复指标计算错误的场景，然后从某个时间点上重新修复。

下面详细说下使用方式：

（1）先建立一个测试表


 create 'test','cf'

（2）添加数据


 > put 'test','a','cf:c1',1
> put 'test','a','cf:c2',2
> put 'test','b','cf:c1',3
> put 'test','b','cf:c2',4
> put 'test','c','cf:c1',5
> put 'test','c','cf:c2',6

（3）创建快照


  hbase snapshot  create -n test_snapshot -t test

（4）查看快照


 list_snapshots

（5）导出到HDFS


 hbase org.apache.hadoop.hbase.snapshot.ExportSnapshot -snapshot test_snapshot -copy-to  hdfs://user/back/xxx

（6）从快照恢复数据到原表中


restore _snapshot 'test_snapshot'

（7）从快照中恢复到一个新表中


clone_snapshot 'test_snapshot','test_2'

[b][color=green][size=large]
有什么问题可以扫码关注微信公众号：我是攻城师(woshigcs)，在后台留言咨询。
技术债不能欠，健康债更不能欠，求道之路，与君同行。
[/size][/color][/b]
[img]http://dl2.iteye.com/upload/attachment/0104/9948/3214000f-5633-3c17-a3d7-83ebda9aebff.jpg[/img]