【EMR】HBase替换现有底层存储hdfs为oss

2023-11-03 07:50

本文主要是介绍【EMR】HBase替换现有底层存储hdfs为oss,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

前言
HBase on OSS架构优势如下:

  • 简化了数据迁移和恢复

    • HBase的数据文件和表的元数据持久存储在集群外部的OSS上,HBase数据迁移和恢复时无需再使用快照等复杂的方式。
  • 方便扩容

    • 目前基于Core Node扩容HBase计算时会同步扩容HDFS,但是本文中的HDFS集群本身只用于存储WAL(Write Ahead Log),需要的存储空间较少,所以实际是能够通过计算需求而非存储需求来调整EMR集群大小,同时OSS作为云存储服务,扩容操作也比较简单。
      与其说是Hbase替换现有底层存储hdfsoss,不如说是hbase替换底层存储hdfsoss-hdfs
      环境准备:
  • EMR 5.6.0 大数据集群(正常运行)

  • oss服务环境(正常运行)
    组件

    • hbase
    • oss
    • zookeeper
    • hdfs
      操作步骤
      具体的操作分为以下几个步骤:
    1. 联系主账号管理员,并确认oss开通了hdfs的服务,开通方式请参考:开通并授权访问OSS-HDFS服务
      在这里插入图片描述

    此时应该获取得到形如红框内的oss-hdfs地址,可以通过命令hdfs -ls ${oss-hdfs_path} 来验证一下这个地址是否可用。
    2. 停止hbase服务:
    登录阿里云的控制台,找到emr的服务,点击进入集群服务找到hbase服务,点击停止。
    3. 迁移hbase数据:
    停止了hbase之后,将hbase的数据目录迁移到oss-hdfs上。迁移的方式: 从HDFS迁移数据到OSS 。
    如果数据量不多的话,那就像我这样做吧:

    hbase的数据从hdfs下载到本地,使用命令: hdfs fs -get /hbase ./
    将本地的hbase的目录上传到oss-hdfs,使用命令 hdfs fs -put ./ oss://${oss-hdfs_path}

    1. 配置hbase:
      主要修改两个配置: hbase.rootdir hbase.wal.dir
    • hbase.rootdir

    HBase数据存储目录,配置为OSS路径,配置格式为oss://${oss_bucket}.${endpoint}/${hbase-root-dir}。例如,oss://test_bucket.cn-shanghai.oss-dls.aliyuncs.com/hbase
    说明 其中,需要替换的参数:

    • ${oss_bucket}:您在OSS控制台上创建的Bucket名称。
    • ${endpoint}:您在步骤2中获取到的HDFS服务域名。
    • ${hbase-root-dir}:HBase的根目录。
    • hbase.wal.dir:

    hdfs://${namespace}/${hbase-wal-dir}
    配置一个hdfs的路径,例如:hdfs://emr-header-1:9000/hbase/wal_log
    依据第3点的描述,将hbase的路径进行配置。配置完成之后,需要点击一下部署客户端配置。将修改好的配置同步更新到各个节点上去。

    1. 删除zookeeper的hbase旧的元数据目录
      登陆对应集群的gateway节点或者集群中的zookeeper的client端。使用命令zkCli.sh进到zookeeper的控制台。使用命令deleteall /hbase删除hbase在zookeeper中的元数据。

    2. 启动hbase
      aliyunEMR控制台中,找到hbase的服务,点击启动即可。

    3. hbase的校验
      等待hbase启动完毕之后,需要校验一下hbase的读写功能是否正常。
      总结:
      整体步骤如上所述,亲测ok!
      参考文档:

  1. 使用OSS作为HBase的底层存储 - 开源大数据平台E-MapReduce - 阿里云

这篇关于【EMR】HBase替换现有底层存储hdfs为oss的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/336680

相关文章

异构存储(冷热数据分离)

异构存储主要解决不同的数据,存储在不同类型的硬盘中,达到最佳性能的问题。 异构存储Shell操作 (1)查看当前有哪些存储策略可以用 [lytfly@hadoop102 hadoop-3.1.4]$ hdfs storagepolicies -listPolicies (2)为指定路径(数据存储目录)设置指定的存储策略 hdfs storagepolicies -setStoragePo

HDFS—存储优化(纠删码)

纠删码原理 HDFS 默认情况下,一个文件有3个副本,这样提高了数据的可靠性,但也带来了2倍的冗余开销。 Hadoop3.x 引入了纠删码,采用计算的方式,可以节省约50%左右的存储空间。 此种方式节约了空间,但是会增加 cpu 的计算。 纠删码策略是给具体一个路径设置。所有往此路径下存储的文件,都会执行此策略。 默认只开启对 RS-6-3-1024k

HDFS—集群扩容及缩容

白名单:表示在白名单的主机IP地址可以,用来存储数据。 配置白名单步骤如下: 1)在NameNode节点的/opt/module/hadoop-3.1.4/etc/hadoop目录下分别创建whitelist 和blacklist文件 (1)创建白名单 [lytfly@hadoop102 hadoop]$ vim whitelist 在whitelist中添加如下主机名称,假如集群正常工作的节

【编程底层思考】垃圾收集机制,GC算法,垃圾收集器类型概述

Java的垃圾收集(Garbage Collection,GC)机制是Java语言的一大特色,它负责自动管理内存的回收,释放不再使用的对象所占用的内存。以下是对Java垃圾收集机制的详细介绍: 一、垃圾收集机制概述: 对象存活判断:垃圾收集器定期检查堆内存中的对象,判断哪些对象是“垃圾”,即不再被任何引用链直接或间接引用的对象。内存回收:将判断为垃圾的对象占用的内存进行回收,以便重新使用。

哈希表的底层实现(1)---C++版

目录 哈希表的基本原理 哈希表的优点 哈希表的缺点 应用场景 闭散列法 开散列法 开放定值法Open Addressing——线性探测的模拟实现 超大重点部分评析 链地址法Separate Chaining——哈希桶的模拟实现 哈希表(Hash Table)是一种数据结构,它通过将键(Key)映射到值(Value)的方式来实现快速的数据存储与查找。哈希表的核心概念是哈希

速了解MySQL 数据库不同存储引擎

快速了解MySQL 数据库不同存储引擎 MySQL 提供了多种存储引擎,每种存储引擎都有其特定的特性和适用场景。了解这些存储引擎的特性,有助于在设计数据库时做出合理的选择。以下是 MySQL 中几种常用存储引擎的详细介绍。 1. InnoDB 特点: 事务支持:InnoDB 是一个支持 ACID(原子性、一致性、隔离性、持久性)事务的存储引擎。行级锁:使用行级锁来提高并发性,减少锁竞争

TL-Tomcat中长连接的底层源码原理实现

长连接:浏览器告诉tomcat不要将请求关掉。  如果不是长连接,tomcat响应后会告诉浏览器把这个连接关掉。    tomcat中有一个缓冲区  如果发送大批量数据后 又不处理  那么会堆积缓冲区 后面的请求会越来越慢。

ORACLE语法-包(package)、存储过程(procedure)、游标(cursor)以及java对Result结果集的处理

陈科肇 示例: 包规范 CREATE OR REPLACE PACKAGE PACK_WMS_YX IS-- Author : CKZ-- Created : 2015/8/28 9:52:29-- Purpose : 同步数据-- Public type declarations,游标 退休订单TYPE retCursor IS REF CURSOR;-- RETURN vi_co_co

argodb自定义函数读取hdfs文件的注意点,避免FileSystem已关闭异常

一、问题描述 一位同学反馈,他写的argo存过中调用了一个自定义函数,函数会加载hdfs上的一个文件,但有些节点会报FileSystem closed异常,同时有时任务会成功,有时会失败。 二、问题分析 argodb的计算引擎是基于spark的定制化引擎,对于自定义函数的调用跟hive on spark的是一致的。udf要通过反射生成实例,然后迭代调用evaluate。通过代码分析,udf在

OpenStack离线Train版安装系列—11.5实例使用-Cinder存储服务组件

本系列文章包含从OpenStack离线源制作到完成OpenStack安装的全部过程。 在本系列教程中使用的OpenStack的安装版本为第20个版本Train(简称T版本),2020年5月13日,OpenStack社区发布了第21个版本Ussuri(简称U版本)。 OpenStack部署系列文章 OpenStack Victoria版 安装部署系列教程 OpenStack Ussuri版