【EMR】HBase替换现有底层存储hdfs为oss

2023-11-03 07:50

本文主要是介绍【EMR】HBase替换现有底层存储hdfs为oss,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

前言
HBase on OSS架构优势如下:

  • 简化了数据迁移和恢复

    • HBase的数据文件和表的元数据持久存储在集群外部的OSS上,HBase数据迁移和恢复时无需再使用快照等复杂的方式。
  • 方便扩容

    • 目前基于Core Node扩容HBase计算时会同步扩容HDFS,但是本文中的HDFS集群本身只用于存储WAL(Write Ahead Log),需要的存储空间较少,所以实际是能够通过计算需求而非存储需求来调整EMR集群大小,同时OSS作为云存储服务,扩容操作也比较简单。
      与其说是Hbase替换现有底层存储hdfsoss,不如说是hbase替换底层存储hdfsoss-hdfs
      环境准备:
  • EMR 5.6.0 大数据集群(正常运行)

  • oss服务环境(正常运行)
    组件

    • hbase
    • oss
    • zookeeper
    • hdfs
      操作步骤
      具体的操作分为以下几个步骤:
    1. 联系主账号管理员,并确认oss开通了hdfs的服务,开通方式请参考:开通并授权访问OSS-HDFS服务
      在这里插入图片描述

    此时应该获取得到形如红框内的oss-hdfs地址,可以通过命令hdfs -ls ${oss-hdfs_path} 来验证一下这个地址是否可用。
    2. 停止hbase服务:
    登录阿里云的控制台,找到emr的服务,点击进入集群服务找到hbase服务,点击停止。
    3. 迁移hbase数据:
    停止了hbase之后,将hbase的数据目录迁移到oss-hdfs上。迁移的方式: 从HDFS迁移数据到OSS 。
    如果数据量不多的话,那就像我这样做吧:

    hbase的数据从hdfs下载到本地,使用命令: hdfs fs -get /hbase ./
    将本地的hbase的目录上传到oss-hdfs,使用命令 hdfs fs -put ./ oss://${oss-hdfs_path}

    1. 配置hbase:
      主要修改两个配置: hbase.rootdir hbase.wal.dir
    • hbase.rootdir

    HBase数据存储目录,配置为OSS路径,配置格式为oss://${oss_bucket}.${endpoint}/${hbase-root-dir}。例如,oss://test_bucket.cn-shanghai.oss-dls.aliyuncs.com/hbase
    说明 其中,需要替换的参数:

    • ${oss_bucket}:您在OSS控制台上创建的Bucket名称。
    • ${endpoint}:您在步骤2中获取到的HDFS服务域名。
    • ${hbase-root-dir}:HBase的根目录。
    • hbase.wal.dir:

    hdfs://${namespace}/${hbase-wal-dir}
    配置一个hdfs的路径,例如:hdfs://emr-header-1:9000/hbase/wal_log
    依据第3点的描述,将hbase的路径进行配置。配置完成之后,需要点击一下部署客户端配置。将修改好的配置同步更新到各个节点上去。

    1. 删除zookeeper的hbase旧的元数据目录
      登陆对应集群的gateway节点或者集群中的zookeeper的client端。使用命令zkCli.sh进到zookeeper的控制台。使用命令deleteall /hbase删除hbase在zookeeper中的元数据。

    2. 启动hbase
      aliyunEMR控制台中,找到hbase的服务,点击启动即可。

    3. hbase的校验
      等待hbase启动完毕之后,需要校验一下hbase的读写功能是否正常。
      总结:
      整体步骤如上所述,亲测ok!
      参考文档:

  1. 使用OSS作为HBase的底层存储 - 开源大数据平台E-MapReduce - 阿里云

这篇关于【EMR】HBase替换现有底层存储hdfs为oss的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/336680

相关文章

使用C#代码在PDF文档中添加、删除和替换图片

《使用C#代码在PDF文档中添加、删除和替换图片》在当今数字化文档处理场景中,动态操作PDF文档中的图像已成为企业级应用开发的核心需求之一,本文将介绍如何在.NET平台使用C#代码在PDF文档中添加、... 目录引言用C#添加图片到PDF文档用C#删除PDF文档中的图片用C#替换PDF文档中的图片引言在当

C# WinForms存储过程操作数据库的实例讲解

《C#WinForms存储过程操作数据库的实例讲解》:本文主要介绍C#WinForms存储过程操作数据库的实例,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录一、存储过程基础二、C# 调用流程1. 数据库连接配置2. 执行存储过程(增删改)3. 查询数据三、事务处

如何将Tomcat容器替换为Jetty容器

《如何将Tomcat容器替换为Jetty容器》:本文主要介绍如何将Tomcat容器替换为Jetty容器问题,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录Tomcat容器替换为Jetty容器修改Maven依赖配置文件调整(可选)重新构建和运行总结Tomcat容器替

Oracle存储过程里操作BLOB的字节数据的办法

《Oracle存储过程里操作BLOB的字节数据的办法》该篇文章介绍了如何在Oracle存储过程中操作BLOB的字节数据,作者研究了如何获取BLOB的字节长度、如何使用DBMS_LOB包进行BLOB操作... 目录一、缘由二、办法2.1 基本操作2.2 DBMS_LOB包2.3 字节级操作与RAW数据类型2.

Java实现数据库图片上传与存储功能

《Java实现数据库图片上传与存储功能》在现代的Web开发中,上传图片并将其存储在数据库中是常见的需求之一,本文将介绍如何通过Java实现图片上传,存储到数据库的完整过程,希望对大家有所帮助... 目录1. 项目结构2. 数据库表设计3. 实现图片上传功能3.1 文件上传控制器3.2 图片上传服务4. 实现

C语言中的浮点数存储详解

《C语言中的浮点数存储详解》:本文主要介绍C语言中的浮点数存储详解,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录1、首先明确一个概念2、接下来,讲解C语言中浮点型数存储的规则2.1、可以将上述公式分为两部分来看2.2、问:十进制小数0.5该如何存储?2.3 浮点

Java的volatile和sychronized底层实现原理解析

《Java的volatile和sychronized底层实现原理解析》文章详细介绍了Java中的synchronized和volatile关键字的底层实现原理,包括字节码层面、JVM层面的实现细节,以... 目录1. 概览2. Synchronized2.1 字节码层面2.2 JVM层面2.2.1 ente

MySQL中Next-Key Lock底层原理实现

《MySQL中Next-KeyLock底层原理实现》Next-KeyLock是MySQLInnoDB存储引擎中的一种锁机制,结合记录锁和间隙锁,用于高效并发控制并避免幻读,本文主要介绍了MySQL中... 目录一、Next-Key Lock 的定义与作用二、底层原理三、源代码解析四、总结Next-Key L

MySQL常见的存储引擎和区别说明

《MySQL常见的存储引擎和区别说明》MySQL支持多种存储引擎,如InnoDB、MyISAM、MEMORY、Archive、CSV和Blackhole,每种引擎有其特点和适用场景,选择存储引擎时需根... 目录mysql常见的存储引擎和区别说明1. InnoDB2. MyISAM3. MEMORY4. A

Golang基于内存的键值存储缓存库go-cache

《Golang基于内存的键值存储缓存库go-cache》go-cache是一个内存中的key:valuestore/cache库,适用于单机应用程序,本文主要介绍了Golang基于内存的键值存储缓存库... 目录文档安装方法示例1示例2使用注意点优点缺点go-cache 和 Redis 缓存对比1)功能特性