Hadoop的HA高可靠性集群搭建(Hadoop+High availability+Zookeeper)

2024-01-24 15:38

本文主要是介绍Hadoop的HA高可靠性集群搭建(Hadoop+High availability+Zookeeper),希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

一.概述
部分转载自:http://eksliang.iteye.com/blog/2226986

  • 1.1 hadoop1.0的单点问题
    Hadoop中的NameNode好比是人的心脏,非常重要,绝对不可以停止工作。在hadoop1时代,只有一个NameNode。如果该NameNode数据丢失或者不能工作,那么整个集群就不能恢复了。这是hadoop1中的单点问题,也是hadoop1不可靠的表现。如下图所示,便是hadoop1.0的架构图;
    enter description here

  • 1.2 hadoop2.0对hadoop1.0单点问题的解决
    为了解决hadoop1中的单点问题,在hadoop2中新的NameNode不再是只有一个,可以有多个(目前只支持2个)。每一个都有相同的职能。一个是active状态的,一个是standby状态的。当集群运行时,只有active状态的NameNode是正常工作的,standby状态的NameNode是处于待命状态的,时刻同步active状态NameNode的数据。一旦active状态的NameNode不能工作,通过手工或者自动切换,standby状态的NameNode就可以转变为active状态的,就可以继续工作了。这就是高可靠。

  • 1.3 使用JournalNode实现NameNode(Active和Standby)数据的共享
    Hadoop2.0中,2个NameNode的数据其实是实时共享的。新HDFS采用了一种共享机制,Quorum Journal Node(JournalNode)集群或者Nnetwork File System(NFS)进行共享。NFS是操作系统层面的,JournalNode是hadoop层面的,我们这里使用JournalNode集群进行数据共享(这也是主流的做法)。如下图所示,便是JournalNode的架构图。
    enter description here

    两个NameNode为了数据同步,会通过一组称作JournalNodes的独立进程进行相互通信。当active状态的NameNode的命名空间有任何修改时,会告知大部分的JournalNodes进程。standby状态的NameNode有能力读取JNs中的变更信息,并且一直监控edit log的变化,把变化应用于自己的命名空间。standby可以确保在集群出错时,命名空间状态已经完全同步了

  • 1.4 NameNode之间的故障切换
    对于HA集群而言,确保同一时刻只有一个NameNode处于active状态是至关重要的。否则,两个NameNode的数据状态就会产生分歧,可能丢失数据,或者产生错误的结果。为了保证这点,这就需要利用使用ZooKeeper了。首先HDFS集群中的两个NameNode都在ZooKeeper中注册,当active状态的NameNode出故障时,ZooKeeper能检测到这种情况,它就会自动把standby状态的NameNode切换为active状态。

二.Hadoop(HDFS式 HA)集群的搭建参考文档
* 架构图
架构图
* 2.1 配置详细
四台机器:ndoe1,ndoe2,ndoe3,node4
配置
node1:192.168.116.3
node2:192.168.116.4
node3:192.168.116.5
node4:192.168.116.6

  • 搭建zookeeper集群,参考链接

  • HDFS High Availability
    参考文档路径:hadoop-2.5.2/share/doc/hadoop/hadoop-project-dist/hadoop-hdfs/HDFSHighAvailabilityWithNFS.html

  • 配置详解

1、 修改hadoop文件hdfs-site.xml

<configuration><property><name>dfs.nameservices</name><value>bjsxt</value></property><property><name>dfs.ha.namenodes.bjsxt</name><value>nn1,nn2</value></property><property><name>dfs.namenode.rpc-address.bjsxt.nn1</name><value>node1:8020</value></property><property><name>dfs.namenode.rpc-address.bjsxt.nn2</name><value>node2:8020</value></property><property><name>dfs.namenode.http-address.bjsxt.nn1</name><value>node1:50070</value></property><property><name>dfs.namenode.http-address.bjsxt.nn2</name><value>node2:50070</value></property><property><name>dfs.namenode.shared.edits.dir</name><value>qjournal://node2:8485;node3:8485;node4:8485/bjsxt</value></property><property><name>dfs.client.failover.proxy.provider.bjsxt</name><value>org.apache.hadoop.hdfs.server.namenode.ha.ConfiguredFailoverProxyProvider</value></property>
<property><name>dfs.ha.fencing.methods</name><value>sshfence</value>
</property>
<property><name>dfs.ha.fencing.ssh.private-key-files</name><value>/root/.ssh/id_dsa</value>
</property>
<property><name>dfs.journalnode.edits.dir</name><value>/opt/hadoop-2.5/data</value>
</property>
<property><name>dfs.ha.automatic-failover.enabled</name><value>true</value>
</property>
</configuration>

2、core-site.xml

<configuration><property><name>fs.defaultFS</name><value>hdfs://bjsxt</value></property><property><name>ha.zookeeper.quorum</name><value>node1:2181,node2:2181,node3:2181</value></property><property><name>hadoop.tmp.dir</name><value>/opt/hadoop-2.5</value></property>
</configuration>

3、将当前node下配置好的hadoop复制到其他node2\3\4

scp /home/hadoop-2.5.1/etc/hadoop/ root@node2:/home/hadoop-2.5.1/etc/
scp /home/hadoop-2.5.1/etc/hadoop/ root@node3:/home/hadoop-2.5.1/etc/
scp /home/hadoop-2.5.1/etc/hadoop/ root@node4:/home/hadoop-2.5.1/etc/

4、启动journalnode,即234(单节点启动)
在node2、3、4中分别输入以下命令

hadoop-daemon.sh start journalnode

5、检查:
为了防止出错,在每一步修改完后需要通过查看日志logs来进行检查,如果没有异常,则正确,继续进行
journalnode和namenode的检查:

tail -100 /home/hadoop-2.5.1/logs/hadoop-root-journalnode-node3.log
tail -100 /home/hadoop-2.5.1/logs/hadoop-root-namenode-node3.log 

6、同步两个namenode的数据,即node1和node2,
为了同步数据,首先需要选择一个namenode进行数据格式化

hdfs namenode -format

7、初始化zookeeper中的HA状态Initializing HA state in ZooKeeper
选择一个namenode输入如下命令:

hdfs zkfc -formatZK

输入start-dfs.sh启动集群

8、验证
访问是否正常
验证是否正常切换(如果无法正常切换,查看日志,可能是node节点之间无法免密码登录)

  • 添加ResourceManager用于资源管理
    1、官方架构
    架构
    2、配置ResourceManager节点
    node1和node2作为ResourceManager节点
    3、修改yarn-default.xml
<property><name>yarn.resourcemanager.ha.enabled</name><value>true</value></property><property><name>yarn.resourcemanager.cluster-id</name><value>cluster1</value></property><property><name>yarn.resourcemanager.ha.rm-ids</name><value>rm1,rm2</value></property><property><name>yarn.resourcemanager.hostname.rm1</name><value>node1</value></property><property><name>yarn.resourcemanager.hostname.rm2</name><value>node2</value></property><property><name>yarn.resourcemanager.zk-address</name><value>node2:2181,node3:2181,node4:2181</value></property>

4、单节点配置

etc/hadoop/core-site.xml:<configuration><property><name>fs.defaultFS</name><value>hdfs://localhost:9000</value></property>
</configuration>
etc/hadoop/hdfs-site.xml:<configuration><property><name>dfs.replication</name><value>1</value></property>
</configuration>

将配置文件复制到其他节点上

scp /home/hadoop-2.5.1/etc/hadoop/ root@node2:/home/hadoop-2.5.1/etc/
scp /home/hadoop-2.5.1/etc/hadoop/ root@node2:/home/hadoop-2.5.1/etc/
scp /home/hadoop-2.5.1/etc/hadoop/ root@node2:/home/hadoop-2.5.1/etc/

5、启动yarn

1、主节点node1启动:
start-yarn.sh
2、启动备用yarn(node2上):
yarn-daemon.sh start resourcemanager 

6、验证resourcemanager
cluster

错误记录
1、防火墙关闭
2、node之间的免密码登录
3、配置文件的单词错误以及单词一致性
4、查日志

可能更好的博客连接:
https://blog.csdn.net/q361239731/article/details/53559681
https://blog.csdn.net/q361239731/article/details/53559866

这篇关于Hadoop的HA高可靠性集群搭建(Hadoop+High availability+Zookeeper)的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/640154

相关文章

服务器集群同步时间手记

1.时间服务器配置(必须root用户) (1)检查ntp是否安装 [root@node1 桌面]# rpm -qa|grep ntpntp-4.2.6p5-10.el6.centos.x86_64fontpackages-filesystem-1.41-1.1.el6.noarchntpdate-4.2.6p5-10.el6.centos.x86_64 (2)修改ntp配置文件 [r

Zookeeper安装和配置说明

一、Zookeeper的搭建方式 Zookeeper安装方式有三种,单机模式和集群模式以及伪集群模式。 ■ 单机模式:Zookeeper只运行在一台服务器上,适合测试环境; ■ 伪集群模式:就是在一台物理机上运行多个Zookeeper 实例; ■ 集群模式:Zookeeper运行于一个集群上,适合生产环境,这个计算机集群被称为一个“集合体”(ensemble) Zookeeper通过复制来实现

Hadoop企业开发案例调优场景

需求 (1)需求:从1G数据中,统计每个单词出现次数。服务器3台,每台配置4G内存,4核CPU,4线程。 (2)需求分析: 1G / 128m = 8个MapTask;1个ReduceTask;1个mrAppMaster 平均每个节点运行10个 / 3台 ≈ 3个任务(4    3    3) HDFS参数调优 (1)修改:hadoop-env.sh export HDFS_NAMENOD

HDFS—集群扩容及缩容

白名单:表示在白名单的主机IP地址可以,用来存储数据。 配置白名单步骤如下: 1)在NameNode节点的/opt/module/hadoop-3.1.4/etc/hadoop目录下分别创建whitelist 和blacklist文件 (1)创建白名单 [lytfly@hadoop102 hadoop]$ vim whitelist 在whitelist中添加如下主机名称,假如集群正常工作的节

Hadoop集群数据均衡之磁盘间数据均衡

生产环境,由于硬盘空间不足,往往需要增加一块硬盘。刚加载的硬盘没有数据时,可以执行磁盘数据均衡命令。(Hadoop3.x新特性) plan后面带的节点的名字必须是已经存在的,并且是需要均衡的节点。 如果节点不存在,会报如下错误: 如果节点只有一个硬盘的话,不会创建均衡计划: (1)生成均衡计划 hdfs diskbalancer -plan hadoop102 (2)执行均衡计划 hd

hadoop开启回收站配置

开启回收站功能,可以将删除的文件在不超时的情况下,恢复原数据,起到防止误删除、备份等作用。 开启回收站功能参数说明 (1)默认值fs.trash.interval = 0,0表示禁用回收站;其他值表示设置文件的存活时间。 (2)默认值fs.trash.checkpoint.interval = 0,检查回收站的间隔时间。如果该值为0,则该值设置和fs.trash.interval的参数值相等。

Hadoop数据压缩使用介绍

一、压缩原则 (1)运算密集型的Job,少用压缩 (2)IO密集型的Job,多用压缩 二、压缩算法比较 三、压缩位置选择 四、压缩参数配置 1)为了支持多种压缩/解压缩算法,Hadoop引入了编码/解码器 2)要在Hadoop中启用压缩,可以配置如下参数

搭建Kafka+zookeeper集群调度

前言 硬件环境 172.18.0.5        kafkazk1        Kafka+zookeeper                Kafka Broker集群 172.18.0.6        kafkazk2        Kafka+zookeeper                Kafka Broker集群 172.18.0.7        kafkazk3

【IPV6从入门到起飞】5-1 IPV6+Home Assistant(搭建基本环境)

【IPV6从入门到起飞】5-1 IPV6+Home Assistant #搭建基本环境 1 背景2 docker下载 hass3 创建容器4 浏览器访问 hass5 手机APP远程访问hass6 更多玩法 1 背景 既然电脑可以IPV6入站,手机流量可以访问IPV6网络的服务,为什么不在电脑搭建Home Assistant(hass),来控制你的设备呢?@智能家居 @万物互联

pico2 开发环境搭建-基于ubuntu

pico2 开发环境搭建-基于ubuntu 安装编译工具链下载sdk 和example编译example 安装编译工具链 sudo apt install cmake gcc-arm-none-eabi libnewlib-arm-none-eabi libstdc++-arm-none-eabi-newlib 注意cmake的版本,需要在3.17 以上 下载sdk 和ex