Hadoop2.6.5 HA完全分布式搭建

本文主要是介绍Hadoop2.6.5 HA完全分布式搭建，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

一、准备工作

虚拟机器：vmware workstation 14

Linux系统：Centos 6.4

JDK版本：jdk-8u161-linux-x64.tar.gz

Hadoop版本：hadoop-2.6.5.tar.gz

二、基本配置

1、系统安装（略），在/usr/local目录下建立 soft文件夹（存放下载的软件），Java（jdk）,hadoop（hadoop文件）

# cd /usr/local

# mkdir java soft hadoop

2、设置主机名字与hosts配置，为配置SSH做准备，这里我们准备5台虚拟机，2台 namenode节点，3台 datanode节点

master 192.168.91.130

master 192.168.91.135

slave1 192.168.91.131

slave2 192.168.91.132

slave3 192.168.91.133

a)依次在5台机器上设置hostname，方便系统操作,将hostname 依次设置为master msater2 slave1 save2 slave3

# vim /etc/sysconfig/network

b)依次在每台机器上配置hosts配置文件,hosts配置文件类似于DNS的作用，当发生网络请求时首先扫描该配置文件

# vim /etc/hosts

校验是否配置成功：

注意：修改完hostname后切记要重启机器

3、同步时间：

ntpdate -u ntp.api.bz

2、JDK安装：

a)拷贝jdk文件到Java目录下，并解压

# cp jdk-8u161-linux-x64.tar.gz /usr/local/java

# tar -zxvf jdk-8u161-linux-x64.tar.gz

b)配置环境变量

将以下配置文件放在 profile文件中

export JAVA_HOME=/usr/local/java/jdk1.8.0_161

export PATH=$JAVA_HOME/bin:$PATH

export CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar

# vim /etc/profile

立即生效

# source /etc/profile

检查是否安装成功

# java -version或 jps

3、配置SSH免密钥

配置密钥前给每个机器添加用户 hadoop,在hadoop用户下创建密钥，因为授予root权限面密钥登陆

有些不安全，毕竟不是一个人在操作，这里我们创建hadoop用户，并授予其 /usr/local 775权限

# chmod 775 /usr/local/

hadoop集群启动以后在管理过程中，namenode是通过ssh管理datanode节点的启动或停止的，所以必须设置为免密钥，这里我们在每台机器上配置公钥,同理datanode节点也可以通过ssh向namenode节点做一些操作。

原理：

当Master通过SSH连接Salve时，Salve就会生成一个随机数并用Master的公钥对随机数进行加密，并发送给Master。Master收到加密数之后再用私钥解密，并将解密数回传给Slave，Slave确认解密数无误之后就允许Master进行连接了。这就是一个公钥认证过程，其间不需要用户手工输入密码。重要过程是将客户端Master复制到Slave上。

a)配置master免密钥登陆其他节点

#ssh-keygen -t dsa -P ''

配置本地免密钥登陆

cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys

注意：目前还是不能完成本地登陆的，还没有得到root授权

修改ssh授权配置

# vim /etc/ssh/sshd_config

如果还不能登陆则需要 .ssh父级及hadoop 目录需要755权限

在slave1节点执行相同的操作，然后将master节点id_dsa.pub发送到slave1节点/tmp目录下，并追加到slave1 的authorized_keys中，同样将slave1中的id_dsa.pub追加到master 中，互相持有对方的公钥

#cat /tmp/id_dsa.pub>>.ssh/authorized_keys

检查是否成功

#ssh slave1

其他节点也是如此，5个节点可以彼此通过ssh免密钥访问.

三、配置hadoop

1、将下载好的hadoop2.6.5.tar.gz安装包，放在/usr/local/soft目录下，并copy倒/usr/local/hadoop目录下解压，重命名

#tar -zxvf hadoop-2.6.5.tar.gz

#mv hadoop-2.6.5 hadoop

2、在hadoop目录下建立使用的文件夹，

#mkdir -p tmp hdfs hdfs/data hdfs/name

3、配置环境变量

#vim /etc/profile

export HADOOP_HOME=/usr/local/hadoop/hadoop

export PATH=$JAVA_HOME/bin:$HADOOP_HOME/bin:$PATH

使其生效

#source /etc/profile

4、配置hadoop配置文件

进入$HADOOP_HOME/etc/hadoop目录，配置 hadoop-env.sh等。涉及的配置文件如下：

hadoop/etc/hadoop/hadoop-env.sh

hadoop/etc/hadoop/yarn-env.sh

hadoop/etc/hadoop/core-site.xml

hadoop/etc/hadoop/hdfs-site.xml

hadoop/etc/hadoop/mapred-site.xml

hadoop/etc/hadoop/yarn-site.xml

(1)配置hadoop-env.sh；yarn-env.sh Java环境变量

The java implementation to use. #export JAVA_HOME=${JAVA_HOME} export JAVA_HOME=/usr/java/jdk1.7.0_79

(2)配置core-site.xml配置文件

:这是一个描述集群中NameNode结点的URI(包括协议、主机名称、端口号)，集群里面的每一台机器都需要知道NameNode的地址。DataNode结点会先在NameNode上注册，这样它们的数据才可以被使用。独立的客户端程序通过这个URI跟DataNode交互，以取得文件的块列表

<name>fs.defaultDFS</name>

<value>hdfs://master:9000</value>

</property>

hadoop.tmp.dir 是hadoop文件系统依赖的基础配置，很多路径都依赖它。如果hdfs-site.xml中不配置namenode和datanode的存放位置，默认就放在这个路径中

(3)在slaves目录下配置datanode数据节点，进入/usr/local/hadoop/hadoop/etc/hadoop目录

#cd /usr/local/hadoop/hadoop/etc/hadoop