Hadoop学习（1）Hadoop2.9.1完全分布式环境搭建和测试

本文主要是介绍Hadoop学习（1）Hadoop2.9.1完全分布式环境搭建和测试，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

参考：

1. 安装前节点环境准备

1.1修改主机名（所有节点，以master节点为例）：

1.2关闭防火墙和selinux（所有节点，以master节点为例）：

2. 安装前系统环境准备

2.1 安装jdk（所有节点，以master节点为例）

2.2 创建hadoop用户（所有节点，以master节点为例）

2.3 hosts文件设置（所有节点，以master节点为例）

2.4 配置SSH免密码登录（所有节点，以master节点为例）

3. 安装Hadoop和配置Hadoop

3.1 下载安装包hadoop-2.9.1.tar.gz（master节点）

3.2 解压安装包hadoop-2.9.1.tar.gz（master节点）

3.3 master节点配置（master节点）

3.3.1 环境变量配置

3.3.2 配置core-site.xml

3.3.3 配置hdfs-site.xml

3.3.4 配置mapred-site.xml

3.3.5 配置yarn-site.xml

3.3.6 配置slaves

3.4 slave节点配置（在所有slave节点，以slave1为例）

3.5 Hadoop环境变量配置（所有节点，以master节点为例）

4. 初始化Hadoop（master节点）

5. 启动Hadoop

5.1 启动HDFS（HDFS集群的任何节点都可以）

5.2 启动YARN（在YARN主节点ResourceManager上执行）

6. 查看4台服务器的进程

7. 查看HDFS和YARN的Web管理界面

8. Hadoop的简单测试及使用

8.1 HDFS的简单使用测试

8.2 运行第一个Map Reduce的例子程序：wordcount

8.3 运行例子程序：求圆周率

参考：

https://www.cnblogs.com/qingyunzong/p/8496127.html#_label3_2

https://www.cnblogs.com/pcxie/p/7747317.html

https://blog.csdn.net/fanxin_i/article/details/80425461

1. 安装前节点环境准备

4节点均为virt-manager创建的CentOS7（英文版）的虚拟机，如下将每个节点yum源均更新为最新：

[root@localhost ~]# yum update -y[root@localhost ~]# cat /etc/redhat-releaseCentOS Linux release 7.5.1804 (Core)

节点IP	主机名	配置
10.10.129.210	master	OS：CentOS Linux release 7.5.1804 (Core) CPU：3核内存：4G 磁盘：30G
10.10.129.211	slave1
10.10.129.212	slave2
10.10.129.213	slave3

Hadoop集群中各个角色的名称：

服务	主节点	从节点
HDFS	NameNode	DataNode
YARN	ResourceManager	NodeManager

HDFS角色分配：

节点IP	主机名	HDFS角色
10.10.129.210	master	datanode；namenode
10.10.129.211	slave1	datanode；
10.10.129.212	slave2	datanode；secondarynamenode
10.10.129.213	slave3	datanode；

YARN角色分配：

节点IP	主机名	YARN角色
10.10.129.210	master	nodemanager；
10.10.129.211	slave1	nodemanager；
10.10.129.212	slave2	nodemanager；
10.10.129.213	slave3	nodemanager；resourcemanager

1.1修改主机名（所有节点，以master节点为例）：

在centos7特地添加了hostnamectl命令查看，修改主机名使用hostnamectl set-hostname 命令修改主机名，可永久生效，新连接主机即可看到主机名发生了改变

[root@localhost~]# hostnamectl set-hostname master

断开重连：

其他节点也分别更名为：slave1，slave2，slave3。

1.2关闭防火墙和selinux（所有节点，以master节点为例）：

[root@master~]# systemctl disable firewalld[root@master~]# systemctl stop firewalld

关闭selinux，永久生效是修改/etc/sysconfig/selinux或者/etc/selinux/config配置文件然后需要重启机器：

[root@master~]# vim /etc/sysconfig/selinux

然后重启机器使其永久生效reboot -h

重启后检查selinux状态是否真的关闭：

[root@master ~]# sestatus

2. 安装前系统环境准备

2.1 安装jdk（所有节点，以master节点为例）

一般linux自带的jdk或者是通过yum安装的jdk都是openjdk,但是最好是使用oracle/sun jdk,前者是开源的，缺失部分功能，后者是官方的。但是如果直接安装oracle的jdk，第三方的依赖包不会安装，所以最有效的额方式是通过yum安装openjdk，并同时安装了第三方依赖包，然后卸载openjdk，通过自己来安装oracle的jdk，就能解决依赖问题。

[root@master~]# yum install -y java[root@master~]# rpm -qa|grep java

[root@master ~]# rpm -e --nodeps java-1.8.0-openjdk-1.8.0.181-3.b13.el7_5.x86_64[root@master ~]# rpm -e --nodeps java-1.8.0-openjdk-headless-1.8.0.181-3.b13.el7_5.x86_64

安装解压版JDK，先到oracle sun官网下载jdk-8u181-linux-x64.rpm ，再执行下面命令安装：

[root@master ~]# rpm -ivh jdk-8u181-linux-x64.rpm

检查是否安装成功：

[root@master ~]# java -version

java默认安装目录为：/usr/java/jdk1.8.0_181-amd64（后面配置JAVA_HOME用得着）

2.2 创建hadoop用户（所有节点，以master节点为例）

[root@master ~]# useradd -m hadoop

为hadoop用户添加密码：

[root@master ~]# passwd hadoopChanging password for user hadoop.New password:BAD PASSWORD: The password is shorter than 8 charactersRetype new password:passwd: all authentication tokens updated successfully.

为hadoop用户添加root权限：

[root@master ~]# vim /etc/sudoers

在root ALL=(ALL) ALL行下面添加：

hadoop ALL=(ALL) ALL，保存退出

2.3 hosts文件设置（所有节点，以master节点为例）

[root@master~]# vim /etc/hosts

检查是否识别域名：

2.4 配置SSH免密码登录（所有节点，以master节点为例）

master节点为例：

使用hadoop用户：

[root@master ~]# su hadoop[hadoop@master root]$ cd ~[hadoop@master ~]$ pwd/home/hadoop

[hadoop@master~]# ssh-keygen（执行以下命令然后一路回车）：

[hadoop@master~]# ssh-keygen

复制key到各节点，注意不要漏掉自身节点：

[hadoop@master ~]# ssh-copy-id 10.10.129.200[hadoop@master ~]# ssh-copy-id 10.10.129.201[hadoop@master ~]# ssh-copy-id 10.10.129.202[hadoop@master ~]# ssh-copy-id 10.10.129.203

检查是否实现了无密码登录（此步骤不要省略，否则后面在执行start-dfs.sh和start-yarn.sh脚本时会出现无法认证的错误，因为正常免密登陆后所有的ssh第一次都需要密码，此后都不需要密码）：

[hadoop@master ~]$ ssh master
按提示输入yes
[hadoop@master ~]$ exit
logout
Connection to master closed.[hadoop@master ~]$ ssh slave1
按提示输入yes
[hadoop@slave1 ~]$ exit
logout
Connection to slave1 closed.[hadoop@master ~]$ ssh slave2
按提示输入yes
[hadoop@slave2 ~]$ exit
logout
Connection to slave2 closed.[hadoop@master ~]$ ssh slave3
按提示输入yes
[hadoop@slave3 ~]$ exit
logout
Connection to slave3 closed.[hadoop@master ~]$

slave1节点为例：

使用hadoop用户：

[root@slave1~]# su hadoop[hadoop@slave1root]$ cd ~[hadoop@slave1~]$ pwd/home/hadoop

[hadoop@slave1~]# ssh-keygen（执行以下命令然后一路回车）：

[hadoop@slave1~]# ssh-keygen

复制key到各节点，注意不要漏掉自身节点：

[hadoop@slave1 ~]# ssh-copy-id 10.10.129.200[hadoop@slave1 ~]# ssh-copy-id 10.10.129.201[hadoop@slave1 ~]# ssh-copy-id 10.10.129.202[hadoop@slave1 ~]# ssh-copy-id 10.10.129.203

[hadoop@slave1 ~]$ ssh master
按提示输入yes
[hadoop@master ~]$ exit
logout
Connection to master closed.[hadoop@slave1 ~]$ ssh slave1
按提示输入yes
[hadoop@slave1 ~]$ exit
logout
Connection to slave1 closed.[hadoop@slave1 ~]$ ssh slave2
按提示输入yes
[hadoop@slave2 ~]$ exit
logout
Connection to slave2 closed.[hadoop@slave1 ~]$ ssh slave3
按提示输入yes
[hadoop@slave3 ~]$ exit
logout
Connection to slave3 closed.[hadoop@slave1 ~]$

slave2和slave3节点同slave1节点操作。

3. 安装Hadoop和配置Hadoop

（最好从这里开始就以hadoop用户操作，我实验时没有这样做，但发现后来反正都要把安装包改为hadoop权限（使用chown命令），因为我是以hadoop用户进行安装的）

3.1 下载安装包hadoop-2.9.1.tar.gz（master节点）

在官网https://www.apache.org/dyn/closer.cgi/hadoop/common/hadoop-2.9.1/hadoop-2.9.1.tar.gz处下载：

这个链接下载起来会更快：http://www-us.apache.org/dist/hadoop/common/hadoop-2.9.1/hadoop-2.9.1.tar.gz

[hadoop@master ~]$ ll
total 352892
-rw-r--r-- 1 hadoop hadoop 361355307 Sep 25 00:55 hadoop-2.9.1.tar.gz

注意这里安装包所属用户：-rw-r--r-- 1 hadoop hadoop

3.2 解压安装包hadoop-2.9.1.tar.gz（master节点）

使用hadoop用户，创建安装目录：/home/hadoop/apps，创建数据目录：/home/hadoop/data：

[hadoop@master ~]$ pwd/home/hadoop[hadoop@master hadoop]# mkdir apps[hadoop@master hadoop]# mkdir data[hadoop@master ~]$ lsapps  data  hadoop-2.9.1.tar.gz

在apps文件夹下解压安装包：

[hadoop@master ~]$ cd apps/[hadoop@master apps]$ tar -zxvf ../hadoop-2.9.1.tar.gz

[hadoop@master apps]$ lshadoop-2.9.1

3.3 master节点配置（master节点）

进入配置文件目录：/home/hadoop/apps/hadoop-2.9.1/etc/hadoop

3.3.1 环境变量配置

[hadoop@master hadoop]$ vim hadoop-env.sh

export JAVA_HOME=/usr/java/jdk1.8.0_181-amd64

3.3.2 配置core-site.xml

fs.defaultFS ：这个属性用来指定namenode的hdfs协议的文件系统通信地址，可以指定一个主机+端口，也可以指定为一个namenode服务（这个服务内部可以有多台namenode实现ha的namenode服务。

hadoop.tmp.dir : hadoop集群在工作的时候存储的一些临时文件的目录。

[hadoop@master hadoop]$ vim core-site.xml

<configuration><property><name>fs.defaultFS</name><value>hdfs://master:9000</value></property><property><name>hadoop.tmp.dir</name><value>/home/hadoop/data/hadoopdata</value></property>
</configuration>

3.3.3 配置hdfs-site.xml

dfs.namenode.name.dir：namenode数据的存放地点。也就是namenode元数据存放的地方，记录了hdfs系统中文件的元数据。

dfs.datanode.data.dir： datanode数据的存放地点。也就是block块存放的目录了。

dfs.replication：hdfs的副本数设置。也就是上传一个文件，其分割为block块后，每个block的冗余副本个数，默认配置是3。

dfs.secondary.http.address：secondarynamenode 运行节点的信息，和 namenode 不同节点

HDFS角色分配：

节点IP	主机名	HDFS角色
10.10.129.210	master	datanode；namenode
10.10.129.211	slave1	datanode；
10.10.129.212	slave2	datanode；secondarynamenode
10.10.129.213	slave3	datanode；

[hadoop@master hadoop]$ vim hdfs-site.xml

<configuration><property><name>dfs.namenode.name.dir</name><value>/home/hadoop/data/hadoopdata/name</value><description>为了保证元数据的安全一般配置多个不同目录</description></property><property><name>dfs.datanode.data.dir</name><value>/home/hadoop/data/hadoopdata/data</value><description>datanode 的数据存储目录</description></property><property>  <name>dfs.replication</name><value>2</value><description>HDFS 的数据块的副本存储个数, 默认是3</description></property><property><name>dfs.secondary.http.address</name><value>slave2:50090</value><description>secondarynamenode 运行节点的信息，和 namenode 不同节点</description></property>
</configuration>

3.3.4 配置mapred-site.xml

mapreduce.framework.name：指定mr框架为yarn方式，Hadoop二代MP也基于资源管理系统Yarn来运行。

[hadoop@master hadoop]$ cp mapred-site.xml.template mapred-site.xml[hadoop@master hadoop]$ vim mapred-site.xml

<configuration><property><name>mapreduce.framework.name</name><value>yarn</value>   </property>
</configuration>

3.3.5 配置yarn-site.xml

yarn.resourcemanager.hostname：yarn总管理器的IPC通讯地址

yarn.nodemanager.aux-services：YARN 集群为 MapReduce 程序提供的服务（常指定为 shuffle ）

YARN角色分配：

节点IP	主机名	YARN角色
10.10.129.210	master	nodemanager；
10.10.129.211	slave1	nodemanager；
10.10.129.212	slave2	nodemanager；
10.10.129.213	slave3	nodemanager；resourcemanager

[hadoop@master hadoop]$ vim yarn-site.xml

<configuration><!-- Site specific YARN configuration properties --><property><name>yarn.resourcemanager.hostname</name><value>slave3</value></property><property><name>yarn.nodemanager.aux-services</name><value>mapreduce_shuffle</value><description>YARN 集群为 MapReduce 程序提供的 shuffle 服务</description></property>
</configuration>

3.3.6 配置slaves

[hadoop@master hadoop]$ vim slaves

把原本的localhost删掉，增加如下内容：

master
slave1
slave2
slave3

3.4 slave节点配置（在所有slave节点，以slave1为例）

重点强调：每台服务器中的hadoop安装包的目录必须一致，安装包的配置信息还必须保持一致

在slave1节点上，同样使用hadoop用户：

[root@slave1 ~]# su hadoop[hadoop@slave1 root]$ cd ~[hadoop@slave1 ~]$ pwd/home/hadoop[hadoop@slave1 ~]$ mkdir apps

在master节点上：

[hadoop@master hadoop]$ scp -r ~/apps/hadoop-2.9.1/ hadoop@slave1:~/apps/hadoop-2.9.1/

slave2和slave3节点同slave1节点操作。

3.5 Hadoop环境变量配置（所有节点，以master节点为例）

千万注意：

1、如果你使用root用户进行安装。 vi /etc/profile 即可系统变量

2、如果你使用普通用户进行安装。 vi ~/.bashrc 用户变量（我是使用hadoop用户安装的）

[hadoop@master ~]$ pwd/home/hadoop[hadoop@master ~]$ vim .bashrc

# User specific aliases and functionsexport HADOOP_HOME=/home/hadoop/apps/hadoop-2.9.1export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin:

使环境变量生效：

[hadoop@master ~]$ source ~/.bashrc

[hadoop@master ~]$ echo $HADOOP_HOME/home/hadoop/apps/hadoop-2.9.1

验证环境变量是否生效，查看hadoop版本：

[hadoop@master ~]$ hadoop version

注意：slave节点要以hadoop用户去执行以上操作。

[hadoop@slave1 ~]$ vim .bashrc

# User specific aliases and functionsexport HADOOP_HOME=/home/hadoop/apps/hadoop-2.9.1export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin:

使环境变量生效：

[hadoop@slave1 ~]$ source ~/.bashrc

[hadoop@slave1 ~]$ echo $HADOOP_HOME/home/hadoop/apps/hadoop-2.9.1

验证环境变量是否生效，查看hadoop版本：

[hadoop@slave1 ~]$ hadoop version

slave2和slave3节点同slave1节点操作。

4. 初始化Hadoop（master节点）

注意：HDFS初始化只能在HDFS集群的主节点namenode上进行，本实验中即为master节点

[hadoop@master ~]$ hadoop namenode -format

5. 启动Hadoop

5.1 启动HDFS（HDFS集群的任何节点都可以）

注意：不管在集群中的哪个节点都可以。

[hadoop@master ~]$ start-dfs.sh

5.2 启动YARN（在YARN主节点ResourceManager上执行）

注意：只能在YARN的主节点resourcemanager中进行启动，也就是本集群的slave3。

[hadoop@slave3 ~]$ start-yarn.sh

（补充：启动方式2：直接在master上执行start-all.sh而不是像前面这样分开执行HDFS和YARN（未验证过））

6. 查看4台服务器的进程

master节点

slave1节点

slave2节点

slave3节点

7. 查看HDFS和YARN的Web管理界面

7.1 查看HDFS的Web管理界面

浏览器输入：http://10.10.129.200:50070

点击Datanodes可查看集群4个节点

从上图中的Http Address中可以看到访问其他节点的URL链接（图中是用的域名，我试了不行，要用IP，至于为什么域名不行以后再解决）

http://10.10.129.201:50075

http://10.10.129.202:50075

http://10.10.129.203:50075

7.2 查看YARN的Web管理界面

浏览器输入http://10.10.129.203:8088

点击Nodes可以查看集群4个节点

8. Hadoop的简单测试及使用

8.1 HDFS的简单使用测试

创建文件夹

在HDFS上创建一个文件夹/test/input

[hadoop@master ~]$ hadoop fs -mkdir -p /test/input

查看创建的文件夹

[hadoop@master ~]$ hadoop fs -ls /Found 1 itemsdrwxr-xr-x - hadoop supergroup 0 2018-09-25 06:21 /test

[hadoop@master ~]$ hadoop fs -ls /testFound 1 itemsdrwxr-xr-x - hadoop supergroup 0 2018-09-25 06:21 /test/input

向HDFS上传文件

创建一个文本文件words.txt

[hadoop@master ~]$ vim words.txt

hello zhangsan
hello lisi
hello wangwu

将words.txt文件上传至HDFS：

[hadoop@master ~]$ hadoop fs -put ~/words.txt /test/input

查看是否上传成功

[hadoop@master ~]$ hadoop fs -ls /test/inputFound 1 items-rw-r--r-- 2 hadoop supergroup 39 2018-09-25 06:24 /test/input/words.txt

从HDFS下载文件

将刚刚上传的文件下载到~/data文件夹中

[hadoop@master ~]$ hadoop fs -get /test/input/words.txt ~/data

查看是否下载成功

[hadoop@master ~]$ ls data/hadoopdata  words.txt

8.2 运行第一个Map Reduce的例子程序：wordcount

用自带的demo--wordcount来测试hadoop集群能不能正常跑任务：

执行wordcount程序，并将结果放入/test/output/文件夹：

[hadoop@master ~]$ hadoop jar ~/apps/hadoop-2.9.1/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.9.1.jar wordcount /test/input /test/output

（注意事项：/output文件夹必须是没有创建过的文件夹？（没验证过））

在YARN Web管理界面查看：

查看执行结果：

[hadoop@master ~]$ hadoop fs -ls /test/outputFound 2 items-rw-r--r-- 2 hadoop supergroup 0 2018-09-25 06:32 /test/output/_SUCCESS-rw-r--r-- 2 hadoop supergroup 35 2018-09-25 06:32 /test/output/part-r-00000

在output/part-r-00000可以看到程序执行结果：

[hadoop@master ~]$ hadoop fs -cat /test/output/part-r-00000hello 3lisi 1wangwu 1zhangsan 1

8.3 运行例子程序：求圆周率

用自带的demo--pi来测试hadoop集群能不能正常跑任务：

执行pi程序：

[hadoop@master ~]$ hadoop jar ~/apps/hadoop-2.9.1/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.9.1.jar pi 10 10

用来求圆周率，pi是类名，第一个10表示Map次数，第二个10表示随机生成点的次数(与计算原理有关) （参考：https://blog.csdn.net/fanxin_i/article/details/80425461）

在YARN Web管理界面查看：

最后出现结果：

至此，hadoop集群搭建成功！

这篇关于Hadoop学习（1）Hadoop2.9.1完全分布式环境搭建和测试的文章就介绍到这儿，希望我们推荐的文章对编程师们有所帮助！

Hadoop学习（1）Hadoop2.9.1完全分布式环境搭建和测试

参考：

1. 安装前节点环境准备

1.1修改主机名（所有节点，以master节点为例）：

1.2关闭防火墙和selinux（所有节点，以master节点为例）：

2. 安装前系统环境准备

2.1 安装jdk（所有节点，以master节点为例）

2.2 创建hadoop用户（所有节点，以master节点为例）

2.3 hosts文件设置（所有节点，以master节点为例）

2.4 配置SSH免密码登录（所有节点，以master节点为例）

3. 安装Hadoop和配置Hadoop

3.1 下载安装包hadoop-2.9.1.tar.gz（master节点）

3.2 解压安装包hadoop-2.9.1.tar.gz（master节点）

3.3 master节点配置（master节点）

3.3.1 环境变量配置

3.3.2 配置core-site.xml

3.3.3 配置hdfs-site.xml

3.3.4 配置mapred-site.xml

3.3.5 配置yarn-site.xml

3.3.6 配置slaves

3.4 slave节点配置（在所有slave节点，以slave1为例）

3.5 Hadoop环境变量配置（所有节点，以master节点为例）

4. 初始化Hadoop（master节点）

5. 启动Hadoop

5.1 启动HDFS（HDFS集群的任何节点都可以）

5.2 启动YARN（在YARN主节点ResourceManager上执行）

6. 查看4台服务器的进程

7. 查看HDFS和YARN的Web管理界面

8. Hadoop的简单测试及使用

8.1 HDFS的简单使用测试

8.2 运行第一个Map Reduce的例子程序：wordcount

8.3 运行例子程序：求圆周率

相关文章