本文主要是介绍Hadoop 2.4 完全分布式环境安装与配置及配置信息介绍,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
转载: 仅仅是为了个人学习使用 , 记录遇到的问题,和解决方法。
本文是CentOS6 hadoop2.4完全分布式安装文档姊妹篇,本篇介绍的更加详细,可以相互参考,环境的搭建,前面基本都相同,这里重点:
导读:
1.各个文件之间权限是否一致
2.环境变量、配置文件发生发了哪些变化?
3.在配置过程中,自己有什么需要注意的地方?
4.文件中路径发生变化,对应的配置项哪些会发生变化?
包下载:hadoop2.4最新版本各种包下载
依赖项
Java
1. 从http://www.Oracle.com/technetwor ... nloads-1880260.html下载tar.gz格式的,32位和64位机器对应下载,这里下的是64位的
wget http://download.oracle.com/otn-p ... 51-linux-x64.tar.gz
2. 解压到/usr/local
tar -jxvf jdk-7u51-linux-x64.tar.gz -C /usr/local
3. 配置符号链接:cd /usr/local; ln -snf jdk1.7.0_45/ jdk
4. 配置环境变量到~/.bashrc
export JAVA_HOME="/usr/local/jdk"
export PATH="$JAVA_HOME/bin:$PATH"
5. 命令行下使用java、javax命令判断是否安装成功。
6. 在其他机器上
Hosts
所有的节点都修改/etc/hosts,使彼此之间都能把主机名解析为ip
SSH 无密码登陆
首先要配置本机的SSH服务器,运行 ps -e | grep ssh,查看是否有sshd进程,如果没有,说明server没启动,通过 /etc/init.d/ssh -start 启动server进程,如果提示ssh不存在 那么就是没安装server。Ubuntu下通过 sudo apt-get install openssh-server命令安装即可。
(1)生成当前用户的SSH公钥。
$ ssh-keygen -t rsa -P ''
它在/home/[你当前登录的用户名] 下生成.ssh目录(root用户即是在/root目录下),.ssh下有id_rsa和id_rsa.pub。id_rsa.pub即是本地SSH生成的公钥文件。客户端机器将id_rsa.pub文件添加到自己的~/.ssh/authorized_keys文件中即可免密码登录到本机。
(2)将~/.ssh/id_rsa.pub添加到目标机器的~/.ssh/authorized_keys文件中
•如果是本机的操作,则使用
cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys
将要登录的机器的公钥添加到本地的认证密钥库中。注意这里必须要用>>操作符进行追加操作。
使用
ssh localhost
命令即可免密码登录到本地。
•如果是将自己的公钥发送到别的机器上。
可以使用
scp ~/.ssh/id_rsa.pub root@172.24.253.2:.ssh/id_rsa.pub
这条scp命令进行文件上传操作。
安装Hadoop
下载Hadoop
最新版本hadoop-2.4.0安装包为 hadoop-2.4.0.tar.gz
下载官网地址 :http://www.apache.org/dyn/closer.cgi/hadoop/common/
下载到 /opt/hadoop/source 目录下
wget http://ftp.riken.jp/net/apache/hadoop/common/hadoop-2.4.0/hadoop-2.4.0.tar.gz
解压目录
tar zxvf hadoop-2.4.0.tar.gz
最终是这样子:
环境配置项
配置环境变量:
vim /etc/profile
添加
export HADOOP_DEV_HOME=/opt/hadoop/source
export PATH=$PATH:$HADOOP_DEV_HOME/bin
export PATH=$PATH:$HADOOP_DEV_HOME/sbin
export HADOOP_MAPARED_HOME=${HADOOP_DEV_HOME}
export HADOOP_COMMON_HOME=${HADOOP_DEV_HOME}
export HADOOP_HDFS_HOME=${HADOOP_DEV_HOME}
export YARN_HOME=${HADOOP_DEV_HOME}
export HADOOP_CONF_DIR=${HADOOP_DEV_HOME}/etc/hadoop
export HDFS_CONF_DIR=${HADOOP_DEV_HOME}/etc/hadoop
export YARN_CONF_DIR=${HADOOP_DEV_HOME}/etc/hadoop
文件配置
配置之前,需要在Cluster文件系统创建以下文件夹,用于存放命名空间以及数据信息。
~/dfs/name
~/dfs/data
~/temp
这里要涉及到的配置文件有7个:
~/Hadoop-2.4.0/etc/hadoop/hadoop-env.sh
~/hadoop-2.4.0/etc/hadoop/yarn-env.sh
~/hadoop-2.4.0/etc/hadoop/slaves
~/hadoop-2.4.0/etc/hadoop/core-site.xml
~/hadoop-2.4.0/etc/hadoop/hdfs-site.xml
~/hadoop-2.4.0/etc/hadoop/mapred-site.xml
~/hadoop-2.4.0/etc/hadoop/yarn-site.xml
以上个别文件默认不存在的,可以复制相应的template文件获得。
~/ect/hadoop/hadoop-env.sh 与 yarn-env.sh
原文件中设置Java环境:export JAVA_HOME=${JAVA_HOME},如果你环境变量中未配置JAVA_HOME,那么这里JAVA_HOME设置指向你的JAVA配置路径。
譬如:export JAVA_HOME="/usr/local/jdk"
~/etc/hadoop/slave
slaves (这个文件里面保存所有slave节点)
写入以下内容:
Slave1
Slave2
~/etc/hadoop/core-site.xml
在configuration节点里面添加属性
<property>
<name>hadoop.tmp.dir</name>
<value>file:/opt/hadoop/hdfs/tmp</value>
<description>A base for other temporary directories.</description>
</property>
<property>
<name>io.file.buffer.size</name>
<value>131072</value>
</property>
<property>
<name>fs.default.name</name>
<value>hdfs://Master:9000</value>
</property>
添加httpfs的选项
<property>
<name>hadoop.proxyuser.root.hosts</name>
<value>*</value>
</property>
<property>
<name>hadoop.proxyuser.root.groups</name>
<value>*</value>
</property>
~/etc/hadoop/hdfs-site.xml
<property>
<name>dfs.replication</name>
<value>3</value>
</property>
<property>
<name>dfs.namenode.name.dir</name>
<value>file:/opt/hadoop/hdfs/name</value>
<final>true</final>
</property>
<property>
<name>dfs.dataname.data.dir</name>
<value>file:/opt/hadoop/hdfs/data</value>
<final>true</final>
</property>
<property>
<name>dfs.namenode.secondary.http-address</name>
<value>Master:9001</value>
</property>
<property>
<name>dfs.webhdfs.enabled</name>
<value>true</value>
</property>
~/etc/hadoop/yarn-site.xml
<property>
<name>yarn.resourcemanager.address</name>
<value>Master:18040</value>
</property>
<property>
<name>yarn.resourcemanager.scheduler.address</name>
<value>Master:18030</value>
</property>
<property>
<name>yarn.resourcemanager.webapp.address</name>
<value>Master:18088</value>
</property>
<property>
<name>yarn.resourcemanager.resource-tracker.address</name>
<value>Master:18025</value>
</property>
<property>
<name>yarn.resourcemanager.admin.address</name>
<value>Master:18141</value>
</property>
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce.shuffle</value>
</property>
<property>
<name>yarn.nodemanager.aux-services.mapreduce.shuffle.class</name>
<value>org.apache.hadoop.mapred.ShuffleHandler</value>
</property>
Hadoop 测试
HDFS
格式化NameNode
执行命令:hadoop namenode -format,可以格式化NameNode。
l 可能错误:出现未知的主机名问题。
java.net.UnknownHostException: localhost.localdomain: localhost.localdomain
at java.net.InetAddress.getLocalHost(InetAddress.java:1353)
at org.apache.hadoop.metrics.MetricsUtil.getHostName(MetricsUtil.java:91)
at org.apache.hadoop.metrics.MetricsUtil.createRecord(MetricsUtil.java:80)
at org.apache.hadoop.hdfs.server.namenode.FSDirectory.initialize(FSDirectory.java:73)
at org.apache.hadoop.hdfs.server.namenode.FSDirectory.<init>(FSDirectory.java:68)
at org.apache.hadoop.hdfs.server.namenode.FSNamesystem.<init>(FSNamesystem.java:370)
at org.apache.hadoop.hdfs.server.namenode.NameNode.format(NameNode.java:853)
at org.apache.hadoop.hdfs.server.namenode.NameNode.createNameNode(NameNode.java:947)
at org.apache.hadoop.hdfs.server.namenode.NameNode.main(NameNode.java:964)
/************************************************************
SHUTDOWN_MSG: Shutting down NameNode at java.net.UnknownHostException: localhost.localdomain: localhost.localdomain
************************************************************/
使用hostname命令,可以发现当前的主机名为hadoop_master(Ubuntu系统下在/etc/hostname,CentOS系统在 /etc/sysconfig/network文件中设置),而hosts文件中信息如下:
127.0.0.1 localhost
127.0.1.1 ubuntu
192.168.198.133 Master
192.168.198.134 Slave1
即无法解析hadoop_master的信息,将hosts文件信息改为如下:
127.0.0.1 hadoop_master
127.0.1.1 ubuntu
192.168.198.133 Master
192.168.198.134 Slave1
Hadoop集群
启动集群
~/sbin/start-all.sh 启动Hadoop集群,最好使用~/sbin/start-dfs.sh与~/sbin/start-yarn.sh来代替。
.1 64位平台不兼容错误
Starting namenodes on [Java HotSpot(TM) 64-Bit Server VM warning: You have loaded library /opt/hadoop/source/lib/native/libhadoop.so.1.0.0 which might have disabled stack guard. The VM will try to fix the stack guard now.
在/etc/profile 或者 ~/.bash_profile中添加:
export HADOOP_COMMON_LIB_NATIVE_DIR=${HADOOP_DEV_HOME}/lib/native
export HADOOP_OPTS="-Djava.library.path=$HADOOP_DEV_HOME/lib"
Command Lines
Hadoop
* start-all.sh 启动所有的Hadoop守护。包括namenode, datanode, jobtracker, tasktrack
* stop-all.sh 停止所有的Hadoop
* start-mapred.sh 启动Map/Reduce守护。包括Jobtracker和Tasktrack
* stop-mapred.sh 停止Map/Reduce守护
* start-dfs.sh 启动Hadoop DFS守护Namenode和Datanode
* stop-dfs.sh 停止DFS守护
HDFS
1. 查看文件列表
查看hdfs中/user/admin/hdfs目录下的文件。
a. 进入HADOOP_HOME目录。
b. 执行sh bin/hadoop fs -ls /user/admin/hdfs
查看hdfs中/user/admin/hdfs目录下的所有文件(包括子目录下的文件)。
a. 进入HADOOP_HOME目录。
b. 执行sh bin/hadoop fs -lsr /user/admin/hdfs
2. 创建文件目录
查看hdfs中/user/admin/hdfs目录下再新建一个叫做newDir的新目录。
a. 进入HADOOP_HOME目录。
b. 执行sh bin/hadoop fs -mkdir /user/admin/hdfs/newDir
3. 删除文件
删除hdfs中/user/admin/hdfs目录下一个名叫needDelete的文件
a. 进入HADOOP_HOME目录。
b. 执行sh bin/hadoop fs -rm /user/admin/hdfs/needDelete
删除hdfs中/user/admin/hdfs目录以及该目录下的所有文件
a. 进入HADOOP_HOME目录。
b. 执行sh bin/hadoop fs -rmr /user/admin/hdfs
4. 上传文件
上传一个本机/home/admin/newFile的文件到hdfs中/user/admin/hdfs目录下
a. 进入HADOOP_HOME目录。
b. 执行sh bin/hadoop fs–put /home/admin/newFile /user/admin/hdfs/
5. 下载文件
下载hdfs中/user/admin/hdfs目录下的newFile文件到本机/home/admin/newFile中
a. 进入HADOOP_HOME目录。
b. 执行sh bin/hadoop fs –get /user/admin/hdfs/newFile /home/admin/newFile
6. 查看文件内容
查看hdfs中/user/admin/hdfs目录下的newFile文件
a. 进入HADOOP_HOME目录。
b. 执行sh bin/hadoop fs–cat /home/admin/newFile
配置文件详解
CoreHadoop-env.sh
记录脚本要用的环境变量,以运行hadoop。
文件位于~/hadoop/etc/hadoop/core-site.xml目录下。
# 设置JDK的位置
export JAVA_HOME=${JAVA_HOME}
如果你的环境变量中没有设置JAVA_HOME,这里即可设置为:
exportJAVA_HOME=/home/java/jdk/jdk1.7.0_51
另外,鉴于Hadoop默认的是32位系统,还需要加上64位支持:
exportHADOOP_COMMON_LIB_NATIVE_DIR=${HADOOP_DEV_HOME}/lib/native
exportHADOOP_OPTS="-Djava.library.path=$HADOOP_DEV_HOME/lib"
core-site.xml该文件是 hadoop core的配置项,例如hdfs和mapreduce常用的i/o设置等,位于~/hadoop/etc/hadoop/core-site.xml目录下。
<?xml version="1.0"?>
<?xml-stylesheet type="text/xsl" href="http://wsysisibeibei.blog.163.com/blog/configuration.xsl"?>
<!-- Put site-specific property overrides in this file. -->
<configuration>
<property>
<name>fs.default.name</name>
<!-- fs.default.name -这是一个描述集群中NameNode结点的URI(包括协议、主机名称、端口号),集群里面的每一台机器都需要知道NameNode的地址。DataNode结点会先在NameNode上注册,这样它们的数据才可以被使用。独立的客户端程序通过这个URI跟DataNode交互,以取得文件的块列表。-->
<value>hdfs://localhost:9100</value>
</property>
<property>
<name>hadoop.tmp.dir</name>
<!--
hadoop.tmp.dir 是hadoop文件系统依赖的基础配置,很多路径都依赖它。如果hdfs-site.xml中不配 置namenode和datanode的存放位置,默认就放在这个路径中Hadoop的默认临时路径,这个最好配置,然后在新增节点或者其他情况下莫名其妙的DataNode启动不了,就删除此文件中的tmp目录即可。
不过如果删除了NameNode机器的此目录,那么就需要重新执行NameNode格式化的命令了。
-->
<value>/data/hdfs/tmp</value>
<description>A base for other temporary directories.</description>
</property>
</configuration>
这里配置的是HDFS的地址和端口号。
Node HDFS hdfs-site.xml
hadoop守护进程的配置项,包括namenode、辅助namenode和datanode等。
该文件位于~/hadoop/etc/hadoop/目录下。
<?xml version="1.0"?>
<?xml-stylesheet type="text/xsl" href="http://wsysisibeibei.blog.163.com/blog/configuration.xsl"?>
<!-- Put site-specific property overrides in this file. -->
<configuration>
<property>
<name>dfs.replication</name>
<!--
dfs.replication -它决定着 系统里面的文件块的数据备份个数。
对于一个实际的应用,它应该被设为3(这个 数字并没有上限,但更多的备份可能并没有作用,而且会占用更多的空间)。
少于三个的备份,可能会影响到数据的 可靠性(系统故障时,也许会造成数据丢失)
-->
<value>3</value>
</property>
<property>
<name>dfs.name.dir</name>
<!--
dfs.name.dir - 这是NameNode结点存储hadoop文件系统信息的本地系统路径。
这个值只对NameNode有效,DataNode并不需要使用到它。
上面对于/temp类型的警告,同样也适用于这里。在实际应用中,它最好被覆盖掉。
-->
<value>/home/hdfs/name</value>
</property>
<property>
<name>dfs.data.dir</name>
<!-- dfs.data.dir -
这是DataNode结点被指定要存储数据的本地文件系统路径。
DataNode结点上 的这个路径没有必要完全相同,因为每台机器的环境很可能是不一样的。
但如果每台机器上的这 个路径都是统一配置的话,会使工作变得简单一些。
默认的情况下,它的值hadoop.tmp.dir, 这 个路径只能用于测试的目的,因为,它很可能会丢失掉一些数据。所以,这个值最好还是被覆 盖。
-->
<value>/home/hdfs/data</value>
</property>
<!--
解决:org.apache.hadoop.security.AccessControlException:Permission denied:user=Administrator,access=WRITE,inode="tmp":root:supergroup:rwxr-xr-x。因为Eclipse使用hadoop插件提交作业时,会默认以 DrWho身份去将作业写入hdfs文件系统中,对应的也就是 HDFS 上的/user/hadoop , 由于 DrWho用户对hadoop目录并没有写入权限,所以导致异常的发生。解决方法为:放开 hadoop 目录的权限, 命令如下 :$ hadoop fs -chmod 777 /user/hadoop
-->
<property>
<name>dfs.permissions</name>
<value>false</value>
<description>
If "true", enable permission checking in HDFS. If "false", permission checking is turned off, but all other behavior is unchanged. Switching from one parameter value to the other does not change the mode, owner or group of files or directories
</description>
</property>
</configuration>
在Hadoop中HDFS的默认备份方式为3,这里将其改为1。
Map/Reduce mapred-site.xml mapreduce守护进程的配置项,包括jobtracker和tasktracker。
<?xml version="1.0"?>
<?xml-stylesheet type="text/xsl" href="http://wsysisibeibei.blog.163.com/blog/configuration.xsl"?>
<!-- Put site-specific property overrides in this file. -->
<configuration>
<property>
<name>mapred.job.tracker</name>
<value>localhost:9101</value>
</property>
</configuration>
http://blog.csdn.net/wxyyxc1992/article/details/25687173
这篇关于Hadoop 2.4 完全分布式环境安装与配置及配置信息介绍的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!