Hadoop之wordcount有感

2024-05-29 11:38
文章标签 hadoop 有感 wordcount

本文主要是介绍Hadoop之wordcount有感,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

Hadoop wordcount的实现和一些问题总结

作者在解决问题过程中遇到的很有帮助的一个博客就是来自如下地址,特别放在文首感谢!

http://www.powerxing.com/install-hadoop/


  • 文件调整
    就上篇hadoop配置而言,由于未认识到hadoop2.x的版本配置方面稍有不同,所以在做wordcount的sample之前先进行了改进。
    不同在于mapred-site.xml和yarn-site.xml分别变为了
<configuration> <property><name>mapreduce.framework.name</name>        <value>yarn</value>   </property>
</configuration>
<configuration><property><name>yarn.nodemanager.aux-services</name><value>mapreduce_shuffle</value></property>
</configuration>
  • 单机:
    这里假设已经安装好了(JDK,SSH,SSH配置,Homebrew,完成了brew install hadoop)
    还未进行伪分布式配置(或者配置了过后直接把配置的全部注释掉,即是说core-site.xml、hdfs-site.xml、mapred-site.xml、yarn-site.xml里的内容全部注释掉(用 <!> <script type="math/tex" id="MathJax-Element-1"> </script>)仅留下 <configuration></configuration>
$ cd {your mac user name}/hadoop-2.7.3   #这里我没有将hadoop-2.7.3改为hadoop,可以改
$ mkdir input  #创建input文件夹
$ cp etc/hadoop/*.xml input #把配置文件copy到文件夹中
$ bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-*.jar grep input output 'dfs[a-z.]+'  #将当前目录下的input文件夹作为输入 输出到output文件夹(这就和一开始伪分布式遇到的路径问题相对应了!)
$ cat output/*  #可以查看wordcount结果
  • 伪分布式:
    配置core-site.xml
 <configuration><property><name>hadoop.tmp.dir</name><value>file:/Users/{your mac name}/hadoop-2.7.3/tmp</value><description>Abase for other temporary directories.</description></property><property><name>fs.defaultFS</name><value>hdfs://localhost:9000</value></property>
</configuration>

配置hdfs-site.xml

<configuration><property><name>dfs.replication</name><value>1</value></property><property><name>dfs.namenode.name.dir</name><value>file:/Users/{your mac name}/hadoop-2.7.3/tmp/dfs/name</value></property><property><name>dfs.datanode.data.dir</name><value>file:/Users/{your mac name}/hadoop-2.7.3/tmp/dfs/data</value></property>
</configuration>

重新配置后

$ bin/hdfs namenode -format
$ sbin/start-dfs.sh

jps查看到namenode、datanode、secondarynamenode

$ bin/hdfs dfs -mkdir -p /user/hadoop
$ bin/hdfs dfs -mkdir /user/hadoop/input
$ bin/hdfs dfs -put ./etc/hadoop/*.xml /user/hadoop/input
$ bin/hdfs dfs -ls /user/hadoop/input

查看到在分布式系统中已经复制完成了

$ bin/hadoop jar ./share/hadoop/mapreduce/hadoop-mapreduce-examples-*.jar grep /user/hadoop/input output 'dfs[a-z.]+'
特别注意grep /user/hadoop/input output这才是分布式系统里面的路径
$ bin/hdfs dfs -cat output/*

查看到在分布式系统中的output结果。
伪分布式wordcount至此结束。

  • 问题1:无datanode

COPYING could only be replicated to 0 nodes instead of minReplication (=1). There are 0 datanode(s) running and no node(s) are excluded in this operation.

解决方法如下:
第一步:

sudo rm -R /tmp/*

第二步:

hdfs namenode -format

然后sbin/start-dfs.sh再jps就可以看到datanode。
当然这里建议阅读完整的log文件,查看是没有datanode还是datanode端口被占用(端口应该是50020),如果是后者请点以下链接参照解决 hadoop之端口被占用问题namenode无法启动

  • 问题2:路径问题

下一步操作创建分布式系统的路径

$ bin/hdfs dfs -mkdir /user
$ bin/hdfs dfs -mkdir /user/{username} #your username
$ sbin/start-yarn.sh

在建立目录后应特别注意下面两个的不同,一个是当前目录下的操作,一个是分布式系统目录下的操作,尤其在以后的文件复制步骤中很容易出错

bin/   -ls 
bin/hdfs dfs -ls /user/{username}

例如

bin/hdfs dfs -put etc/hadoop input 

可能就会出现put: `input’: No such file or directory,接下来的部分也就无法运行

bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.3.jar grep input output 'dfs[a-z.]+'

在各个博客中找到如下解决方法都没有用

  1. hostname的配置 Connecting to ResourceManager at /0.0.0.0:8032 yarn.resourcemanager.address 127.0.0.1:8032
  2. 退出安全模式 org.apache.hadoop.ipc.RemoteException (org.apache.hadoop.hdfs.server.namenode.SafeModeException): Cannot delete bin/hadoop dfsadmin -safemode leave

其实忽略了真正出错的地方

org.apache.hadoop.mapreduce.lib.input.InvalidInputException: Input path does not exist

由于命令实在分布式系统中执行的,所以grep input output针对的是分布式系统的input和output文档,这里没有input路径需要建立路径(user后面的用户请填自己的)

bin/hdfs dfs -mkdir /user/hadoop/input
bin/hdfs dfs -put ./etc/hadoop/*.xml /user/hadoop/input

这篇关于Hadoop之wordcount有感的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1013566

相关文章

Hadoop企业开发案例调优场景

需求 (1)需求:从1G数据中,统计每个单词出现次数。服务器3台,每台配置4G内存,4核CPU,4线程。 (2)需求分析: 1G / 128m = 8个MapTask;1个ReduceTask;1个mrAppMaster 平均每个节点运行10个 / 3台 ≈ 3个任务(4    3    3) HDFS参数调优 (1)修改:hadoop-env.sh export HDFS_NAMENOD

Hadoop集群数据均衡之磁盘间数据均衡

生产环境,由于硬盘空间不足,往往需要增加一块硬盘。刚加载的硬盘没有数据时,可以执行磁盘数据均衡命令。(Hadoop3.x新特性) plan后面带的节点的名字必须是已经存在的,并且是需要均衡的节点。 如果节点不存在,会报如下错误: 如果节点只有一个硬盘的话,不会创建均衡计划: (1)生成均衡计划 hdfs diskbalancer -plan hadoop102 (2)执行均衡计划 hd

hadoop开启回收站配置

开启回收站功能,可以将删除的文件在不超时的情况下,恢复原数据,起到防止误删除、备份等作用。 开启回收站功能参数说明 (1)默认值fs.trash.interval = 0,0表示禁用回收站;其他值表示设置文件的存活时间。 (2)默认值fs.trash.checkpoint.interval = 0,检查回收站的间隔时间。如果该值为0,则该值设置和fs.trash.interval的参数值相等。

Hadoop数据压缩使用介绍

一、压缩原则 (1)运算密集型的Job,少用压缩 (2)IO密集型的Job,多用压缩 二、压缩算法比较 三、压缩位置选择 四、压缩参数配置 1)为了支持多种压缩/解压缩算法,Hadoop引入了编码/解码器 2)要在Hadoop中启用压缩,可以配置如下参数

三相直流无刷电机(BLDC)控制算法实现:BLDC有感启动算法思路分析

一枚从事路径规划算法、运动控制算法、BLDC/FOC电机控制算法、工控、物联网工程师,爱吃土豆。如有需要技术交流或者需要方案帮助、需求:以下为联系方式—V 方案1:通过霍尔传感器IO中断触发换相 1.1 整体执行思路 霍尔传感器U、V、W三相通过IO+EXIT中断的方式进行霍尔传感器数据的读取。将IO口配置为上升沿+下降沿中断触发的方式。当霍尔传感器信号发生发生信号的变化就会触发中断在中断

秋夜思故人有感

秋夜思故人有感 西楼月影碎,轩窗烛泪灰。门前小犬吠,疑是故人归。

【Hadoop|MapReduce篇】MapReduce概述

1. MapReduce定义 MapReduce是一个分布式运算程序的编程框架,是用户开发“基于Hadoop的数据分析应用”的核心框架。 MapReduce核心功能是将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序,并发运行在一个Hadoop集群上。 2. MapReduce优缺点 2.1 优点 MapReduce易于编程 它简单的实现一些接口,就可以完成一个分布式

看 刻意练习 有感

该文章主要从几个事例以及生物方面介绍并验证了刻意练习对于技能掌握的重要性 成为高手的秘诀就是不断的学习不断的进步 刻意练习就是要在舒适区和恐慌区之间的学习区里面不断打熬,看得见的进步,练习获取反馈,不断调整,努力进取 有兴趣就更好

【hadoop Sqoop】Sqoop从mysql导数据到hdfs

1.下载sqoop安装包 wget https://mirrors.tuna.tsinghua.edu.cn/apache/sqoop/1.4.6/sqoop-1.4.6.bin__hadoop-2.0.4-alpha.tar.gz 2.解压安装包 tar -xzvf /sqoop-1.4.6.bin__hadoop-2.0.4-alpha.tar.gz 3.配置hadoop mv s

【Hadoop|HDFS篇】NameNode和SecondaryNameNode

1. NN和2NN的工作机制 思考:NameNode中的元数据是存储在哪里的? 首先,我们做个假设,如果存储在NameNode节点的磁盘中,因为经常需要进行随机访 问,还有响应客户请求,必然是效率过低。因此,元数据需要存放在内存中。但如果只存在 内存中,一旦断电,元数据丢失,整个集群就无法工作了。因此产生在磁盘中备份元数据的 Fslmage。 这样又会带来新的问题,当在内存中的元数据更新时,如