本文主要是介绍hadoop的第一个程序wordcount实现,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
具体安装步骤请见博客:linux hadoop 2.7 伪分布式安装简单几步实现
1. 在本地新建一个文件,笔者在~/hadoop-2.7.1/local_data文件夹新建了一个文本文件hello.txt,local_data文件夹也是新建的。文件内容是:
he wo shi he jing
shao wo shi shao jie
ni ni shi lu lu
2. 在hdfs文件系统中,新建一个文件夹,用于上传本地的hello.txt,在hadoop2.7.1目录下输入命令:
在hdfs根目录下建立一个test目录:bin/hdfs dfs -mkdir /test
查看hdfs根目录下的目录结构:bin/hdfs dfs -ls /
3. 将本地的hello.txt文档上传到test目录里
上传本地文件:bin/hdfs dfs -put /home/couragek/hadoop-2.7.1/local_data/hello.txt /test/
查看此时目录:bin/hdfs dfs -ls /test/
4. 运行word count程序
使用命令:bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.1.jar wordcount /test/hello.txt /test/out
在/test目录下生成名为out的文件:bin/hdfs dfs -ls /test
结果是在test目录下生成了一个名为out的文件目录
输入命令查看out目录下的文件:bin/hdfs dfs -ls /test/out
查看运行结果:
5. 参考文献
http://www.tuicool.com/articles/bmeUneM
这篇关于hadoop的第一个程序wordcount实现的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!