cloudera CDH5.13.1 Hadoop2.6.0 测试运行wordcount大数据统计作业

本文主要是介绍cloudera CDH5.13.1 Hadoop2.6.0 测试运行wordcount大数据统计作业,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!


cloudea 大数据实验平台安装好了,做点什么呢? 还是从hello world开始吧

1. 查看hadoop版本

root@cdh01:~# hadoop version


如果能如上正常显示,说明可以使用hadoop测试程序了

2. 查看有哪些测试程序可用
root@cdh01:~# hadoop jar /opt/cloudera/parcels/CDH/jars/hadoop-examples.jar
运行该程序会介绍有哪些hadoop测试程序可以使用

aggregatewordcount  计算输入文件中文字个数的基于聚合的MapReduce程序。
aggregatewordhist   生成输入文件中文字个数的统计图的基于聚合的MapReduce程序。
grep  计算输入文件中匹配正则表达式的文字个数的MapReduce程序。
join 合并排序的平均分割的数据集的作业。
multifilewc 计算几个文件的文字个数的作业。
pentomino 解决五格拼版问题的分块分层的MapReduce程序。
pi 使用蒙地卡罗法计算PI的MapReduce程序。
randomtextwriter 在一个节点上写10G随机文本的MapReduce程序。
randomwriter 在每个节点上写10G随机数据的MapReduce程序。
sleep 在每个Map和Reduce作业中休憩的程序。
sort 排序随机写入器生成的数据的MapReduce程序。
sudoku 一个九宫格游戏的解决方案。
wordcount 在输入文件中统计文字个数的统计器。


3.建立统计案例输入输出目录并上传文件
su hdfs  /* 转到gdfs用户身份操作,因为root对hadoop目录目前没有操作权限
hadoop fs -mkdir /input  /* 建立输入文件目录
hadoop fs -chmod 777 /input  /* 修改目录权限
hadoop fs -mkdir /output  /* 建立输出文件目录
hadoop fs -chmod 777 /input  /* 修改输出文件目录权限
exit           /*退出hdfs用户身份,返回到root用户
hadoop fs -put license.txt /input    /把需作单词统计的文件license.txt 上传到hadoop的/input目录
hadoop fs -ls /input  /查看是否上传成功




4.修改 /etc/hadoop/conf/mapred-site.xml 文件
按默认的配置运行统计作业时会卡在mapreduce.Job: Running job
在etc/hadoop/conf/mapred-site.xml中,如果配置
        <property>
                <name>mapreduce.framework.name</name>
                <value>yarn</value>
        </property>
则使用yarn来进行计算,那么必须启动nodemanager,
如果不使用yarn,进行mapreduce.job.tracker配置也可以用,这样就不需要启动nodemanager:
<property>
        <name>mapreduce.job.tracker</name>
        <value>hdfs://cdh01:8001</value>
        <final>true</final>
<property> 

root@cdh01:~# vi /etc/hadoop/conf/mapred-site.xml
注释掉原来的配置,使用新输入的配置
修改后如下图


5. 执行统计任务

root@cdh01:~# hadoop jar /opt/cloudera/parcels/CDH/jars/hadoop-mapreduce-examples-2.6.0-cdh5.13.1.jar wordcount /input /output/output1

( 也可以使用yarn调度程序:
yarn jar /opt/cloudera/parcels/CDH/jars/hadoop-mapreduce-examples-2.6.0-cdh5.13.1.jar wordcount /input /output/output1 )

    该自带测试程序会对/input目录下的各文件作为输入,对单词进行统计,输出到/output/output1目录,其中output1目录会自行建立,必须是原来不存在的目录。
   如果正常执行,会在屏幕看到执行过程的输出:


6. 查看统计结果
root@cdh01:~# hadoop fs -ls /output/output1/*       /* 查看生成的文件名
root@cdh01:~# hadoop fs -cat /output/output1/part-r-00000    /* 显示生成的文件内容
root@cdh01:~# hadoop fs -get /output/output1/part-r-00000   /* 复制hdfs文件到本地文件


7.也可以通过 浏览器 50070端口查看hadoop hdfs目录及文件

这篇关于cloudera CDH5.13.1 Hadoop2.6.0 测试运行wordcount大数据统计作业的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/166986

相关文章

MySQL快速复制一张表的四种核心方法(包括表结构和数据)

《MySQL快速复制一张表的四种核心方法(包括表结构和数据)》本文详细介绍了四种复制MySQL表(结构+数据)的方法,并对每种方法进行了对比分析,适用于不同场景和数据量的复制需求,特别是针对超大表(1... 目录一、mysql 复制表(结构+数据)的 4 种核心方法(面试结构化回答)方法 1:CREATE

详解C++ 存储二进制数据容器的几种方法

《详解C++存储二进制数据容器的几种方法》本文主要介绍了详解C++存储二进制数据容器,包括std::vector、std::array、std::string、std::bitset和std::ve... 目录1.std::vector<uint8_t>(最常用)特点:适用场景:示例:2.std::arra

MySQL中的DELETE删除数据及注意事项

《MySQL中的DELETE删除数据及注意事项》MySQL的DELETE语句是数据库操作中不可或缺的一部分,通过合理使用索引、批量删除、避免全表删除、使用TRUNCATE、使用ORDERBY和LIMI... 目录1. 基本语法单表删除2. 高级用法使用子查询删除删除多表3. 性能优化策略使用索引批量删除避免

MySQL 数据库进阶之SQL 数据操作与子查询操作大全

《MySQL数据库进阶之SQL数据操作与子查询操作大全》本文详细介绍了SQL中的子查询、数据添加(INSERT)、数据修改(UPDATE)和数据删除(DELETE、TRUNCATE、DROP)操作... 目录一、子查询:嵌套在查询中的查询1.1 子查询的基本语法1.2 子查询的实战示例二、数据添加:INSE

Linux服务器数据盘移除并重新挂载的全过程

《Linux服务器数据盘移除并重新挂载的全过程》:本文主要介绍在Linux服务器上移除并重新挂载数据盘的整个过程,分为三大步:卸载文件系统、分离磁盘和重新挂载,每一步都有详细的步骤和注意事项,确保... 目录引言第一步:卸载文件系统第二步:分离磁盘第三步:重新挂载引言在 linux 服务器上移除并重新挂p

使用MyBatis TypeHandler实现数据加密与解密的具体方案

《使用MyBatisTypeHandler实现数据加密与解密的具体方案》在我们日常的开发工作中,经常会遇到一些敏感数据需要存储,比如用户的手机号、身份证号、银行卡号等,为了保障数据安全,我们通常会对... 目录1. 核心概念:什么是 TypeHandler?2. 实战场景3. 代码实现步骤步骤 1:定义 E

使用C#导出Excel数据并保存多种格式的完整示例

《使用C#导出Excel数据并保存多种格式的完整示例》在现代企业信息化管理中,Excel已经成为最常用的数据存储和分析工具,从员工信息表、销售数据报表到财务分析表,几乎所有部门都离不开Excel,本文... 目录引言1. 安装 Spire.XLS2. 创建工作簿和填充数据3. 保存为不同格式4. 效果展示5

Python多任务爬虫实现爬取图片和GDP数据

《Python多任务爬虫实现爬取图片和GDP数据》本文主要介绍了基于FastAPI开发Web站点的方法,包括搭建Web服务器、处理图片资源、实现多任务爬虫和数据可视化,同时,还简要介绍了Python爬... 目录一. 基于FastAPI之Web站点开发1. 基于FastAPI搭建Web服务器2. Web服务

MySQL 批量插入的原理和实战方法(快速提升大数据导入效率)

《MySQL批量插入的原理和实战方法(快速提升大数据导入效率)》在日常开发中,我们经常需要将大量数据批量插入到MySQL数据库中,本文将介绍批量插入的原理、实现方法,并结合Python和PyMySQ... 目录一、批量插入的优势二、mysql 表的创建示例三、python 实现批量插入1. 安装 PyMyS

关于MySQL将表中数据删除后多久空间会被释放出来

《关于MySQL将表中数据删除后多久空间会被释放出来》MySQL删除数据后,空间不会立即释放给操作系统,而是会被标记为“可重用”,以供未来插入新数据时使用,只有满足特定条件时,空间才可能真正返还给操作... 目录一、mysql数据删除与空间管理1.1 理解MySQL数据删除原理1.3 执行SQL1.3 使用