王家林的第三讲Hadoop图文训练课程:证明Hadoop工作的正确性和可靠性只需4步图文并茂的过程

本文主要是介绍王家林的第三讲Hadoop图文训练课程:证明Hadoop工作的正确性和可靠性只需4步图文并茂的过程,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

此教程是王家林编写的“云计算分布式大数据Hadoop实战高手之路---从零开始”第三讲:证明Hadoop工作的正确性和可靠性只需4步图文并茂的过程。

具体的PDF版本教程请猛击这里。

王家林的“云计算分布式大数据Hadoop实战高手之路”之完整目录

 

王家林亲授的上海7月6-7日云计算分布式大数据Hadoop深入浅出案例驱动实战

 

 

王家林把自己几年来在Hadoop上的研究和实践总结出来,并通过动手实践的方式不断深入云就算实战技术,让人人皆可学习,并从中受益。

此教程来自于王家林多年的云计算实战研究和实践心得,全部免费教材为云计算分布式大数据Hadoop实战高手之路(共3本书):

1,王家林编写的“云计算分布式大数据Hadoop实战高手之路---从零开始”带领您无痛入门Hadoop并能够处理Hadoop工程师的日常编程工作,进入云计算大数据的美好世界。

2, 王家林编写的“云计算分布式大数据Hadoop实战高手之路---高手崛起”通过数个案例实战和Hadoop高级主题的动手操作带领您直达Hadoop高手境界。

3, 王家林编写的“云计算分布式大数据Hadoop实战高手之路---高手之巅”通过当今主流的Hadoop商业使用方法和最成功的Hadoop大型案例让您直达高手之巅,从此一览众山小。

这些教程会按照实践的推移每天逐步发布,大家要多多支持喔!

 

更多Hadoop交流可以联系家林:

新浪微博:http://weibo.com/ilovepains

QQ:1740415547

QQ群:312494188

Weixin:wangjialinandroid

官方博客:http://www.cnblogs.com/guoshiandroid/

 

 

问题:我们怎么知道Hadoop工作是正确可靠的?

具体的实验:在hadoop的hdfs中的根目录下创建“input”目录,把Ubuntu上本地的Hadoop安装包中的bin目录下所有以“sh”为后缀的文件拷贝到hdfs的input目录中,然后运行hadoop自带的wordcount工具把 结果输出到hdfs根目录下的output目录中,最后要验证我们的hadoop对单词个数统计的正确性。具体的操作如下:

Step 1: 在hadoop的hdfs中的根目录下创建“input”目录:

此时查看HDFS的Web控制台,出现了我们创建的“input”目录:

Step 2:把Ubuntu上本地的Hadoop安装包中的bin目录下所有以“sh”为后缀的文件拷贝到hdfs的input目录中:

此时查看HDFS的Web控制台中的“input”目录,会发现我们成功的把Ubuntu本地的文件拷贝到了hdfs的/input/目录下:

Step 3:运行hadoop自带的wordcount工具把 结果输出到hdfs根目录下的output目录并查看运行结果:

此时我们打开hdfs的Web控制台,发现出现了我们的运行结果存放文件夹“output”

打开output目录,运行结果数据存放在“part-r-00000”文件中:

打开“part-r-00000”文件中,可以看到我们的单词数统计结果如下:

Step 4:检查运行结果的正确性。

这里所说的正确性就是看Hadoop对我们多个文件中出现的单词个数的统计工作是否正确,例如我们打开bin目录下的“start-dfs.sh”文件,会发现“required”这个单词,如下所示:

此时我们使用Ubuntu自带grep工具查看一下所有目标文件中包含“required”这个单词的情况:

使用“wc”统计一下“required”这个单词出现的次数:

此时Ubuntu告诉我们bin目录下所有以.sh为结尾的文件中共有“required”这个单词的个数是14,下面我们去hdfs中查看Hadoop统计出结果:

可以看到hadoop通过MapReduce的机制统计出的结果也是14个。

至此,表明我们的Hadoop对单词的个数统计完全正确。

此时进入我们的JobTracker的Web控制台,查看我们的MapReduce任务的运行情况:

可以看到我们进行了14次Map和1次Reduce。

点击任务,可以看到运行的详细信息:

至此,我们彻底完成了实验。

原文地址:点击打开链接

这篇关于王家林的第三讲Hadoop图文训练课程:证明Hadoop工作的正确性和可靠性只需4步图文并茂的过程的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/944470

相关文章

C# WinForms存储过程操作数据库的实例讲解

《C#WinForms存储过程操作数据库的实例讲解》:本文主要介绍C#WinForms存储过程操作数据库的实例,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录一、存储过程基础二、C# 调用流程1. 数据库连接配置2. 执行存储过程(增删改)3. 查询数据三、事务处

JSON Web Token在登陆中的使用过程

《JSONWebToken在登陆中的使用过程》:本文主要介绍JSONWebToken在登陆中的使用过程,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录JWT 介绍微服务架构中的 JWT 使用结合微服务网关的 JWT 验证1. 用户登录,生成 JWT2. 自定义过滤

Linux卸载自带jdk并安装新jdk版本的图文教程

《Linux卸载自带jdk并安装新jdk版本的图文教程》在Linux系统中,有时需要卸载预装的OpenJDK并安装特定版本的JDK,例如JDK1.8,所以本文给大家详细介绍了Linux卸载自带jdk并... 目录Ⅰ、卸载自带jdkⅡ、安装新版jdkⅠ、卸载自带jdk1、输入命令查看旧jdkrpm -qa

java中使用POI生成Excel并导出过程

《java中使用POI生成Excel并导出过程》:本文主要介绍java中使用POI生成Excel并导出过程,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录需求说明及实现方式需求完成通用代码版本1版本2结果展示type参数为atype参数为b总结注:本文章中代码均为

SpringCloud之LoadBalancer负载均衡服务调用过程

《SpringCloud之LoadBalancer负载均衡服务调用过程》:本文主要介绍SpringCloud之LoadBalancer负载均衡服务调用过程,具有很好的参考价值,希望对大家有所帮助,... 目录前言一、LoadBalancer是什么?二、使用步骤1、启动consul2、客户端加入依赖3、以服务

Oracle存储过程里操作BLOB的字节数据的办法

《Oracle存储过程里操作BLOB的字节数据的办法》该篇文章介绍了如何在Oracle存储过程中操作BLOB的字节数据,作者研究了如何获取BLOB的字节长度、如何使用DBMS_LOB包进行BLOB操作... 目录一、缘由二、办法2.1 基本操作2.2 DBMS_LOB包2.3 字节级操作与RAW数据类型2.

C#原型模式之如何通过克隆对象来优化创建过程

《C#原型模式之如何通过克隆对象来优化创建过程》原型模式是一种创建型设计模式,通过克隆现有对象来创建新对象,避免重复的创建成本和复杂的初始化过程,它适用于对象创建过程复杂、需要大量相似对象或避免重复初... 目录什么是原型模式?原型模式的工作原理C#中如何实现原型模式?1. 定义原型接口2. 实现原型接口3

kotlin中的模块化结构组件及工作原理

《kotlin中的模块化结构组件及工作原理》本文介绍了Kotlin中模块化结构组件,包括ViewModel、LiveData、Room和Navigation的工作原理和基础使用,本文通过实例代码给大家... 目录ViewModel 工作原理LiveData 工作原理Room 工作原理Navigation 工

Spring Security注解方式权限控制过程

《SpringSecurity注解方式权限控制过程》:本文主要介绍SpringSecurity注解方式权限控制过程,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录一、摘要二、实现步骤2.1 在配置类中添加权限注解的支持2.2 创建Controller类2.3 Us

IDEA接入Deepseek的图文教程

《IDEA接入Deepseek的图文教程》在本篇文章中,我们将详细介绍如何在JetBrainsIDEA中使用Continue插件接入DeepSeek,让你的AI编程助手更智能,提高开发效率,感兴趣的小... 目录一、前置准备二、安装 Continue 插件三、配置 Continue 连接 DeepSeek四