王家林的第三讲Hadoop图文训练课程:证明Hadoop工作的正确性和可靠性只需4步图文并茂的过程

本文主要是介绍王家林的第三讲Hadoop图文训练课程:证明Hadoop工作的正确性和可靠性只需4步图文并茂的过程,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

此教程是王家林编写的“云计算分布式大数据Hadoop实战高手之路---从零开始”第三讲:证明Hadoop工作的正确性和可靠性只需4步图文并茂的过程。

具体的PDF版本教程请猛击这里。

王家林的“云计算分布式大数据Hadoop实战高手之路”之完整目录

 

王家林亲授的上海7月6-7日云计算分布式大数据Hadoop深入浅出案例驱动实战

 

 

王家林把自己几年来在Hadoop上的研究和实践总结出来,并通过动手实践的方式不断深入云就算实战技术,让人人皆可学习,并从中受益。

此教程来自于王家林多年的云计算实战研究和实践心得,全部免费教材为云计算分布式大数据Hadoop实战高手之路(共3本书):

1,王家林编写的“云计算分布式大数据Hadoop实战高手之路---从零开始”带领您无痛入门Hadoop并能够处理Hadoop工程师的日常编程工作,进入云计算大数据的美好世界。

2, 王家林编写的“云计算分布式大数据Hadoop实战高手之路---高手崛起”通过数个案例实战和Hadoop高级主题的动手操作带领您直达Hadoop高手境界。

3, 王家林编写的“云计算分布式大数据Hadoop实战高手之路---高手之巅”通过当今主流的Hadoop商业使用方法和最成功的Hadoop大型案例让您直达高手之巅,从此一览众山小。

这些教程会按照实践的推移每天逐步发布,大家要多多支持喔!

 

更多Hadoop交流可以联系家林:

新浪微博:http://weibo.com/ilovepains

QQ:1740415547

QQ群:312494188

Weixin:wangjialinandroid

官方博客:http://www.cnblogs.com/guoshiandroid/

 

 

问题:我们怎么知道Hadoop工作是正确可靠的?

具体的实验:在hadoop的hdfs中的根目录下创建“input”目录,把Ubuntu上本地的Hadoop安装包中的bin目录下所有以“sh”为后缀的文件拷贝到hdfs的input目录中,然后运行hadoop自带的wordcount工具把 结果输出到hdfs根目录下的output目录中,最后要验证我们的hadoop对单词个数统计的正确性。具体的操作如下:

Step 1: 在hadoop的hdfs中的根目录下创建“input”目录:

此时查看HDFS的Web控制台,出现了我们创建的“input”目录:

Step 2:把Ubuntu上本地的Hadoop安装包中的bin目录下所有以“sh”为后缀的文件拷贝到hdfs的input目录中:

此时查看HDFS的Web控制台中的“input”目录,会发现我们成功的把Ubuntu本地的文件拷贝到了hdfs的/input/目录下:

Step 3:运行hadoop自带的wordcount工具把 结果输出到hdfs根目录下的output目录并查看运行结果:

此时我们打开hdfs的Web控制台,发现出现了我们的运行结果存放文件夹“output”

打开output目录,运行结果数据存放在“part-r-00000”文件中:

打开“part-r-00000”文件中,可以看到我们的单词数统计结果如下:

Step 4:检查运行结果的正确性。

这里所说的正确性就是看Hadoop对我们多个文件中出现的单词个数的统计工作是否正确,例如我们打开bin目录下的“start-dfs.sh”文件,会发现“required”这个单词,如下所示:

此时我们使用Ubuntu自带grep工具查看一下所有目标文件中包含“required”这个单词的情况:

使用“wc”统计一下“required”这个单词出现的次数:

此时Ubuntu告诉我们bin目录下所有以.sh为结尾的文件中共有“required”这个单词的个数是14,下面我们去hdfs中查看Hadoop统计出结果:

可以看到hadoop通过MapReduce的机制统计出的结果也是14个。

至此,表明我们的Hadoop对单词的个数统计完全正确。

此时进入我们的JobTracker的Web控制台,查看我们的MapReduce任务的运行情况:

可以看到我们进行了14次Map和1次Reduce。

点击任务,可以看到运行的详细信息:

至此,我们彻底完成了实验。

原文地址:点击打开链接

这篇关于王家林的第三讲Hadoop图文训练课程:证明Hadoop工作的正确性和可靠性只需4步图文并茂的过程的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/944470

相关文章

pycharm远程连接服务器运行pytorch的过程详解

《pycharm远程连接服务器运行pytorch的过程详解》:本文主要介绍在Linux环境下使用Anaconda管理不同版本的Python环境,并通过PyCharm远程连接服务器来运行PyTorc... 目录linux部署pytorch背景介绍Anaconda安装Linux安装pytorch虚拟环境安装cu

SpringBoot项目注入 traceId 追踪整个请求的日志链路(过程详解)

《SpringBoot项目注入traceId追踪整个请求的日志链路(过程详解)》本文介绍了如何在单体SpringBoot项目中通过手动实现过滤器或拦截器来注入traceId,以追踪整个请求的日志链... SpringBoot项目注入 traceId 来追踪整个请求的日志链路,有了 traceId, 我们在排

Spring Boot 3 整合 Spring Cloud Gateway实践过程

《SpringBoot3整合SpringCloudGateway实践过程》本文介绍了如何使用SpringCloudAlibaba2023.0.0.0版本构建一个微服务网关,包括统一路由、限... 目录引子为什么需要微服务网关实践1.统一路由2.限流防刷3.登录鉴权小结引子当前微服务架构已成为中大型系统的标

Java中对象的创建和销毁过程详析

《Java中对象的创建和销毁过程详析》:本文主要介绍Java中对象的创建和销毁过程,对象的创建过程包括类加载检查、内存分配、初始化零值内存、设置对象头和执行init方法,对象的销毁过程由垃圾回收机... 目录前言对象的创建过程1. 类加载检查2China编程. 分配内存3. 初始化零值4. 设置对象头5. 执行

SpringBoot整合easy-es的详细过程

《SpringBoot整合easy-es的详细过程》本文介绍了EasyES,一个基于Elasticsearch的ORM框架,旨在简化开发流程并提高效率,EasyES支持SpringBoot框架,并提供... 目录一、easy-es简介二、实现基于Spring Boot框架的应用程序代码1.添加相关依赖2.添

SpringBoot中整合RabbitMQ(测试+部署上线最新完整)的过程

《SpringBoot中整合RabbitMQ(测试+部署上线最新完整)的过程》本文详细介绍了如何在虚拟机和宝塔面板中安装RabbitMQ,并使用Java代码实现消息的发送和接收,通过异步通讯,可以优化... 目录一、RabbitMQ安装二、启动RabbitMQ三、javascript编写Java代码1、引入

JavaScript中的reduce方法执行过程、使用场景及进阶用法

《JavaScript中的reduce方法执行过程、使用场景及进阶用法》:本文主要介绍JavaScript中的reduce方法执行过程、使用场景及进阶用法的相关资料,reduce是JavaScri... 目录1. 什么是reduce2. reduce语法2.1 语法2.2 参数说明3. reduce执行过程

redis群集简单部署过程

《redis群集简单部署过程》文章介绍了Redis,一个高性能的键值存储系统,其支持多种数据结构和命令,它还讨论了Redis的服务器端架构、数据存储和获取、协议和命令、高可用性方案、缓存机制以及监控和... 目录Redis介绍1. 基本概念2. 服务器端3. 存储和获取数据4. 协议和命令5. 高可用性6.

PLsql Oracle 下载安装图文过程详解

《PLsqlOracle下载安装图文过程详解》PL/SQLDeveloper是一款用于开发Oracle数据库的集成开发环境,可以通过官网下载安装配置,并通过配置tnsnames.ora文件及环境变... 目录一、PL/SQL Developer 简介二、PL/SQL Developer 安装及配置详解1.下

在Java中使用ModelMapper简化Shapefile属性转JavaBean实战过程

《在Java中使用ModelMapper简化Shapefile属性转JavaBean实战过程》本文介绍了在Java中使用ModelMapper库简化Shapefile属性转JavaBean的过程,对比... 目录前言一、原始的处理办法1、使用Set方法来转换2、使用构造方法转换二、基于ModelMapper