王家林的第三讲Hadoop图文训练课程:证明Hadoop工作的正确性和可靠性只需4步图文并茂的过程

本文主要是介绍王家林的第三讲Hadoop图文训练课程:证明Hadoop工作的正确性和可靠性只需4步图文并茂的过程,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

此教程是王家林编写的“云计算分布式大数据Hadoop实战高手之路---从零开始”第三讲:证明Hadoop工作的正确性和可靠性只需4步图文并茂的过程。

具体的PDF版本教程请猛击这里。

王家林的“云计算分布式大数据Hadoop实战高手之路”之完整目录

 

王家林亲授的上海7月6-7日云计算分布式大数据Hadoop深入浅出案例驱动实战

 

 

王家林把自己几年来在Hadoop上的研究和实践总结出来,并通过动手实践的方式不断深入云就算实战技术,让人人皆可学习,并从中受益。

此教程来自于王家林多年的云计算实战研究和实践心得,全部免费教材为云计算分布式大数据Hadoop实战高手之路(共3本书):

1,王家林编写的“云计算分布式大数据Hadoop实战高手之路---从零开始”带领您无痛入门Hadoop并能够处理Hadoop工程师的日常编程工作,进入云计算大数据的美好世界。

2, 王家林编写的“云计算分布式大数据Hadoop实战高手之路---高手崛起”通过数个案例实战和Hadoop高级主题的动手操作带领您直达Hadoop高手境界。

3, 王家林编写的“云计算分布式大数据Hadoop实战高手之路---高手之巅”通过当今主流的Hadoop商业使用方法和最成功的Hadoop大型案例让您直达高手之巅,从此一览众山小。

这些教程会按照实践的推移每天逐步发布,大家要多多支持喔!

 

更多Hadoop交流可以联系家林:

新浪微博:http://weibo.com/ilovepains

QQ:1740415547

QQ群:312494188

Weixin:wangjialinandroid

官方博客:http://www.cnblogs.com/guoshiandroid/

 

 

问题:我们怎么知道Hadoop工作是正确可靠的?

具体的实验:在hadoop的hdfs中的根目录下创建“input”目录,把Ubuntu上本地的Hadoop安装包中的bin目录下所有以“sh”为后缀的文件拷贝到hdfs的input目录中,然后运行hadoop自带的wordcount工具把 结果输出到hdfs根目录下的output目录中,最后要验证我们的hadoop对单词个数统计的正确性。具体的操作如下:

Step 1: 在hadoop的hdfs中的根目录下创建“input”目录:

此时查看HDFS的Web控制台,出现了我们创建的“input”目录:

Step 2:把Ubuntu上本地的Hadoop安装包中的bin目录下所有以“sh”为后缀的文件拷贝到hdfs的input目录中:

此时查看HDFS的Web控制台中的“input”目录,会发现我们成功的把Ubuntu本地的文件拷贝到了hdfs的/input/目录下:

Step 3:运行hadoop自带的wordcount工具把 结果输出到hdfs根目录下的output目录并查看运行结果:

此时我们打开hdfs的Web控制台,发现出现了我们的运行结果存放文件夹“output”

打开output目录,运行结果数据存放在“part-r-00000”文件中:

打开“part-r-00000”文件中,可以看到我们的单词数统计结果如下:

Step 4:检查运行结果的正确性。

这里所说的正确性就是看Hadoop对我们多个文件中出现的单词个数的统计工作是否正确,例如我们打开bin目录下的“start-dfs.sh”文件,会发现“required”这个单词,如下所示:

此时我们使用Ubuntu自带grep工具查看一下所有目标文件中包含“required”这个单词的情况:

使用“wc”统计一下“required”这个单词出现的次数:

此时Ubuntu告诉我们bin目录下所有以.sh为结尾的文件中共有“required”这个单词的个数是14,下面我们去hdfs中查看Hadoop统计出结果:

可以看到hadoop通过MapReduce的机制统计出的结果也是14个。

至此,表明我们的Hadoop对单词的个数统计完全正确。

此时进入我们的JobTracker的Web控制台,查看我们的MapReduce任务的运行情况:

可以看到我们进行了14次Map和1次Reduce。

点击任务,可以看到运行的详细信息:

至此,我们彻底完成了实验。

原文地址:点击打开链接

这篇关于王家林的第三讲Hadoop图文训练课程:证明Hadoop工作的正确性和可靠性只需4步图文并茂的过程的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/944470

相关文章

Window Server创建2台服务器的故障转移群集的图文教程

《WindowServer创建2台服务器的故障转移群集的图文教程》本文主要介绍了在WindowsServer系统上创建一个包含两台成员服务器的故障转移群集,文中通过图文示例介绍的非常详细,对大家的... 目录一、 准备条件二、在ServerB安装故障转移群集三、在ServerC安装故障转移群集,操作与Ser

windos server2022的配置故障转移服务的图文教程

《windosserver2022的配置故障转移服务的图文教程》本文主要介绍了windosserver2022的配置故障转移服务的图文教程,以确保服务和应用程序的连续性和可用性,文中通过图文介绍的非... 目录准备环境:步骤故障转移群集是 Windows Server 2022 中提供的一种功能,用于在多个

SpringBoot 整合 Grizzly的过程

《SpringBoot整合Grizzly的过程》Grizzly是一个高性能的、异步的、非阻塞的HTTP服务器框架,它可以与SpringBoot一起提供比传统的Tomcat或Jet... 目录为什么选择 Grizzly?Spring Boot + Grizzly 整合的优势添加依赖自定义 Grizzly 作为

mysql-8.0.30压缩包版安装和配置MySQL环境过程

《mysql-8.0.30压缩包版安装和配置MySQL环境过程》该文章介绍了如何在Windows系统中下载、安装和配置MySQL数据库,包括下载地址、解压文件、创建和配置my.ini文件、设置环境变量... 目录压缩包安装配置下载配置环境变量下载和初始化总结压缩包安装配置下载下载地址:https://d

LinuxMint怎么安装? Linux Mint22下载安装图文教程

《LinuxMint怎么安装?LinuxMint22下载安装图文教程》LinuxMint22发布以后,有很多新功能,很多朋友想要下载并安装,该怎么操作呢?下面我们就来看看详细安装指南... linux Mint 是一款基于 Ubuntu 的流行发行版,凭借其现代、精致、易于使用的特性,深受小伙伴们所喜爱。对

springboot整合gateway的详细过程

《springboot整合gateway的详细过程》本文介绍了如何配置和使用SpringCloudGateway构建一个API网关,通过实例代码介绍了springboot整合gateway的过程,需要... 目录1. 添加依赖2. 配置网关路由3. 启用Eureka客户端(可选)4. 创建主应用类5. 自定

SSID究竟是什么? WiFi网络名称及工作方式解析

《SSID究竟是什么?WiFi网络名称及工作方式解析》SID可以看作是无线网络的名称,类似于有线网络中的网络名称或者路由器的名称,在无线网络中,设备通过SSID来识别和连接到特定的无线网络... 当提到 Wi-Fi 网络时,就避不开「SSID」这个术语。简单来说,SSID 就是 Wi-Fi 网络的名称。比如

最新版IDEA配置 Tomcat的详细过程

《最新版IDEA配置Tomcat的详细过程》本文介绍如何在IDEA中配置Tomcat服务器,并创建Web项目,首先检查Tomcat是否安装完成,然后在IDEA中创建Web项目并添加Web结构,接着,... 目录配置tomcat第一步,先给项目添加Web结构查看端口号配置tomcat    先检查自己的to

SpringBoot集成SOL链的详细过程

《SpringBoot集成SOL链的详细过程》Solanaj是一个用于与Solana区块链交互的Java库,它为Java开发者提供了一套功能丰富的API,使得在Java环境中可以轻松构建与Solana... 目录一、什么是solanaj?二、Pom依赖三、主要类3.1 RpcClient3.2 Public

Android数据库Room的实际使用过程总结

《Android数据库Room的实际使用过程总结》这篇文章主要给大家介绍了关于Android数据库Room的实际使用过程,详细介绍了如何创建实体类、数据访问对象(DAO)和数据库抽象类,需要的朋友可以... 目录前言一、Room的基本使用1.项目配置2.创建实体类(Entity)3.创建数据访问对象(DAO