王家林的第三讲Hadoop图文训练课程:证明Hadoop工作的正确性和可靠性只需4步图文并茂的过程

本文主要是介绍王家林的第三讲Hadoop图文训练课程:证明Hadoop工作的正确性和可靠性只需4步图文并茂的过程,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

此教程是王家林编写的“云计算分布式大数据Hadoop实战高手之路---从零开始”第三讲:证明Hadoop工作的正确性和可靠性只需4步图文并茂的过程。

具体的PDF版本教程请猛击这里。

王家林的“云计算分布式大数据Hadoop实战高手之路”之完整目录

 

王家林亲授的上海7月6-7日云计算分布式大数据Hadoop深入浅出案例驱动实战

 

 

王家林把自己几年来在Hadoop上的研究和实践总结出来,并通过动手实践的方式不断深入云就算实战技术,让人人皆可学习,并从中受益。

此教程来自于王家林多年的云计算实战研究和实践心得,全部免费教材为云计算分布式大数据Hadoop实战高手之路(共3本书):

1,王家林编写的“云计算分布式大数据Hadoop实战高手之路---从零开始”带领您无痛入门Hadoop并能够处理Hadoop工程师的日常编程工作,进入云计算大数据的美好世界。

2, 王家林编写的“云计算分布式大数据Hadoop实战高手之路---高手崛起”通过数个案例实战和Hadoop高级主题的动手操作带领您直达Hadoop高手境界。

3, 王家林编写的“云计算分布式大数据Hadoop实战高手之路---高手之巅”通过当今主流的Hadoop商业使用方法和最成功的Hadoop大型案例让您直达高手之巅,从此一览众山小。

这些教程会按照实践的推移每天逐步发布,大家要多多支持喔!

 

更多Hadoop交流可以联系家林:

新浪微博:http://weibo.com/ilovepains

QQ:1740415547

QQ群:312494188

Weixin:wangjialinandroid

官方博客:http://www.cnblogs.com/guoshiandroid/

 

 

问题:我们怎么知道Hadoop工作是正确可靠的?

具体的实验:在hadoop的hdfs中的根目录下创建“input”目录,把Ubuntu上本地的Hadoop安装包中的bin目录下所有以“sh”为后缀的文件拷贝到hdfs的input目录中,然后运行hadoop自带的wordcount工具把 结果输出到hdfs根目录下的output目录中,最后要验证我们的hadoop对单词个数统计的正确性。具体的操作如下:

Step 1: 在hadoop的hdfs中的根目录下创建“input”目录:

此时查看HDFS的Web控制台,出现了我们创建的“input”目录:

Step 2:把Ubuntu上本地的Hadoop安装包中的bin目录下所有以“sh”为后缀的文件拷贝到hdfs的input目录中:

此时查看HDFS的Web控制台中的“input”目录,会发现我们成功的把Ubuntu本地的文件拷贝到了hdfs的/input/目录下:

Step 3:运行hadoop自带的wordcount工具把 结果输出到hdfs根目录下的output目录并查看运行结果:

此时我们打开hdfs的Web控制台,发现出现了我们的运行结果存放文件夹“output”

打开output目录,运行结果数据存放在“part-r-00000”文件中:

打开“part-r-00000”文件中,可以看到我们的单词数统计结果如下:

Step 4:检查运行结果的正确性。

这里所说的正确性就是看Hadoop对我们多个文件中出现的单词个数的统计工作是否正确,例如我们打开bin目录下的“start-dfs.sh”文件,会发现“required”这个单词,如下所示:

此时我们使用Ubuntu自带grep工具查看一下所有目标文件中包含“required”这个单词的情况:

使用“wc”统计一下“required”这个单词出现的次数:

此时Ubuntu告诉我们bin目录下所有以.sh为结尾的文件中共有“required”这个单词的个数是14,下面我们去hdfs中查看Hadoop统计出结果:

可以看到hadoop通过MapReduce的机制统计出的结果也是14个。

至此,表明我们的Hadoop对单词的个数统计完全正确。

此时进入我们的JobTracker的Web控制台,查看我们的MapReduce任务的运行情况:

可以看到我们进行了14次Map和1次Reduce。

点击任务,可以看到运行的详细信息:

至此,我们彻底完成了实验。

原文地址:点击打开链接

这篇关于王家林的第三讲Hadoop图文训练课程:证明Hadoop工作的正确性和可靠性只需4步图文并茂的过程的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/944470

相关文章

Go 语言中的select语句详解及工作原理

《Go语言中的select语句详解及工作原理》在Go语言中,select语句是用于处理多个通道(channel)操作的一种控制结构,它类似于switch语句,本文给大家介绍Go语言中的select语... 目录Go 语言中的 select 是做什么的基本功能语法工作原理示例示例 1:监听多个通道示例 2:带

PyInstaller打包selenium-wire过程中常见问题和解决指南

《PyInstaller打包selenium-wire过程中常见问题和解决指南》常用的打包工具PyInstaller能将Python项目打包成单个可执行文件,但也会因为兼容性问题和路径管理而出现各种运... 目录前言1. 背景2. 可能遇到的问题概述3. PyInstaller 打包步骤及参数配置4. 依赖

python连接本地SQL server详细图文教程

《python连接本地SQLserver详细图文教程》在数据分析领域,经常需要从数据库中获取数据进行分析和处理,下面:本文主要介绍python连接本地SQLserver的相关资料,文中通过代码... 目录一.设置本地账号1.新建用户2.开启双重验证3,开启TCP/IP本地服务二js.python连接实例1.

Python 安装和配置flask, flask_cors的图文教程

《Python安装和配置flask,flask_cors的图文教程》:本文主要介绍Python安装和配置flask,flask_cors的图文教程,本文通过图文并茂的形式给大家介绍的非常详细,... 目录一.python安装:二,配置环境变量,三:检查Python安装和环境变量,四:安装flask和flas

Ubuntu中远程连接Mysql数据库的详细图文教程

《Ubuntu中远程连接Mysql数据库的详细图文教程》Ubuntu是一个以桌面应用为主的Linux发行版操作系统,这篇文章主要为大家详细介绍了Ubuntu中远程连接Mysql数据库的详细图文教程,有... 目录1、版本2、检查有没有mysql2.1 查询是否安装了Mysql包2.2 查看Mysql版本2.

将Mybatis升级为Mybatis-Plus的详细过程

《将Mybatis升级为Mybatis-Plus的详细过程》本文详细介绍了在若依管理系统(v3.8.8)中将MyBatis升级为MyBatis-Plus的过程,旨在提升开发效率,通过本文,开发者可实现... 目录说明流程增加依赖修改配置文件注释掉MyBATisConfig里面的Bean代码生成使用IDEA生

Linux系统配置NAT网络模式的详细步骤(附图文)

《Linux系统配置NAT网络模式的详细步骤(附图文)》本文详细指导如何在VMware环境下配置NAT网络模式,包括设置主机和虚拟机的IP地址、网关,以及针对Linux和Windows系统的具体步骤,... 目录一、配置NAT网络模式二、设置虚拟机交换机网关2.1 打开虚拟机2.2 管理员授权2.3 设置子

C# WinForms存储过程操作数据库的实例讲解

《C#WinForms存储过程操作数据库的实例讲解》:本文主要介绍C#WinForms存储过程操作数据库的实例,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录一、存储过程基础二、C# 调用流程1. 数据库连接配置2. 执行存储过程(增删改)3. 查询数据三、事务处

JSON Web Token在登陆中的使用过程

《JSONWebToken在登陆中的使用过程》:本文主要介绍JSONWebToken在登陆中的使用过程,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录JWT 介绍微服务架构中的 JWT 使用结合微服务网关的 JWT 验证1. 用户登录,生成 JWT2. 自定义过滤

Linux卸载自带jdk并安装新jdk版本的图文教程

《Linux卸载自带jdk并安装新jdk版本的图文教程》在Linux系统中,有时需要卸载预装的OpenJDK并安装特定版本的JDK,例如JDK1.8,所以本文给大家详细介绍了Linux卸载自带jdk并... 目录Ⅰ、卸载自带jdkⅡ、安装新版jdkⅠ、卸载自带jdk1、输入命令查看旧jdkrpm -qa