Hadoop入门实践之从WordCount程序说起

2024-04-28 22:38

本文主要是介绍Hadoop入门实践之从WordCount程序说起,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

这段时间需要学习Hadoop了,以前一直听说Hadoop,但是从来没有研究过,这几天粗略看完了《Hadoop实战》这本书,对Hadoop编程有了大致的了解。接下来就是多看多写了。以Hadoop自带的例子WordCount程序开始,来记录我的Hadoop学习过程。

Hadoop自带例子WordCount.java

[java]  view plain copy
  1. /** 
  2.  *  Licensed under the Apache License, Version 2.0 (the "License"); 
  3.  *  you may not use this file except in compliance with the License. 
  4.  *  You may obtain a copy of the License at 
  5.  * 
  6.  *      http://www.apache.org/licenses/LICENSE-2.0 
  7.  * 
  8.  *  Unless required by applicable law or agreed to in writing, software 
  9.  *  distributed under the License is distributed on an "AS IS" BASIS, 
  10.  *  WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied. 
  11.  *  See the License for the specific language governing permissions and 
  12.  *  limitations under the License. 
  13.  */  
  14.   
  15.   
  16. package org.apache.hadoop.examples;  
  17.   
  18. import java.io.IOException;  
  19. import java.util.StringTokenizer;  
  20.   
  21. import org.apache.hadoop.conf.Configuration;  
  22. import org.apache.hadoop.fs.Path;  
  23. import org.apache.hadoop.io.IntWritable;  
  24. import org.apache.hadoop.io.Text;  
  25. import org.apache.hadoop.mapreduce.Job;  
  26. import org.apache.hadoop.mapreduce.Mapper;  
  27. import org.apache.hadoop.mapreduce.Reducer;  
  28. import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;  
  29. import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;  
  30. import org.apache.hadoop.util.GenericOptionsParser;  
  31.   
  32. public class WordCount {  
  33.   
  34.   public static class TokenizerMapper   
  35.        extends Mapper<Object, Text, Text, IntWritable>{  
  36.       
  37.     private final static IntWritable one = new IntWritable(1);  
  38.     private Text word = new Text();  
  39.         
  40.     public void map(Object key, Text value, Context context  
  41.                     ) throws IOException, InterruptedException {  
  42.       StringTokenizer itr = new StringTokenizer(value.toString());  
  43.       while (itr.hasMoreTokens()) {  
  44.         word.set(itr.nextToken());  
  45.         context.write(word, one);  
  46.       }  
  47.     }  
  48.   }  
  49.     
  50.   public static class IntSumReducer   
  51.        extends Reducer<Text,IntWritable,Text,IntWritable> {  
  52.     private IntWritable result = new IntWritable();  
  53.   
  54.     public void reduce(Text key, Iterable<IntWritable> values,   
  55.                        Context context  
  56.                        ) throws IOException, InterruptedException {  
  57.       int sum = 0;  
  58.       for (IntWritable val : values) {  
  59.         sum += val.get();  
  60.       }  
  61.       result.set(sum);  
  62.       context.write(key, result);  
  63.     }  
  64.   }  
  65.   
  66.   public static void main(String[] args) throws Exception {  
  67.     Configuration conf = new Configuration();  
  68.     String[] otherArgs = new GenericOptionsParser(conf, args).getRemainingArgs();  
  69.     if (otherArgs.length != 2) {  
  70.       System.err.println("Usage: wordcount <in> <out>");  
  71.       System.exit(2);  
  72.     }  
  73.     Job job = new Job(conf, "word count");  
  74.     job.setJarByClass(WordCount.class);  
  75.     job.setMapperClass(TokenizerMapper.class);  
  76.     job.setReducerClass(IntSumReducer.class);  
  77.     job.setOutputKeyClass(Text.class);  
  78.     job.setOutputValueClass(IntWritable.class);  
  79.     FileInputFormat.addInputPath(job, new Path(otherArgs[0]));  
  80.     FileOutputFormat.setOutputPath(job, new Path(otherArgs[1]));  
  81.     System.exit(job.waitForCompletion(true) ? 0 : 1);  
  82.   }  
  83. }  
这个程序的功能是对文件中各个单词的数目进行统计。

在Wordount.java中有两个静态内部类TokenizerMapper,IntSumReducer,关于静态内部类,可以参考另一篇文章 Java中的静态内部类。这两个类分别对应与MapReduce中的map和reduce。至于为什么要用静态的内部类,个人理解是这样的:一般一个简单作业(Job)包含了一个map过程和一个reduce过程,Job,Map,Reduce写在一个文件中便于文件的组织。但是,Hadoop内部需要使用反射的方式来实例化客户端的Map和Reduce,所以使用了静态内部类的方式,参考了StackOverflow上的一个帖子: Do Mappers and Reducers in Hadoop have to be static classes?,如果不许要将Job,Map和Reduce组织在一起,完全可以将这三个类写在三个类文件中。

在程序的main函数中首先实例化一个Configuration,用于加载Hadoop的配置信息,然后就解析给程序传递的参数,这里我们传递了两个字符串参数,经过解析之后保存在有两个元素的数组otherArgs中,其中otherArgs[0]为要进行统计的文件的路径,otherArgs[1]为经过MapReduce计算之后的结果所保存的位置。
[java]  view plain copy
  1. Job job = new Job(conf, "word count");  
语句实例化一个Job对象,然后就为Job对像指定运行时所需的类
[java]  view plain copy
  1. job.setJarByClass(WordCount.class);  
表示告诉Hadoop集群,作业从哪个类开始运行,
[java]  view plain copy
  1. job.setMapperClass(TokenizerMapper.class);  
表示执行哪个类的map方法,我们这里指定的是方法
[java]  view plain copy
  1. public void map(Object key, Text value, Context context  
  2.                    ) throws IOException, InterruptedException {  
  3.      StringTokenizer itr = new StringTokenizer(value.toString());  
  4.      while (itr.hasMoreTokens()) {  
  5.        word.set(itr.nextToken());  
  6.        context.write(word, one);  
  7.      }  
  8.    }  
这个方法对要进行map的每行数据,使用StringTokenizer类进行分割,分割出来的值在保存到context中进行,从而在reduce中进行单词数量统计。
[java]  view plain copy
  1. job.setReducerClass(IntSumReducer.class);  
这行语句设置用于进行Reduce的类,告诉Hadoop集群执行哪个reduce函数:
[java]  view plain copy
  1. public void reduce(Text key, Iterable<IntWritable> values,   
  2.                       Context context  
  3.                       ) throws IOException, InterruptedException {  
  4.      int sum = 0;  
  5.      for (IntWritable val : values) {  
  6.        sum += val.get();  
  7.      }  
  8.      result.set(sum);  
  9.      context.write(key, result);  
  10.    }  
在这个函数执行之前,Hadoop已经为我们将各个单词的个数大概的归并在一起了,函数的前两个参数是Text 类型和Iterable类型,参数名分别为key和alues,其中在这里key表示在map方法中分割得到的单词,values表示在map阶段统计的单词的数量(由于reduce阶段接收到多个数据结点发送过来的统计结果,所以对应于一个key,可能有多个value,所以将这些value都保存在一迭代器中,然后对迭代器进行遍历,这个过程以后再讨论。),遍历values迭代器,对每个key的数量进行汇总,然后再记录在context中。
[java]  view plain copy
  1. job.setOutputKeyClass(Text.class);  
  2. job.setOutputValueClass(IntWritable.class);  
表示MapReduce执行结束之后,将结果保存在HDFS中时,保存的数据类型。这里将结果的key以Text类型保存,value以IntWritable类型保存。
[java]  view plain copy
  1. FileInputFormat.addInputPath(job, new Path(otherArgs[0]));  
  2. FileOutputFormat.setOutputPath(job, new Path(otherArgs[1]));  
分别表示输入和输出的路径。

这个程序相对于Hadoop的例子,我去掉了
[java]  view plain copy
  1. job.setCombinerClass(IntSumReducer.class);  
这行语句,在Hadoop中,Combiner主要用于提升Hadoop的处理效率,为了集中于理解MapReduce,我去掉了这行代码,待以后讨论提升Hadoop性能时,再学习Combiner。
原文地址: 点击打开链接

这篇关于Hadoop入门实践之从WordCount程序说起的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/944443

相关文章

Spring Security 从入门到进阶系列教程

Spring Security 入门系列 《保护 Web 应用的安全》 《Spring-Security-入门(一):登录与退出》 《Spring-Security-入门(二):基于数据库验证》 《Spring-Security-入门(三):密码加密》 《Spring-Security-入门(四):自定义-Filter》 《Spring-Security-入门(五):在 Sprin

基于MySQL Binlog的Elasticsearch数据同步实践

一、为什么要做 随着马蜂窝的逐渐发展,我们的业务数据越来越多,单纯使用 MySQL 已经不能满足我们的数据查询需求,例如对于商品、订单等数据的多维度检索。 使用 Elasticsearch 存储业务数据可以很好的解决我们业务中的搜索需求。而数据进行异构存储后,随之而来的就是数据同步的问题。 二、现有方法及问题 对于数据同步,我们目前的解决方案是建立数据中间表。把需要检索的业务数据,统一放到一张M

Hadoop企业开发案例调优场景

需求 (1)需求:从1G数据中,统计每个单词出现次数。服务器3台,每台配置4G内存,4核CPU,4线程。 (2)需求分析: 1G / 128m = 8个MapTask;1个ReduceTask;1个mrAppMaster 平均每个节点运行10个 / 3台 ≈ 3个任务(4    3    3) HDFS参数调优 (1)修改:hadoop-env.sh export HDFS_NAMENOD

Hadoop集群数据均衡之磁盘间数据均衡

生产环境,由于硬盘空间不足,往往需要增加一块硬盘。刚加载的硬盘没有数据时,可以执行磁盘数据均衡命令。(Hadoop3.x新特性) plan后面带的节点的名字必须是已经存在的,并且是需要均衡的节点。 如果节点不存在,会报如下错误: 如果节点只有一个硬盘的话,不会创建均衡计划: (1)生成均衡计划 hdfs diskbalancer -plan hadoop102 (2)执行均衡计划 hd

hadoop开启回收站配置

开启回收站功能,可以将删除的文件在不超时的情况下,恢复原数据,起到防止误删除、备份等作用。 开启回收站功能参数说明 (1)默认值fs.trash.interval = 0,0表示禁用回收站;其他值表示设置文件的存活时间。 (2)默认值fs.trash.checkpoint.interval = 0,检查回收站的间隔时间。如果该值为0,则该值设置和fs.trash.interval的参数值相等。

Hadoop数据压缩使用介绍

一、压缩原则 (1)运算密集型的Job,少用压缩 (2)IO密集型的Job,多用压缩 二、压缩算法比较 三、压缩位置选择 四、压缩参数配置 1)为了支持多种压缩/解压缩算法,Hadoop引入了编码/解码器 2)要在Hadoop中启用压缩,可以配置如下参数

JAVA智听未来一站式有声阅读平台听书系统小程序源码

智听未来,一站式有声阅读平台听书系统 🌟&nbsp;开篇:遇见未来,从“智听”开始 在这个快节奏的时代,你是否渴望在忙碌的间隙,找到一片属于自己的宁静角落?是否梦想着能随时随地,沉浸在知识的海洋,或是故事的奇幻世界里?今天,就让我带你一起探索“智听未来”——这一站式有声阅读平台听书系统,它正悄悄改变着我们的阅读方式,让未来触手可及! 📚&nbsp;第一站:海量资源,应有尽有 走进“智听

数论入门整理(updating)

一、gcd lcm 基础中的基础,一般用来处理计算第一步什么的,分数化简之类。 LL gcd(LL a, LL b) { return b ? gcd(b, a % b) : a; } <pre name="code" class="cpp">LL lcm(LL a, LL b){LL c = gcd(a, b);return a / c * b;} 例题:

Java 创建图形用户界面(GUI)入门指南(Swing库 JFrame 类)概述

概述 基本概念 Java Swing 的架构 Java Swing 是一个为 Java 设计的 GUI 工具包,是 JAVA 基础类的一部分,基于 Java AWT 构建,提供了一系列轻量级、可定制的图形用户界面(GUI)组件。 与 AWT 相比,Swing 提供了许多比 AWT 更好的屏幕显示元素,更加灵活和可定制,具有更好的跨平台性能。 组件和容器 Java Swing 提供了许多

【IPV6从入门到起飞】5-1 IPV6+Home Assistant(搭建基本环境)

【IPV6从入门到起飞】5-1 IPV6+Home Assistant #搭建基本环境 1 背景2 docker下载 hass3 创建容器4 浏览器访问 hass5 手机APP远程访问hass6 更多玩法 1 背景 既然电脑可以IPV6入站,手机流量可以访问IPV6网络的服务,为什么不在电脑搭建Home Assistant(hass),来控制你的设备呢?@智能家居 @万物互联