Hadoop 自带WordCount 操作步骤

2024-06-15 01:38

本文主要是介绍Hadoop 自带WordCount 操作步骤,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

运行一个wordcount 任务的命令:bin/hadoop jar /usr/hddemo/wordcount.jar 包名.WordCount input output


说明:input 指定的是执行map任务是的数据源所在目录,output 是指定reduce任务 执行完后将结果输出的目录


data在配置文件配完后是不需要见这个目录的
name目录是 执行 hadoop namenode -format 才会生成的目录,也不是我们手动建的;


countworld的基本流程


在linux一个input目录下见两个文件
echo "Hello world Hello me! cwq solo"  >test1.txt
echo " Hello world Hello you! solo"  >test2.txt


hadoop fs -put /input/ /input


bin/hadoop jar /usr/hddemo/wordcount.jar 包名.WordCount input output
2.6以后的版本不用指定类名
bin/hadoop jar /usr/hddemo/wordcount.jar input output


Hadoop自带的运行 wordcount 例子的 jar 包在
/share/hadoop/mapreduce/hadoop-mapreduce-example.jar
用这个包要这样写


hadoop jar /home/yanzefeng/apps/hadoop-2.6.4/share/hadoop/mapreduce/hadoop-mapr

这篇关于Hadoop 自带WordCount 操作步骤的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1062069

相关文章

如何给文档设置密码?电脑文件安全加密的详细操作步骤(10种方法)

在数字化时代,电脑文件的安全和隐私至关重要。通过给电脑的文件或者文件夹设置密码和加密,可以有效保护你的重要文件不被未经授权的人员访问,特别是公司的重要岗位,一些特殊的机密文件,投标文件,资金文件等等,更应该注重文件日常使用安全性。下面将为你介绍10种电脑文件,文件夹加密的详细操作步骤,帮助你更好地保护你的电脑文件安全。 加密方式一、Windows系统内置加密(电脑自带的文件加密) 选中需要

Hadoop简介_Hadoop集群_Hadoop安装配置

Hadoop集群(第5期)_Hadoop安装配置   1、集群部署介绍   1.1 Hadoop简介     Hadoop是Apache软件基金会旗下的一个开源分布式计算平台。以Hadoop分布式文件系统(HDFS,Hadoop Distributed Filesystem)和MapReduce(Google MapReduce的开源实现)为核心的Hadoop为用户提供了系统底层细节透

转:Hadoop学习与安装

学习目标: 使用Hadoop分布式系统(HDFS)来海量存储数据集,通过MapReduce堆这些数据集运行分布式计算 熟悉Hadoop的数据和IO组件,用于压缩、数据集成、序列化和持久处理 熟悉编写MapReduce实际应用时的常见陷阱和高级特性 设计、勾践和管理一个专用的Hadoop集群或在云上运行Hadoop 使用高级查询语言Pig来处理大规模

在Linux(CentOS6.2)服务器上配置hadoop时遇到的一些问题以及一些解决办法

配置Hadoop时,注意,修改了配置文件后要先停止(stop-all.sh)后再开始运行(start-all.sh),如果不这样,当你在master时就会出现找不到某些datanode的情况,执行hadoop dfsadmin -report时datanode节点的信息状态就不会被发现(记住每个都要启动包括master和slave),这些命令在/usr/hadoop/bin下面,可以通过cd /u

删除CentOS 7自带的OpenJDK 和 安装Sun的JDK1.8

系统有时候会默认使用OpenJDK版本,需要卸载后,重新安装自己需要的JDK版本  查询OpenJDK,发现有两个openJDK版本          删除openJDK版本          再次查询openJDK版本,发现已被删除          官网上下载1.8版本的tar包,并解压值usr/java路径下(路径可自定义)          进入

【Hadoop学习笔记】认识Hadoop

认识Hadoop 从网上找的课程做的笔记,有些图是自己理解画的,可能不正确,可以作为参考,有疑问的地方请直接指出,共同交流。 Hadoop是由Apache基金会开发的一个分布式系统基础架构,主要解决海量数据的存储和海量数据的分析计算问题。 Hadoop发展历史 创始人:Doug Cutting 开发原由:实现与Google类似的全文搜索功能,在Lucene框架基础上进行优化升级,查

从工具产品体验对比spark、hadoop、flink

作为一名大数据开发,从工具产品的角度,对比一下大数据工具最常使用的框架spark、hadoop和flink。工具无关好坏,但人的喜欢有偏好。 目录 评价标准1 效率2 用户体验分析从用户的维度来看从市场的维度来看从产品的维度来看 3 用户体验的基本原则成本和产出是否成正比操作是否“人性化” 4. 功能性与用户体验评估总而言之 大数据框架评估用户视角效率示例代码Spark:计算Pi的近似值F

Hadoop archive

Index of /dist/hadoop/commonhttps://archive.apache.org/dist/hadoop/common/

转--Hadoop集群部署案例

模块简介 本模块主要练习Hadoop集群部署。 模块知识 ● 使用Linux基础命令 ● Hadoop集群搭建部署知识 环境准备 三台CentOS7操作系统的虚拟机 可以是3个Docker容器,也可以是三个VMWare/VirtualBox的虚拟机。三台虚拟机的最低配置为1核1G + 20G。如果是虚拟机中的Docker容器环境,则无需按照以下方式配置主机名和IP。若是按照《[选修]基于

高性能并行计算华为云实验二:WordCount算法实验

目录 一、实验目的 二、实验说明 三、实验过程 3.1 创建wordcount源码 3.1.1 实验说明 3.1.2 文件创建 3.2 Makefile文件创建与编译 3.3 主机配置文件建立与运行监测 3.3.1 主机配置文件建立 3.3.2 运行监测 三、实验结果与分析 4.1 实验结果 4.2 结果分析 4.2.1 原始结果分析 4.2.2 改进后的结果分析