在Mac上配置Hadoop伪分布式娱乐环境

2024-05-14 05:38

本文主要是介绍在Mac上配置Hadoop伪分布式娱乐环境,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

去年我曾发文记录如何在Ubuntu上配置伪分布式版的Hadoop3娱乐环境:https://fuhailin.github.io/Hadoop-Install/ ,通过配置Hadoop娱乐环境你可以熟悉Hadoop的一些基本概念与操作方式,后来我的Dell被我玩坏了,也就没法在Ubuntu上顺畅娱乐了,后来一狠心入手了现在MacBook Pro,希望它能皮实耐操一点。今天我们继续在MacOS配置一个Hadoop、Spark娱乐环境,看看它能不能运行处理一些HelloWorld程序。

原文链接:https://fuhailin.github.io/Hadoop-on-MacOS/,并首发于我的同名公众号"赵大寳Note"(ID:StateOfTheArt)

0️⃣安装Java

截至目前(2020年02月28日10:54:46)Apache Hadoop 3.x 只支持到了 Java 8,具体支持信息你可以在这里查看:https://cwiki.apache.org/confluence/display/HADOOP/Hadoop+Java+Versions

Screen Shot 2020-02-28 at 10.55.32 AM

那我就安装jdk8吧,由于Oracle对JAVA的商业政策变化,目前Java8在Homebrew(关于Homebrew的安装查看我之前的博文:https://fuhailin.github.io/Essential-Apps/#Homebrew)里面被移除了,需要寻找开源版本的openjdk:

brew tap homebrew/cask-versions
brew cask install homebrew/cask-versions/adoptopenjdk8
java -version

Screen Shot 2020-02-28 at 9.33.40 AM

1️⃣安装Hadoop

我尝试了通过Homebrew安装Hadoop,但是它在自动安装时总是下载最新版本的jdk13,于是我就直接在官网(https://hadoop.apache.org/releases.html)下载编译好的二进制版Hadoop进行配置。这一步骤与我之前在Ubuntu配置(https://fuhailin.github.io/Hadoop-Install/)情况相同,Binary版本是编译好的二进制版本,可以直接解压安装,我将其解压在了/Users/vincent/opt/hadoop/;另一个包含 src 的则是 Hadoop 源代码,需要进行编译才可使用。

进入解压后的文件目录,测试一下是否正常:./bin/hadoop version

Screen Shot 2020-02-28 at 11.11.43 AM

可以看到打印了版本信息。

关注我的公众号"赵大寳Note"(ID:StateOfTheArt),不定期分享编程相关的有趣内容,查看往期精品搜集收藏一起学习。
关注公众号趙大寳Note,回复“激活函数”下载全部代码

2️⃣配置SSH免密登录

cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys

对于Mac系统,需要在计算机系统设置中打开远程登录许可。

3️⃣伪分布式配置

Hadoop 可以在单节点上以伪分布式的方式运行,Hadoop 进程以分离的 Java 进程来运行,节点既作为 NameNode 也作为 DataNode,同时,读取的是 HDFS 中的文件。

Hadoop 的配置文件位于 ./etc/hadoop/ 中,伪分布式需要修改2个配置文件 core-site.xml 和 hdfs-site.xml 。Hadoop的配置文件是 xml 格式,每个配置以声明 property 的 name 和 value 的方式来实现。

输入/usr/libexec/java_home可以查看JAVA_HOME路径。

  1. JAVA_HOME的路径、HADOOP_HOMEHADOOP_CONF_DIR添加到hadoop-env.sh文件,修改vim ./etc/hadoop/hadoop-env.sh:

Screen Shot 2020-02-28 at 11.22.34 AM

  1. 修改配置文件 ./etc/hadoop/core-site.xml:
<configuration><property><name>hadoop.tmp.dir</name><value>/Users/vincent/opt/hadoop/hadoop-3.1.3/tmp</value><description>Abase for other temporary directories.</description></property><property><name>fs.defaultFS</name><value>hdfs://localhost:9000</value></property>
</configuration>
  1. 修改配置文件 ./etc/hadoop/hdfs-site.xml
<configuration><property><name>dfs.replication</name><value>1</value></property><property><name>dfs.namenode.name.dir</name><value>/Users/vincent/opt/hadoop/hadoop-3.1.3/tmp/dfs/name</value></property><property><name>dfs.datanode.data.dir</name><value>/Users/vincent/opt/hadoop/hadoop-3.1.3/tmp/dfs/data</value></property>
</configuration>

4️⃣启动与停止Hadoop

第一次启动hdfs需要格式化./bin/hdfs namenode -format

Screen Shot 2020-02-28 at 10.41.18 AM

启动Hadoop./sbin/start-dfs.sh

启动完成后,可以通过命令 jps 来判断是否成功启动,若成功启动则会列出如下进程: “NameNode”、”DataNode” 和 “SecondaryNameNode”

Screen Shot 2020-02-28 at 10.42.51 AM

成功启动后,可以访问 HDFS的Web 界面 http://localhost:9870 查看 NameNode 和 Datanode 信息,还可以在线查看 HDFS 中的文件。

Screen Shot 2020-02-28 at 10.49.38 AM

停止Hadoop./sbin/stop-dfs.sh

5️⃣配置Hadoop环境变量简化命令

给hadoop配置系统环境变量,将下面代码添加到~/.bash_profile文件:

# HADOOP CONFIG
export HADOOP_HOME=/Users/vincent/opt/hadoop/hadoop-3.1.3
export CLASSPATH=$($HADOOP_HOME/bin/hadoop classpath):$CLASSPATH
export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/native
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin

执行source ~./bash_profile使设置生效

6️⃣运行Hadoop伪分布式实例

由于前面已经配置了Hadoop的环境变量,Hadoop和HDFS的命令已经包含在了系统当中,HDFS有三种shell命令方式:

  • hadoop fs : 适用于任何不同的文件系统,比如本地文件系统和HDFS文件系统
  • hadoop dfs : 只能适用于HDFS文件系统
  • hdfs dfs : 跟hadoop dfs的命令作用一样,也只能适用于HDFS文件系统

估计圆周率PI的值:

cd $HADOOP_HOME
hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-3.1.3.jar pi 2 5

运行结果如下:

Job Finished in 1.441 seconds
Estimated value of Pi is 3.60000000000000000000

计算wordcount:

  • 创建input目录和output目录
    input作为输入目录,output目录作为输出目录
cd $HADOOP_HOME
mkdir input 
mkdir output
  • 在input文件夹中创建两个测试文件file1.txt和file2.txt
cd input
echo 'hello world' > file1.txt
echo 'hello hadoop' > file2.txt
  • 把测试input文件上传到hdfs中
hadoop fs -put ./input input

复制完成后,可以通过如下命令查看HDFS文件列表:

hdfs dfs -ls input

运行wordcount

hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-3.1.3.jar wordcount ./input ./output

查看output的结果文件

hadoop fs -tail output/part-r-00000

得到的结果是:

  • hadoop 1
  • hello 2
  • world 1

伪分布式运行 MapReduce 作业的方式跟单机模式相同,区别在于伪分布式读取的是HDFS中的文件(可以将单机步骤中创建的本地 input 文件夹,输出结果 output 文件夹都删掉来验证这一点)。

hadoop jar ./share/hadoop/mapreduce/hadoop-mapreduce-examples-*.jar grep input output 'dfs[a-z.]+'

查看运行结果的命令(查看的是位于 HDFS 中的输出结果):

hdfs dfs -cat output/*

结果如下,注意到刚才我们已经更改了配置文件,所以运行结果不同。

我们也可以将运行结果取回到本地:

rm -r ./output    # 先删除本地的 output 文件夹(如果存在)
hdfs dfs -get output ./output     # 将 HDFS 上的 output 文件夹拷贝到本机
cat ./output/*

Hadoop 运行程序时,输出目录不能存在,否则会提示错误 “org.apache.hadoop.mapred.FileAlreadyExistsException: Output directory hdfs://localhost:9000/user/hadoop/output already exists” ,因此若要再次执行,需要执行如下命令删除 output 文件夹:

hdfs dfs -rm -r output    # 删除 output 文件夹

若要关闭 Hadoop,则运行
./sbin/stop-dfs.sh
下次启动 hadoop 时,无需进行 NameNode 的初始化,只需要运行 ./sbin/start-dfs.sh 就可以!

References:

  1. Hadoop安装教程_单机/伪分布式配置_Hadoop2.6.0/Ubuntu14.04

  2. Ubuntu16.04 下 hadoop的安装与配置(伪分布式环境)

  3. Install a Hadoop Cluster on Ubuntu 18.04.1

  4. Installing Hadoop on Mac:https://medium.com/beeranddiapers/installing-hadoop-on-mac-a9a3649dbc4d

  5. Ubuntu18.04下Hadoop 3的安装与配置(伪分布式环境):https://fuhailin.github.io/Hadoop-Install/

这篇关于在Mac上配置Hadoop伪分布式娱乐环境的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/987898

相关文章

SpringBoot+MyBatis-Flex配置ProxySQL的实现步骤

《SpringBoot+MyBatis-Flex配置ProxySQL的实现步骤》本文主要介绍了SpringBoot+MyBatis-Flex配置ProxySQL的实现步骤,文中通过示例代码介绍的非常详... 目录 目标 步骤 1:确保 ProxySQL 和 mysql 主从同步已正确配置ProxySQL 的

Spring Boot整合log4j2日志配置的详细教程

《SpringBoot整合log4j2日志配置的详细教程》:本文主要介绍SpringBoot项目中整合Log4j2日志框架的步骤和配置,包括常用日志框架的比较、配置参数介绍、Log4j2配置详解... 目录前言一、常用日志框架二、配置参数介绍1. 日志级别2. 输出形式3. 日志格式3.1 PatternL

配置springboot项目动静分离打包分离lib方式

《配置springboot项目动静分离打包分离lib方式》本文介绍了如何将SpringBoot工程中的静态资源和配置文件分离出来,以减少jar包大小,方便修改配置文件,通过在jar包同级目录创建co... 目录前言1、分离配置文件原理2、pom文件配置3、使用package命令打包4、总结前言默认情况下,

在Mysql环境下对数据进行增删改查的操作方法

《在Mysql环境下对数据进行增删改查的操作方法》本文介绍了在MySQL环境下对数据进行增删改查的基本操作,包括插入数据、修改数据、删除数据、数据查询(基本查询、连接查询、聚合函数查询、子查询)等,并... 目录一、插入数据:二、修改数据:三、删除数据:1、delete from 表名;2、truncate

C++实现获取本机MAC地址与IP地址

《C++实现获取本机MAC地址与IP地址》这篇文章主要为大家详细介绍了C++实现获取本机MAC地址与IP地址的两种方式,文中的示例代码讲解详细,感兴趣的小伙伴可以跟随小编一起学习一下... 实际工作中,项目上常常需要获取本机的IP地址和MAC地址,在此使用两种方案获取1.MFC中获取IP和MAC地址获取

C/C++通过IP获取局域网网卡MAC地址

《C/C++通过IP获取局域网网卡MAC地址》这篇文章主要为大家详细介绍了C++如何通过Win32API函数SendARP从IP地址获取局域网内网卡的MAC地址,感兴趣的小伙伴可以跟随小编一起学习一下... C/C++通过IP获取局域网网卡MAC地址通过win32 SendARP获取MAC地址代码#i

VScode连接远程Linux服务器环境配置图文教程

《VScode连接远程Linux服务器环境配置图文教程》:本文主要介绍如何安装和配置VSCode,包括安装步骤、环境配置(如汉化包、远程SSH连接)、语言包安装(如C/C++插件)等,文中给出了详... 目录一、安装vscode二、环境配置1.中文汉化包2.安装remote-ssh,用于远程连接2.1安装2

Redis多种内存淘汰策略及配置技巧分享

《Redis多种内存淘汰策略及配置技巧分享》本文介绍了Redis内存满时的淘汰机制,包括内存淘汰机制的概念,Redis提供的8种淘汰策略(如noeviction、volatile-lru等)及其适用场... 目录前言一、什么是 Redis 的内存淘汰机制?二、Redis 内存淘汰策略1. pythonnoe

windos server2022的配置故障转移服务的图文教程

《windosserver2022的配置故障转移服务的图文教程》本文主要介绍了windosserver2022的配置故障转移服务的图文教程,以确保服务和应用程序的连续性和可用性,文中通过图文介绍的非... 目录准备环境:步骤故障转移群集是 Windows Server 2022 中提供的一种功能,用于在多个

windos server2022里的DFS配置的实现

《windosserver2022里的DFS配置的实现》DFS是WindowsServer操作系统提供的一种功能,用于在多台服务器上集中管理共享文件夹和文件的分布式存储解决方案,本文就来介绍一下wi... 目录什么是DFS?优势:应用场景:DFS配置步骤什么是DFS?DFS指的是分布式文件系统(Distr