Spark1.0.2 Standalone 模式部署

2024-06-07 16:08

本文主要是介绍Spark1.0.2 Standalone 模式部署,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

节点说明

IP用户名主机名角色
10.6.2.109hadoopclientSpark客户端
10.6.2.111hadoopmasterHDFS(NameNode,SecondNameNode);Spark(Master,Worker)
10.6.2.112hadoopworker1HDFS(DataNode);Spark(Worker)
10.6.2.113hadoopworker2HDFS(DataNode);Spark(Worker)

节点说明:在10.6.2.111,10.6.2.112,10.6.2.113节点上应经搭建了hadoop-2.2.0完全分布式集群,具体教程见64位Centos6.5 Hadoop2.2.0 完全分布安装教程

1. Spark1.0.2 Standalone安装

1.1 下载安装包

这里写图片描述
从Spark官网上下载如图所示编译好的Spark安装包spark-1.0.2-bin-hadoop.tgz
注意:部署这个安装包的前提是已经安装好hadoop-2.2.0,否则会出现兼容问题

1.2 解压安装包

注意:以下操作均在10.6.2.111节点上
在当前用户目录下创建两个文件夹softwares和tar_package,将spark-1.0.2-bin-hadoop.tgz放置在 tar_package目录下,并解压到softwares目录下

cd ~/tar_package
tar -zxvf spark-1.0.2-bin-hadoop.tgz -C ~/softwares

进入softwares文件夹可以看到解压后的文件夹spark-1.0.2-bin-hadoop,将spark-1.0.2-bin-hadoop重命名为spark-1.0.2

mv spark-1.0.2-bin-hadoop spark-1.0.2

1.3 配置

所需修改的配置文件除了spark-env.sh文件以外,还有slave文件,都位于conf目录中。

cd ~/softwares/spark-1.0.2/conf/
vim slaves

添加下图所示内容,保存并退出
这里写图片描述

cp spark-env.sh.template spark-env.sh
vim spark-env.sh

添加如下内容,保存并退出

export SPARK_MASTER_IP=master
export SPARK_MASTER_PORT=7077
export SPARK_WORKER_CORE=3
export SPARK_WORKER_INSTANCES=1
export SPARK_WORKER_MEMORY=3g

注释:

  • SPARK_MASTER_PORT:Master服务端口,默认为7077
  • SPARK_WORKER_CORES:每个Worker进程所需要的CPU核的数目
  • SPARK_WORKER_INSTANCES:每个Worker节点上运行Worker进程的数目
  • SPARK_WORKER_MEMORY:每个Worker进程所需要的内存大小

将配置好的Spark文件拷贝至每个Spark集群的节点上的相同路径中

scp  -r  /home/hadoop/softwares  hadoop@worker1:/home/hadoop/
scp  -r  /home/hadoop/softwares  hadoop@worker2:/home/hadoop/
scp  -r  /home/hadoop/softwares  hadoop@client:/home/hadoop/

为方便使用spark-shell,可以在环境变量中配置上SPARK_HOME
回到用户当前目录下,编辑.bash_profile文件

cd 
vim .bash_profile

添加如下内容,保存并退出

export SPARK_HOME=/home/hadoop/softwares/spark-1.0.2
export PATH=$PATH:$SPARK_HOME/bin

然后source一下

source .bash_profile

注意:在每个节点上都要设置.bash_profile文件

1.4 启动

在10.6.2.111节点上启动spark standalone集群

cd ~/softwares/spark-1.0.2/sbin
ls
./start-all.sh
jps

可以看到一个Jps进程,一个Master进程,一个Worker进程
在10.6.2.112上输入jps看到一个Jps进程,一个Worker进程
在10.6.2.113上输入jps看到一个Jps进程,一个Worker进程


在10.6.2.111节点上,通过浏览器访问http://master:8080可以监控spark Standalone集群
这里写图片描述

2. Spark1.0.2 Standalone HA的实现

Spark Standalone集群是Master-Slaves架构的集群模式,和大部分的Master-Slaves结构集群一样,存在着Master单点故障的问题。如何解决这个单点故障的问题,Spark提供了两种方案:

  • 基于文件系统的单点恢复
  • 基于zookeeper的Standby Masters

基于文件系统的单点恢复主要用于开发或测试环境下。基于zookeeper的Standby Masters用于生产模式下。本文档采用 基于zookeeper的Standby Masters。

2.1 安装zookeeper

2.1.1 下载安装包

zookeeper-3.4.6下载地址

2.1.2 解压安装包

注意:以下操作均在10.6.2.111节点上
将zookeeper-3.4.6.tar.gz放置在 tar_package目录下,并解压到softwares目录下

cd ~/tar_package
tar -zxvf zookeeper-3.4.6.tar.gz -C ~/softwares

2.1.3 配置

cd ~/softwares/zookeeper-3.4.6/conf
ls
cp zoo_sample.cfg zoo.cfg
vim zoo.cfg

添加如下内容,保存并退出

dataDir=/home/hadoop/softwares/zookeeper-3.4.6/data
dataLogDir=/home/hadoop/softwares/zookeeper-3.4.6/datalog
server.1=master:2888:3888
server.2=worker1:2888:3888
server.3=worker2:2888:3888

然后回到zookeeper-3.4.6目录下进行操作

cd ..
mkdir data
mkdir datalog
echo 1 > data/myid

将配置好的zookeeper文件拷贝至每个集群每个节点上的相同路径中并修改每个节点的myid

scp  -r  /home/hadoop/softwares/zookeeper-3.4.6  hadoop@worker1:/home/hadoop/softwares
scp  -r  /home/hadoop/softwares/zookeeper-3.4.6  hadoop@worker2:/home/hadoop/softwares

在10.6.2.112节点上,在用户当前目录下

cd ~/softwares/zookeeper-3.4.6/
echo 2 > data/myid

在10.6.2.113节点上,在用户当前目录下

cd ~/softwares/zookeeper-3.4.6/
echo 3 > data/myid

2.1.4 启动zookeeper

在10.6.2.111节点上,在用户当前目录下

cd ~/softwares/zookeeper-3.4.6/bin
./zkServer.sh start

在10.6.2.112,10.6.2.113进行同样的操作启动zookeeper。
启动完成后,在每个节点上jps可以看到 QuorumPeerMain进程。

2.2 重新配置spark-env.sh文件

注意:以下操作均在10.6.2.111节点上

cd ~/softwares/spark-1.0.2/sbin/
./stop-all.sh
cd ~/softwares/spark-1.0.2/conf/
vim spark-env.sh

添加如下内容,注释掉export SPARK_MASTER_IP=master export SPARK_MASTER_PORT=7077这两行,保存并退出

export SPARK_DAEMON_JAVA_OPTS="-Dspark.deploy.recoveryMode=ZOOKEEPER -Dspark.deploy.zookeeper.url=master:2181,worker1:2181    ,worker2:2181 -Dspark.deploy.zookeeper.dir=/spark"

将配置spark-env.sh文件发放给各节点

scp spark-env.sh hadoop@worker1:/home/hadoop/softwares/spark-1.0.2/conf/
scp spark-env.sh hadoop@worker2:/home/hadoop/softwares/spark-1.0.2/conf/

在10.6.2.111节点上启动spark standalone集群

cd ~/softwares/spark-1.0.2/sbin
ls
./start-all.sh

再在10.6.2.112节点上启动Master进程

cd ~/softwares/spark-1.0.2/sbin
ls
./start-master.sh

在10.6.2.111节点上,通过浏览器访问http://master:8080和http://worker1:8080,如下图所示
这里写图片描述
这里写图片描述
10.6.2.111节点上的Master进程的状态是alive,10.6.2.112节点上的Master进程的状态是standby。
一旦10.6.2.111节点上的Master进程关闭,10.6.2.112节点上的Master进程的状态会变成alive。

这篇关于Spark1.0.2 Standalone 模式部署的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1039651

相关文章

JavaWeb项目创建、部署、连接数据库保姆级教程(tomcat)

《JavaWeb项目创建、部署、连接数据库保姆级教程(tomcat)》:本文主要介绍如何在IntelliJIDEA2020.1中创建和部署一个JavaWeb项目,包括创建项目、配置Tomcat服务... 目录简介:一、创建项目二、tomcat部署1、将tomcat解压在一个自己找得到路径2、在idea中添加

Go语言实现桥接模式

《Go语言实现桥接模式》桥接模式是一种结构型设计模式,它将抽象部分与实现部分分离,使它们可以独立地变化,本文就来介绍一下了Go语言实现桥接模式,感兴趣的可以了解一下... 目录简介核心概念为什么使用桥接模式?应用场景案例分析步骤一:定义实现接口步骤二:创建具体实现类步骤三:定义抽象类步骤四:创建扩展抽象类步

Python + Streamlit项目部署方案超详细教程(非Docker版)

《Python+Streamlit项目部署方案超详细教程(非Docker版)》Streamlit是一款强大的Python框架,专为机器学习及数据可视化打造,:本文主要介绍Python+St... 目录一、针对 Alibaba Cloud linux/Centos 系统的完整部署方案1. 服务器基础配置(阿里

C++中的解释器模式实例详解

《C++中的解释器模式实例详解》这篇文章总结了C++标准库中的算法分类,还介绍了sort和stable_sort的区别,以及remove和erase的结合使用,结合实例代码给大家介绍的非常详细,感兴趣... 目录1、非修改序列算法1.1 find 和 find_if1.2 count 和 count_if1

Redis中群集三种模式的实现

《Redis中群集三种模式的实现》Redis群集有三种模式,分别是主从同步/复制、哨兵模式、Cluster,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面... 目录1. Redis三种模式概述2、Redis 主从复制2.1 主从复制的作用2.2 主从复制流程2

MongoDB搭建过程及单机版部署方法

《MongoDB搭建过程及单机版部署方法》MongoDB是一个灵活、高性能的NoSQL数据库,特别适合快速开发和大规模分布式系统,本文给大家介绍MongoDB搭建过程及单机版部署方法,感兴趣的朋友跟随... 目录前言1️⃣ 核心特点1、文档存储2、无模式(Schema-less)3、高性能4、水平扩展(Sh

深入理解MySQL流模式

《深入理解MySQL流模式》MySQL的Binlog流模式是一种实时读取二进制日志的技术,允许下游系统几乎无延迟地获取数据库变更事件,适用于需要极低延迟复制的场景,感兴趣的可以了解一下... 目录核心概念一句话总结1. 背景知识:什么是 Binlog?2. 传统方式 vs. 流模式传统文件方式 (非流式)流

Docker + Redis 部署集群的实现步骤

《Docker+Redis部署集群的实现步骤》本文详细介绍了在三台服务器上部署高可用Redis集群的完整流程,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋... 目录一、环境准备1. 服务器规划(3 台服务器)2. 防火墙配置(三台服务器均执行)3. 安装 docke

Nginx分布式部署流程分析

《Nginx分布式部署流程分析》文章介绍Nginx在分布式部署中的反向代理和负载均衡作用,用于分发请求、减轻服务器压力及解决session共享问题,涵盖配置方法、策略及Java项目应用,并提及分布式事... 目录分布式部署NginxJava中的代理代理分为正向代理和反向代理正向代理反向代理Nginx应用场景

linux部署NFS和autofs自动挂载实现过程

《linux部署NFS和autofs自动挂载实现过程》文章介绍了NFS(网络文件系统)和Autofs的原理与配置,NFS通过RPC实现跨系统文件共享,需配置/etc/exports和nfs.conf,... 目录(一)NFS1. 什么是NFS2.NFS守护进程3.RPC服务4. 原理5. 部署5.1安装NF