Spark1.0.2 Standalone 模式部署

2024-06-07 16:08

本文主要是介绍Spark1.0.2 Standalone 模式部署,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

节点说明

IP用户名主机名角色
10.6.2.109hadoopclientSpark客户端
10.6.2.111hadoopmasterHDFS(NameNode,SecondNameNode);Spark(Master,Worker)
10.6.2.112hadoopworker1HDFS(DataNode);Spark(Worker)
10.6.2.113hadoopworker2HDFS(DataNode);Spark(Worker)

节点说明:在10.6.2.111,10.6.2.112,10.6.2.113节点上应经搭建了hadoop-2.2.0完全分布式集群,具体教程见64位Centos6.5 Hadoop2.2.0 完全分布安装教程

1. Spark1.0.2 Standalone安装

1.1 下载安装包

这里写图片描述
从Spark官网上下载如图所示编译好的Spark安装包spark-1.0.2-bin-hadoop.tgz
注意:部署这个安装包的前提是已经安装好hadoop-2.2.0,否则会出现兼容问题

1.2 解压安装包

注意:以下操作均在10.6.2.111节点上
在当前用户目录下创建两个文件夹softwares和tar_package,将spark-1.0.2-bin-hadoop.tgz放置在 tar_package目录下,并解压到softwares目录下

cd ~/tar_package
tar -zxvf spark-1.0.2-bin-hadoop.tgz -C ~/softwares

进入softwares文件夹可以看到解压后的文件夹spark-1.0.2-bin-hadoop,将spark-1.0.2-bin-hadoop重命名为spark-1.0.2

mv spark-1.0.2-bin-hadoop spark-1.0.2

1.3 配置

所需修改的配置文件除了spark-env.sh文件以外,还有slave文件,都位于conf目录中。

cd ~/softwares/spark-1.0.2/conf/
vim slaves

添加下图所示内容,保存并退出
这里写图片描述

cp spark-env.sh.template spark-env.sh
vim spark-env.sh

添加如下内容,保存并退出

export SPARK_MASTER_IP=master
export SPARK_MASTER_PORT=7077
export SPARK_WORKER_CORE=3
export SPARK_WORKER_INSTANCES=1
export SPARK_WORKER_MEMORY=3g

注释:

  • SPARK_MASTER_PORT:Master服务端口,默认为7077
  • SPARK_WORKER_CORES:每个Worker进程所需要的CPU核的数目
  • SPARK_WORKER_INSTANCES:每个Worker节点上运行Worker进程的数目
  • SPARK_WORKER_MEMORY:每个Worker进程所需要的内存大小

将配置好的Spark文件拷贝至每个Spark集群的节点上的相同路径中

scp  -r  /home/hadoop/softwares  hadoop@worker1:/home/hadoop/
scp  -r  /home/hadoop/softwares  hadoop@worker2:/home/hadoop/
scp  -r  /home/hadoop/softwares  hadoop@client:/home/hadoop/

为方便使用spark-shell,可以在环境变量中配置上SPARK_HOME
回到用户当前目录下,编辑.bash_profile文件

cd 
vim .bash_profile

添加如下内容,保存并退出

export SPARK_HOME=/home/hadoop/softwares/spark-1.0.2
export PATH=$PATH:$SPARK_HOME/bin

然后source一下

source .bash_profile

注意:在每个节点上都要设置.bash_profile文件

1.4 启动

在10.6.2.111节点上启动spark standalone集群

cd ~/softwares/spark-1.0.2/sbin
ls
./start-all.sh
jps

可以看到一个Jps进程,一个Master进程,一个Worker进程
在10.6.2.112上输入jps看到一个Jps进程,一个Worker进程
在10.6.2.113上输入jps看到一个Jps进程,一个Worker进程


在10.6.2.111节点上,通过浏览器访问http://master:8080可以监控spark Standalone集群
这里写图片描述

2. Spark1.0.2 Standalone HA的实现

Spark Standalone集群是Master-Slaves架构的集群模式,和大部分的Master-Slaves结构集群一样,存在着Master单点故障的问题。如何解决这个单点故障的问题,Spark提供了两种方案:

  • 基于文件系统的单点恢复
  • 基于zookeeper的Standby Masters

基于文件系统的单点恢复主要用于开发或测试环境下。基于zookeeper的Standby Masters用于生产模式下。本文档采用 基于zookeeper的Standby Masters。

2.1 安装zookeeper

2.1.1 下载安装包

zookeeper-3.4.6下载地址

2.1.2 解压安装包

注意:以下操作均在10.6.2.111节点上
将zookeeper-3.4.6.tar.gz放置在 tar_package目录下,并解压到softwares目录下

cd ~/tar_package
tar -zxvf zookeeper-3.4.6.tar.gz -C ~/softwares

2.1.3 配置

cd ~/softwares/zookeeper-3.4.6/conf
ls
cp zoo_sample.cfg zoo.cfg
vim zoo.cfg

添加如下内容,保存并退出

dataDir=/home/hadoop/softwares/zookeeper-3.4.6/data
dataLogDir=/home/hadoop/softwares/zookeeper-3.4.6/datalog
server.1=master:2888:3888
server.2=worker1:2888:3888
server.3=worker2:2888:3888

然后回到zookeeper-3.4.6目录下进行操作

cd ..
mkdir data
mkdir datalog
echo 1 > data/myid

将配置好的zookeeper文件拷贝至每个集群每个节点上的相同路径中并修改每个节点的myid

scp  -r  /home/hadoop/softwares/zookeeper-3.4.6  hadoop@worker1:/home/hadoop/softwares
scp  -r  /home/hadoop/softwares/zookeeper-3.4.6  hadoop@worker2:/home/hadoop/softwares

在10.6.2.112节点上,在用户当前目录下

cd ~/softwares/zookeeper-3.4.6/
echo 2 > data/myid

在10.6.2.113节点上,在用户当前目录下

cd ~/softwares/zookeeper-3.4.6/
echo 3 > data/myid

2.1.4 启动zookeeper

在10.6.2.111节点上,在用户当前目录下

cd ~/softwares/zookeeper-3.4.6/bin
./zkServer.sh start

在10.6.2.112,10.6.2.113进行同样的操作启动zookeeper。
启动完成后,在每个节点上jps可以看到 QuorumPeerMain进程。

2.2 重新配置spark-env.sh文件

注意:以下操作均在10.6.2.111节点上

cd ~/softwares/spark-1.0.2/sbin/
./stop-all.sh
cd ~/softwares/spark-1.0.2/conf/
vim spark-env.sh

添加如下内容,注释掉export SPARK_MASTER_IP=master export SPARK_MASTER_PORT=7077这两行,保存并退出

export SPARK_DAEMON_JAVA_OPTS="-Dspark.deploy.recoveryMode=ZOOKEEPER -Dspark.deploy.zookeeper.url=master:2181,worker1:2181    ,worker2:2181 -Dspark.deploy.zookeeper.dir=/spark"

将配置spark-env.sh文件发放给各节点

scp spark-env.sh hadoop@worker1:/home/hadoop/softwares/spark-1.0.2/conf/
scp spark-env.sh hadoop@worker2:/home/hadoop/softwares/spark-1.0.2/conf/

在10.6.2.111节点上启动spark standalone集群

cd ~/softwares/spark-1.0.2/sbin
ls
./start-all.sh

再在10.6.2.112节点上启动Master进程

cd ~/softwares/spark-1.0.2/sbin
ls
./start-master.sh

在10.6.2.111节点上,通过浏览器访问http://master:8080和http://worker1:8080,如下图所示
这里写图片描述
这里写图片描述
10.6.2.111节点上的Master进程的状态是alive,10.6.2.112节点上的Master进程的状态是standby。
一旦10.6.2.111节点上的Master进程关闭,10.6.2.112节点上的Master进程的状态会变成alive。

这篇关于Spark1.0.2 Standalone 模式部署的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1039651

相关文章

Docker部署Jenkins持续集成(CI)工具的实现

《Docker部署Jenkins持续集成(CI)工具的实现》Jenkins是一个流行的开源自动化工具,广泛应用于持续集成(CI)和持续交付(CD)的环境中,本文介绍了使用Docker部署Jenkins... 目录前言一、准备工作二、设置变量和目录结构三、配置 docker 权限和网络四、启动 Jenkins

SpringBoot中整合RabbitMQ(测试+部署上线最新完整)的过程

《SpringBoot中整合RabbitMQ(测试+部署上线最新完整)的过程》本文详细介绍了如何在虚拟机和宝塔面板中安装RabbitMQ,并使用Java代码实现消息的发送和接收,通过异步通讯,可以优化... 目录一、RabbitMQ安装二、启动RabbitMQ三、javascript编写Java代码1、引入

ElasticSearch+Kibana通过Docker部署到Linux服务器中操作方法

《ElasticSearch+Kibana通过Docker部署到Linux服务器中操作方法》本文介绍了Elasticsearch的基本概念,包括文档和字段、索引和映射,还详细描述了如何通过Docker... 目录1、ElasticSearch概念2、ElasticSearch、Kibana和IK分词器部署

部署Vue项目到服务器后404错误的原因及解决方案

《部署Vue项目到服务器后404错误的原因及解决方案》文章介绍了Vue项目部署步骤以及404错误的解决方案,部署步骤包括构建项目、上传文件、配置Web服务器、重启Nginx和访问域名,404错误通常是... 目录一、vue项目部署步骤二、404错误原因及解决方案错误场景原因分析解决方案一、Vue项目部署步骤

Linux流媒体服务器部署流程

《Linux流媒体服务器部署流程》文章详细介绍了流媒体服务器的部署步骤,包括更新系统、安装依赖组件、编译安装Nginx和RTMP模块、配置Nginx和FFmpeg,以及测试流媒体服务器的搭建... 目录流媒体服务器部署部署安装1.更新系统2.安装依赖组件3.解压4.编译安装(添加RTMP和openssl模块

0基础租个硬件玩deepseek,蓝耘元生代智算云|本地部署DeepSeek R1模型的操作流程

《0基础租个硬件玩deepseek,蓝耘元生代智算云|本地部署DeepSeekR1模型的操作流程》DeepSeekR1模型凭借其强大的自然语言处理能力,在未来具有广阔的应用前景,有望在多个领域发... 目录0基础租个硬件玩deepseek,蓝耘元生代智算云|本地部署DeepSeek R1模型,3步搞定一个应

redis群集简单部署过程

《redis群集简单部署过程》文章介绍了Redis,一个高性能的键值存储系统,其支持多种数据结构和命令,它还讨论了Redis的服务器端架构、数据存储和获取、协议和命令、高可用性方案、缓存机制以及监控和... 目录Redis介绍1. 基本概念2. 服务器端3. 存储和获取数据4. 协议和命令5. 高可用性6.

Deepseek R1模型本地化部署+API接口调用详细教程(释放AI生产力)

《DeepseekR1模型本地化部署+API接口调用详细教程(释放AI生产力)》本文介绍了本地部署DeepSeekR1模型和通过API调用将其集成到VSCode中的过程,作者详细步骤展示了如何下载和... 目录前言一、deepseek R1模型与chatGPT o1系列模型对比二、本地部署步骤1.安装oll

nginx部署https网站的实现步骤(亲测)

《nginx部署https网站的实现步骤(亲测)》本文详细介绍了使用Nginx在保持与http服务兼容的情况下部署HTTPS,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值... 目录步骤 1:安装 Nginx步骤 2:获取 SSL 证书步骤 3:手动配置 Nginx步骤 4:测

Java实现状态模式的示例代码

《Java实现状态模式的示例代码》状态模式是一种行为型设计模式,允许对象根据其内部状态改变行为,本文主要介绍了Java实现状态模式的示例代码,文中通过示例代码介绍的非常详细,需要的朋友们下面随着小编来... 目录一、简介1、定义2、状态模式的结构二、Java实现案例1、电灯开关状态案例2、番茄工作法状态案例