SparkCore(9):Spark应用资源构成和启动配置信息三个位置

本文主要是介绍SparkCore(9):Spark应用资源构成和启动配置信息三个位置,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

一、spark应用资源构成和执行过程

1.资源构成

一个spark应用是由:Driver + Executors组成,其中:
(1)Driver: SparkContext上下文的构建、RDD的构建、RDD的调度
(2)Executor:具体task执行的位置

    备注:一个application 可以包含多个jobs,一个job包含多个stage,一个stage包含多个task

2.各个模块作用

针对spark on yarn:

(1)client模式:
         driver(相当于client去申请): 负责applicationmaster的资源申请和任务调度
         applicationMaster:Executor中的资源申请
         Executor:Task执行
(2)cluster模式:
         dirver(ApplicationMaster): 资源申请和任务调度
         Executor:Task执行

3.具体概念

(1)Job

        由于调用了RDD的action类型的API,所以触发rdd对应的job提交到executors中执行

(2)Stage

        当RDD的DAG图进行提交之前,Driver中的SparkContext中的DAGScheduler会DAG进行划分,形成Stage;
        划分规则:从DAG图的最后往前推,直到遇到一个宽依赖的API,那么就形成一个Stage,继续直到第一个RDD。例如:reduceByKey这个宽依赖
        
        备注:Stage的执行是有依赖关系的,前一个Stage的数据结果是后一个Stage的数据的输入;只有上一个Stage中的所有task都执行完了下一个Stage才会执行
        
(3)Task:是Executor中执行的最小单位。从RDD的分布情况来讲,每个task实质上就是RDD的分区;
        查看RDD的分区:rdd.partitions,然后可以查看length,可以看到rdd的分区数量,就是task数量

scala>  rdd.flatMap(_.split(" ")).map((_,1)).reduceByKey(_+_).partitions
res2: Array[org.apache.spark.Partition] = rray(org.apache.spark.rdd.ShuffledRDDPartition@0)scala> res2.length
res3: Int = 1

二、spark应用配置信息

1. spark-defaults.conf

2. spark-submit脚本参数

    --name 给定job的名称(可以在代码中给定,也可以在这里给定)
    --master:给定运行spark应用的执行位置信息
    --conf:给定配置参数,可以有多个--conf
    --propertise-file:配置信息文件,默认在conf/spark-defaults.conf

例如:

date=`date +"%Y%m%d%H%M"`
/opt/modules/spark-2.1.0-bin-2.7.3/bin/spark-submit \
--master yarn \
--deploy-mode client \
--class _0722rdd.Wordcount_product \
--driver-memory   1G \
--driver-cores 1 \
--executor-memory 1G \
--executor-cores 1 \
--num-executors 1 \
--conf spark.app.coalesce=1 \
/opt/datas/lib/scalaProjectMaven.jar

3.spark代码中通过SparkConf对象指定参数

//1.创建sparkContext上下文
val conf = new SparkConf()
//本地模式,* 会在运行期间检查当前环境下还剩下多少cpu核心,占满
.setMaster("local[*]") //设定运行位置【否则报错!】
.setAppName("idea_start_wc") //设置运行程序名称【否则报错!】

4.优先级:1 < 2 < 3

5.配置参数意义

【参考:http://spark.apache.org/docs/2.1.0/configuration.html#available-properties】

--master:给定运行spark应用的执行位置信息
--deploy-mode:给定driver在哪儿执行client:driver在执行spark-submit的那台机器上运行cluster:driver在集群中任选一台机器运行
--driver-memory MEM:指定driver运行的时候jvm的内存大小,默认1G,一般情况下要求比单个executor的内存要大
--executor-memory MEM:指定单个executor的内存大小,默认1G
--driver-cores NUM: 指定spark on standalone的时候,而且是cluster模式的请看看下,driver运行过程中使用的core数量,默认1
--supervise:当运行环境为standalone/mesos + cluster,如果driver运行失败,会重新自动进行恢复操作,client模式就不会
--total-executor-cores NUM :运行环境为standalone/mesos,给定应用需要的总的core的数目,默认所有
--executor-cores NUM:运行环境为standalon/yarn,给定应用运行过程中,每个executor包含的core数目,默认1个(yarn),默认all(standalone)
--driver-cores NUM:spark on yarn cluster, 给定driver运行需要多少个core,默认1个
--num-executors NUM: 申请多少个executor,默认2,其实这里的executor就是container容器

 

这篇关于SparkCore(9):Spark应用资源构成和启动配置信息三个位置的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/998300

相关文章

Python如何实现PDF隐私信息检测

《Python如何实现PDF隐私信息检测》随着越来越多的个人信息以电子形式存储和传输,确保这些信息的安全至关重要,本文将介绍如何使用Python检测PDF文件中的隐私信息,需要的可以参考下... 目录项目背景技术栈代码解析功能说明运行结php果在当今,数据隐私保护变得尤为重要。随着越来越多的个人信息以电子形

Android里面的Service种类以及启动方式

《Android里面的Service种类以及启动方式》Android中的Service分为前台服务和后台服务,前台服务需要亮身份牌并显示通知,后台服务则有启动方式选择,包括startService和b... 目录一句话总结:一、Service 的两种类型:1. 前台服务(必须亮身份牌)2. 后台服务(偷偷干

SpringBoot+MyBatis-Flex配置ProxySQL的实现步骤

《SpringBoot+MyBatis-Flex配置ProxySQL的实现步骤》本文主要介绍了SpringBoot+MyBatis-Flex配置ProxySQL的实现步骤,文中通过示例代码介绍的非常详... 目录 目标 步骤 1:确保 ProxySQL 和 mysql 主从同步已正确配置ProxySQL 的

Spring Boot整合log4j2日志配置的详细教程

《SpringBoot整合log4j2日志配置的详细教程》:本文主要介绍SpringBoot项目中整合Log4j2日志框架的步骤和配置,包括常用日志框架的比较、配置参数介绍、Log4j2配置详解... 目录前言一、常用日志框架二、配置参数介绍1. 日志级别2. 输出形式3. 日志格式3.1 PatternL

配置springboot项目动静分离打包分离lib方式

《配置springboot项目动静分离打包分离lib方式》本文介绍了如何将SpringBoot工程中的静态资源和配置文件分离出来,以减少jar包大小,方便修改配置文件,通过在jar包同级目录创建co... 目录前言1、分离配置文件原理2、pom文件配置3、使用package命令打包4、总结前言默认情况下,

Windows设置nginx启动端口的方法

《Windows设置nginx启动端口的方法》在服务器配置与开发过程中,nginx作为一款高效的HTTP和反向代理服务器,被广泛应用,而在Windows系统中,合理设置nginx的启动端口,是确保其正... 目录一、为什么要设置 nginx 启动端口二、设置步骤三、常见问题及解决一、为什么要设置 nginx

springboot启动流程过程

《springboot启动流程过程》SpringBoot简化了Spring框架的使用,通过创建`SpringApplication`对象,判断应用类型并设置初始化器和监听器,在`run`方法中,读取配... 目录springboot启动流程springboot程序启动入口1.创建SpringApplicat

树莓派启动python的实现方法

《树莓派启动python的实现方法》本文主要介绍了树莓派启动python的实现方法,文中通过图文介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧... 目录一、RASPBerry系统设置二、使用sandroidsh连接上开发板Raspberry Pi三、运

5分钟获取deepseek api并搭建简易问答应用

《5分钟获取deepseekapi并搭建简易问答应用》本文主要介绍了5分钟获取deepseekapi并搭建简易问答应用,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需... 目录1、获取api2、获取base_url和chat_model3、配置模型参数方法一:终端中临时将加

解读静态资源访问static-locations和static-path-pattern

《解读静态资源访问static-locations和static-path-pattern》本文主要介绍了SpringBoot中静态资源的配置和访问方式,包括静态资源的默认前缀、默认地址、目录结构、访... 目录静态资源访问static-locations和static-path-pattern静态资源配置