SparkCore(9):Spark应用资源构成和启动配置信息三个位置

本文主要是介绍SparkCore(9):Spark应用资源构成和启动配置信息三个位置,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

一、spark应用资源构成和执行过程

1.资源构成

一个spark应用是由:Driver + Executors组成,其中:
(1)Driver: SparkContext上下文的构建、RDD的构建、RDD的调度
(2)Executor:具体task执行的位置

    备注:一个application 可以包含多个jobs,一个job包含多个stage,一个stage包含多个task

2.各个模块作用

针对spark on yarn:

(1)client模式:
         driver(相当于client去申请): 负责applicationmaster的资源申请和任务调度
         applicationMaster:Executor中的资源申请
         Executor:Task执行
(2)cluster模式:
         dirver(ApplicationMaster): 资源申请和任务调度
         Executor:Task执行

3.具体概念

(1)Job

        由于调用了RDD的action类型的API,所以触发rdd对应的job提交到executors中执行

(2)Stage

        当RDD的DAG图进行提交之前,Driver中的SparkContext中的DAGScheduler会DAG进行划分,形成Stage;
        划分规则:从DAG图的最后往前推,直到遇到一个宽依赖的API,那么就形成一个Stage,继续直到第一个RDD。例如:reduceByKey这个宽依赖
        
        备注:Stage的执行是有依赖关系的,前一个Stage的数据结果是后一个Stage的数据的输入;只有上一个Stage中的所有task都执行完了下一个Stage才会执行
        
(3)Task:是Executor中执行的最小单位。从RDD的分布情况来讲,每个task实质上就是RDD的分区;
        查看RDD的分区:rdd.partitions,然后可以查看length,可以看到rdd的分区数量,就是task数量

scala>  rdd.flatMap(_.split(" ")).map((_,1)).reduceByKey(_+_).partitions
res2: Array[org.apache.spark.Partition] = rray(org.apache.spark.rdd.ShuffledRDDPartition@0)scala> res2.length
res3: Int = 1

二、spark应用配置信息

1. spark-defaults.conf

2. spark-submit脚本参数

    --name 给定job的名称(可以在代码中给定,也可以在这里给定)
    --master:给定运行spark应用的执行位置信息
    --conf:给定配置参数,可以有多个--conf
    --propertise-file:配置信息文件,默认在conf/spark-defaults.conf

例如:

date=`date +"%Y%m%d%H%M"`
/opt/modules/spark-2.1.0-bin-2.7.3/bin/spark-submit \
--master yarn \
--deploy-mode client \
--class _0722rdd.Wordcount_product \
--driver-memory   1G \
--driver-cores 1 \
--executor-memory 1G \
--executor-cores 1 \
--num-executors 1 \
--conf spark.app.coalesce=1 \
/opt/datas/lib/scalaProjectMaven.jar

3.spark代码中通过SparkConf对象指定参数

//1.创建sparkContext上下文
val conf = new SparkConf()
//本地模式,* 会在运行期间检查当前环境下还剩下多少cpu核心,占满
.setMaster("local[*]") //设定运行位置【否则报错!】
.setAppName("idea_start_wc") //设置运行程序名称【否则报错!】

4.优先级:1 < 2 < 3

5.配置参数意义

【参考:http://spark.apache.org/docs/2.1.0/configuration.html#available-properties】

--master:给定运行spark应用的执行位置信息
--deploy-mode:给定driver在哪儿执行client:driver在执行spark-submit的那台机器上运行cluster:driver在集群中任选一台机器运行
--driver-memory MEM:指定driver运行的时候jvm的内存大小,默认1G,一般情况下要求比单个executor的内存要大
--executor-memory MEM:指定单个executor的内存大小,默认1G
--driver-cores NUM: 指定spark on standalone的时候,而且是cluster模式的请看看下,driver运行过程中使用的core数量,默认1
--supervise:当运行环境为standalone/mesos + cluster,如果driver运行失败,会重新自动进行恢复操作,client模式就不会
--total-executor-cores NUM :运行环境为standalone/mesos,给定应用需要的总的core的数目,默认所有
--executor-cores NUM:运行环境为standalon/yarn,给定应用运行过程中,每个executor包含的core数目,默认1个(yarn),默认all(standalone)
--driver-cores NUM:spark on yarn cluster, 给定driver运行需要多少个core,默认1个
--num-executors NUM: 申请多少个executor,默认2,其实这里的executor就是container容器

 

这篇关于SparkCore(9):Spark应用资源构成和启动配置信息三个位置的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/998300

相关文章

springboot security之前后端分离配置方式

《springbootsecurity之前后端分离配置方式》:本文主要介绍springbootsecurity之前后端分离配置方式,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的... 目录前言自定义配置认证失败自定义处理登录相关接口匿名访问前置文章总结前言spring boot secu

Python中随机休眠技术原理与应用详解

《Python中随机休眠技术原理与应用详解》在编程中,让程序暂停执行特定时间是常见需求,当需要引入不确定性时,随机休眠就成为关键技巧,下面我们就来看看Python中随机休眠技术的具体实现与应用吧... 目录引言一、实现原理与基础方法1.1 核心函数解析1.2 基础实现模板1.3 整数版实现二、典型应用场景2

一文详解SpringBoot响应压缩功能的配置与优化

《一文详解SpringBoot响应压缩功能的配置与优化》SpringBoot的响应压缩功能基于智能协商机制,需同时满足很多条件,本文主要为大家详细介绍了SpringBoot响应压缩功能的配置与优化,需... 目录一、核心工作机制1.1 自动协商触发条件1.2 压缩处理流程二、配置方案详解2.1 基础YAML

springboot简单集成Security配置的教程

《springboot简单集成Security配置的教程》:本文主要介绍springboot简单集成Security配置的教程,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,... 目录集成Security安全框架引入依赖编写配置类WebSecurityConfig(自定义资源权限规则

SpringBoot中封装Cors自动配置方式

《SpringBoot中封装Cors自动配置方式》:本文主要介绍SpringBoot中封装Cors自动配置方式,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录SpringBoot封装Cors自动配置背景实现步骤1. 创建 GlobalCorsProperties

Spring Boot结成MyBatis-Plus最全配置指南

《SpringBoot结成MyBatis-Plus最全配置指南》本文主要介绍了SpringBoot结成MyBatis-Plus最全配置指南,包括依赖引入、配置数据源、Mapper扫描、基本CRUD操... 目录前言详细操作一.创建项目并引入相关依赖二.配置数据源信息三.编写相关代码查zsRArly询数据库数

SpringBoot配置Ollama实现本地部署DeepSeek

《SpringBoot配置Ollama实现本地部署DeepSeek》本文主要介绍了在本地环境中使用Ollama配置DeepSeek模型,并在IntelliJIDEA中创建一个Sprin... 目录前言详细步骤一、本地配置DeepSeek二、SpringBoot项目调用本地DeepSeek前言随着人工智能技

SpringBoot启动报错的11个高频问题排查与解决终极指南

《SpringBoot启动报错的11个高频问题排查与解决终极指南》这篇文章主要为大家详细介绍了SpringBoot启动报错的11个高频问题的排查与解决,文中的示例代码讲解详细,感兴趣的小伙伴可以了解一... 目录1. 依赖冲突:NoSuchMethodError 的终极解法2. Bean注入失败:No qu

Python Dash框架在数据可视化仪表板中的应用与实践记录

《PythonDash框架在数据可视化仪表板中的应用与实践记录》Python的PlotlyDash库提供了一种简便且强大的方式来构建和展示互动式数据仪表板,本篇文章将深入探讨如何使用Dash设计一... 目录python Dash框架在数据可视化仪表板中的应用与实践1. 什么是Plotly Dash?1.1

Android Kotlin 高阶函数详解及其在协程中的应用小结

《AndroidKotlin高阶函数详解及其在协程中的应用小结》高阶函数是Kotlin中的一个重要特性,它能够将函数作为一等公民(First-ClassCitizen),使得代码更加简洁、灵活和可... 目录1. 引言2. 什么是高阶函数?3. 高阶函数的基础用法3.1 传递函数作为参数3.2 Lambda