《PySpark大数据分析实战》-17.云服务模式Databricks介绍运行作业

本文主要是介绍《PySpark大数据分析实战》-17.云服务模式Databricks介绍运行作业,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

📋 博主简介

  • 💖 作者简介:大家好,我是wux_labs。😜
    热衷于各种主流技术,热爱数据科学、机器学习、云计算、人工智能。
    通过了TiDB数据库专员(PCTA)、TiDB数据库专家(PCTP)、TiDB数据库认证SQL开发专家(PCSD)认证。
    通过了微软Azure开发人员、Azure数据工程师、Azure解决方案架构师专家认证。
    对大数据技术栈Hadoop、Hive、Spark、Kafka等有深入研究,对Databricks的使用有丰富的经验。
  • 📝 个人主页:wux_labs,如果您对我还算满意,请关注一下吧~🔥
  • 📝 个人社区:数据科学社区,如果您是数据科学爱好者,一起来交流吧~🔥
  • 🎉 请支持我:欢迎大家 点赞👍+收藏⭐️+吐槽📝,您的支持是我持续创作的动力~🔥

《PySpark大数据分析实战》-17.云服务模式Databricks介绍运行作业

  • 《PySpark大数据分析实战》-17.云服务模式Databricks介绍运行作业
    • 前言
    • 创建作业
    • 运行作业
    • 其他类型的作业
    • 结束语

《PySpark大数据分析实战》-17.云服务模式Databricks介绍运行作业

前言

大家好!今天为大家分享的是《PySpark大数据分析实战》第2章第5节的内容:云服务模式Databricks介绍运行作业。

图书在:当当、京东、机械工业出版社以及各大书店有售!

除了交互式执行代码,还可以采用Job的方式运行Python脚本,修改WordCount.py脚本,去掉sc的创建、修改words.txt的路径,代码如下:

from pyspark import SparkConf, SparkContextif __name__ == '__main__':# 通过SparkContext对象读取文件fileRdd = sc.textFile("dbfs:/FileStore/tables/words.txt")# 将文件中的每一行按照空格拆分成单词wordsRdd = fileRdd.flatMap(lambda line: line.split(" "))# 将每一个单词转换为元组,wordRdd = wordsRdd.map(lambda x: (x, 1))# 根据元组的key分组,将value相加resultRdd = wordRdd.reduceByKey(lambda a, b: a + b)# 将结果收集到Driver并打印输出print(resultRdd.collect())

将修改后的脚本上传到DBFS上或者工作区中,方便后续使用。

创建作业

笔记本编写的代码适合交互式方式执行。要定时运行或者长时间运行Spark应用程序,需要创建作业进行运行。通过左侧菜单栏Workflows菜单打开Jobs列表界面,如图所示。

点击Create Job按钮,打开作业配置界面,如图所示。

在配置界面配置好作业的信息,Type选择Python script,Source选择DBFS,Path指定Python脚本的路径,Cluster选择已创建的集群,点击Create按钮创建作业,如图所示。

创建完成后,可以从Jobs列表中看到创建的作业,如图所示。

运行作业

通过列表中Actions列的运行按钮直接运行作业,作业运行以后,在详情界面可以监控作业的运行情况,如图所示。

在列表中,点击Spark UI链接可以打开Spark Master Web UI界面;点击Logs链接可以打开日志界面查看运行日志及结果,如图所示。

其他类型的作业

Workflows中的作业除了支持笔记本、Python脚本外,还支持多种其他方式,包括JAR、Spark Submit等,如图所示。

Spark Submit方式运行的作业,不支持在已创建的集群上运行,仅支持在运行作业的时候自动创建新集群来运行,运行作业所需要的参数全部通过Parameters文本框以列表的形式指定,如图所示。

结束语

好了,感谢大家的关注,今天就分享到这里了,更多详细内容,请阅读原书或持续关注专栏。

这篇关于《PySpark大数据分析实战》-17.云服务模式Databricks介绍运行作业的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/524955

相关文章

SpringBoot基于配置实现短信服务策略的动态切换

《SpringBoot基于配置实现短信服务策略的动态切换》这篇文章主要为大家详细介绍了SpringBoot在接入多个短信服务商(如阿里云、腾讯云、华为云)后,如何根据配置或环境切换使用不同的服务商,需... 目录目标功能示例配置(application.yml)配置类绑定短信发送策略接口示例:阿里云 & 腾

Python如何精准判断某个进程是否在运行

《Python如何精准判断某个进程是否在运行》这篇文章主要为大家详细介绍了Python如何精准判断某个进程是否在运行,本文为大家整理了3种方法并进行了对比,有需要的小伙伴可以跟随小编一起学习一下... 目录一、为什么需要判断进程是否存在二、方法1:用psutil库(推荐)三、方法2:用os.system调用

Nginx location匹配模式与规则详解

《Nginxlocation匹配模式与规则详解》:本文主要介绍Nginxlocation匹配模式与规则,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录一、环境二、匹配模式1. 精准模式2. 前缀模式(不继续匹配正则)3. 前缀模式(继续匹配正则)4. 正则模式(大

redis过期key的删除策略介绍

《redis过期key的删除策略介绍》:本文主要介绍redis过期key的删除策略,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录第一种策略:被动删除第二种策略:定期删除第三种策略:强制删除关于big key的清理UNLINK命令FLUSHALL/FLUSHDB命

springboot项目如何开启https服务

《springboot项目如何开启https服务》:本文主要介绍springboot项目如何开启https服务方式,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录springboot项目开启https服务1. 生成SSL证书密钥库使用keytool生成自签名证书将

Python列表去重的4种核心方法与实战指南详解

《Python列表去重的4种核心方法与实战指南详解》在Python开发中,处理列表数据时经常需要去除重复元素,本文将详细介绍4种最实用的列表去重方法,有需要的小伙伴可以根据自己的需要进行选择... 目录方法1:集合(set)去重法(最快速)方法2:顺序遍历法(保持顺序)方法3:副本删除法(原地修改)方法4:

Python运行中频繁出现Restart提示的解决办法

《Python运行中频繁出现Restart提示的解决办法》在编程的世界里,遇到各种奇怪的问题是家常便饭,但是,当你的Python程序在运行过程中频繁出现“Restart”提示时,这可能不仅仅是令人头疼... 目录问题描述代码示例无限循环递归调用内存泄漏解决方案1. 检查代码逻辑无限循环递归调用内存泄漏2.

在Spring Boot中浅尝内存泄漏的实战记录

《在SpringBoot中浅尝内存泄漏的实战记录》本文给大家分享在SpringBoot中浅尝内存泄漏的实战记录,结合实例代码给大家介绍的非常详细,感兴趣的朋友一起看看吧... 目录使用静态集合持有对象引用,阻止GC回收关键点:可执行代码:验证:1,运行程序(启动时添加JVM参数限制堆大小):2,访问 htt

使用Node.js制作图片上传服务的详细教程

《使用Node.js制作图片上传服务的详细教程》在现代Web应用开发中,图片上传是一项常见且重要的功能,借助Node.js强大的生态系统,我们可以轻松搭建高效的图片上传服务,本文将深入探讨如何使用No... 目录准备工作搭建 Express 服务器配置 multer 进行图片上传处理图片上传请求完整代码示例

Spring LDAP目录服务的使用示例

《SpringLDAP目录服务的使用示例》本文主要介绍了SpringLDAP目录服务的使用示例... 目录引言一、Spring LDAP基础二、LdapTemplate详解三、LDAP对象映射四、基本LDAP操作4.1 查询操作4.2 添加操作4.3 修改操作4.4 删除操作五、认证与授权六、高级特性与最佳