《PySpark大数据分析实战》-17.云服务模式Databricks介绍运行作业

本文主要是介绍《PySpark大数据分析实战》-17.云服务模式Databricks介绍运行作业,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

📋 博主简介

  • 💖 作者简介:大家好,我是wux_labs。😜
    热衷于各种主流技术,热爱数据科学、机器学习、云计算、人工智能。
    通过了TiDB数据库专员(PCTA)、TiDB数据库专家(PCTP)、TiDB数据库认证SQL开发专家(PCSD)认证。
    通过了微软Azure开发人员、Azure数据工程师、Azure解决方案架构师专家认证。
    对大数据技术栈Hadoop、Hive、Spark、Kafka等有深入研究,对Databricks的使用有丰富的经验。
  • 📝 个人主页:wux_labs,如果您对我还算满意,请关注一下吧~🔥
  • 📝 个人社区:数据科学社区,如果您是数据科学爱好者,一起来交流吧~🔥
  • 🎉 请支持我:欢迎大家 点赞👍+收藏⭐️+吐槽📝,您的支持是我持续创作的动力~🔥

《PySpark大数据分析实战》-17.云服务模式Databricks介绍运行作业

  • 《PySpark大数据分析实战》-17.云服务模式Databricks介绍运行作业
    • 前言
    • 创建作业
    • 运行作业
    • 其他类型的作业
    • 结束语

《PySpark大数据分析实战》-17.云服务模式Databricks介绍运行作业

前言

大家好!今天为大家分享的是《PySpark大数据分析实战》第2章第5节的内容:云服务模式Databricks介绍运行作业。

图书在:当当、京东、机械工业出版社以及各大书店有售!

除了交互式执行代码,还可以采用Job的方式运行Python脚本,修改WordCount.py脚本,去掉sc的创建、修改words.txt的路径,代码如下:

from pyspark import SparkConf, SparkContextif __name__ == '__main__':# 通过SparkContext对象读取文件fileRdd = sc.textFile("dbfs:/FileStore/tables/words.txt")# 将文件中的每一行按照空格拆分成单词wordsRdd = fileRdd.flatMap(lambda line: line.split(" "))# 将每一个单词转换为元组,wordRdd = wordsRdd.map(lambda x: (x, 1))# 根据元组的key分组,将value相加resultRdd = wordRdd.reduceByKey(lambda a, b: a + b)# 将结果收集到Driver并打印输出print(resultRdd.collect())

将修改后的脚本上传到DBFS上或者工作区中,方便后续使用。

创建作业

笔记本编写的代码适合交互式方式执行。要定时运行或者长时间运行Spark应用程序,需要创建作业进行运行。通过左侧菜单栏Workflows菜单打开Jobs列表界面,如图所示。

点击Create Job按钮,打开作业配置界面,如图所示。

在配置界面配置好作业的信息,Type选择Python script,Source选择DBFS,Path指定Python脚本的路径,Cluster选择已创建的集群,点击Create按钮创建作业,如图所示。

创建完成后,可以从Jobs列表中看到创建的作业,如图所示。

运行作业

通过列表中Actions列的运行按钮直接运行作业,作业运行以后,在详情界面可以监控作业的运行情况,如图所示。

在列表中,点击Spark UI链接可以打开Spark Master Web UI界面;点击Logs链接可以打开日志界面查看运行日志及结果,如图所示。

其他类型的作业

Workflows中的作业除了支持笔记本、Python脚本外,还支持多种其他方式,包括JAR、Spark Submit等,如图所示。

Spark Submit方式运行的作业,不支持在已创建的集群上运行,仅支持在运行作业的时候自动创建新集群来运行,运行作业所需要的参数全部通过Parameters文本框以列表的形式指定,如图所示。

结束语

好了,感谢大家的关注,今天就分享到这里了,更多详细内容,请阅读原书或持续关注专栏。

这篇关于《PySpark大数据分析实战》-17.云服务模式Databricks介绍运行作业的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/524955

相关文章

springboot的调度服务与异步服务使用详解

《springboot的调度服务与异步服务使用详解》本文主要介绍了Java的ScheduledExecutorService接口和SpringBoot中如何使用调度线程池,包括核心参数、创建方式、自定... 目录1.调度服务1.1.JDK之ScheduledExecutorService1.2.spring

Java使用Tesseract-OCR实战教程

《Java使用Tesseract-OCR实战教程》本文介绍了如何在Java中使用Tesseract-OCR进行文本提取,包括Tesseract-OCR的安装、中文训练库的配置、依赖库的引入以及具体的代... 目录Java使用Tesseract-OCRTesseract-OCR安装配置中文训练库引入依赖代码实

Android 悬浮窗开发示例((动态权限请求 | 前台服务和通知 | 悬浮窗创建 )

《Android悬浮窗开发示例((动态权限请求|前台服务和通知|悬浮窗创建)》本文介绍了Android悬浮窗的实现效果,包括动态权限请求、前台服务和通知的使用,悬浮窗权限需要动态申请并引导... 目录一、悬浮窗 动态权限请求1、动态请求权限2、悬浮窗权限说明3、检查动态权限4、申请动态权限5、权限设置完毕后

使用 sql-research-assistant进行 SQL 数据库研究的实战指南(代码实现演示)

《使用sql-research-assistant进行SQL数据库研究的实战指南(代码实现演示)》本文介绍了sql-research-assistant工具,该工具基于LangChain框架,集... 目录技术背景介绍核心原理解析代码实现演示安装和配置项目集成LangSmith 配置(可选)启动服务应用场景

TP-Link PDDNS服将于务6月30日正式停运:用户需转向第三方DDNS服务

《TP-LinkPDDNS服将于务6月30日正式停运:用户需转向第三方DDNS服务》近期,路由器制造巨头普联(TP-Link)在用户群体中引发了一系列重要变动,上个月,公司发出了一则通知,明确要求所... 路由器厂商普联(TP-Link)上个月发布公告要求所有用户必须完成实名认证后才能继续使用普联提供的 D

在Java中使用ModelMapper简化Shapefile属性转JavaBean实战过程

《在Java中使用ModelMapper简化Shapefile属性转JavaBean实战过程》本文介绍了在Java中使用ModelMapper库简化Shapefile属性转JavaBean的过程,对比... 目录前言一、原始的处理办法1、使用Set方法来转换2、使用构造方法转换二、基于ModelMapper

Java实现状态模式的示例代码

《Java实现状态模式的示例代码》状态模式是一种行为型设计模式,允许对象根据其内部状态改变行为,本文主要介绍了Java实现状态模式的示例代码,文中通过示例代码介绍的非常详细,需要的朋友们下面随着小编来... 目录一、简介1、定义2、状态模式的结构二、Java实现案例1、电灯开关状态案例2、番茄工作法状态案例

Java实战之自助进行多张图片合成拼接

《Java实战之自助进行多张图片合成拼接》在当今数字化时代,图像处理技术在各个领域都发挥着至关重要的作用,本文为大家详细介绍了如何使用Java实现多张图片合成拼接,需要的可以了解下... 目录前言一、图片合成需求描述二、图片合成设计与实现1、编程语言2、基础数据准备3、图片合成流程4、图片合成实现三、总结前

通过prometheus监控Tomcat运行状态的操作流程

《通过prometheus监控Tomcat运行状态的操作流程》文章介绍了如何安装和配置Tomcat,并使用Prometheus和TomcatExporter来监控Tomcat的运行状态,文章详细讲解了... 目录Tomcat安装配置以及prometheus监控Tomcat一. 安装并配置tomcat1、安装

nginx-rtmp-module构建流媒体直播服务器实战指南

《nginx-rtmp-module构建流媒体直播服务器实战指南》本文主要介绍了nginx-rtmp-module构建流媒体直播服务器实战指南,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有... 目录1. RTMP协议介绍与应用RTMP协议的原理RTMP协议的应用RTMP与现代流媒体技术的关系2