《PySpark大数据分析实战》-14.云服务模式Databricks介绍基本概念

本文主要是介绍《PySpark大数据分析实战》-14.云服务模式Databricks介绍基本概念,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

📋 博主简介

  • 💖 作者简介:大家好,我是wux_labs。😜
    热衷于各种主流技术,热爱数据科学、机器学习、云计算、人工智能。
    通过了TiDB数据库专员(PCTA)、TiDB数据库专家(PCTP)、TiDB数据库认证SQL开发专家(PCSD)认证。
    通过了微软Azure开发人员、Azure数据工程师、Azure解决方案架构师专家认证。
    对大数据技术栈Hadoop、Hive、Spark、Kafka等有深入研究,对Databricks的使用有丰富的经验。
  • 📝 个人主页:wux_labs,如果您对我还算满意,请关注一下吧~🔥
  • 📝 个人社区:数据科学社区,如果您是数据科学爱好者,一起来交流吧~🔥
  • 🎉 请支持我:欢迎大家 点赞👍+收藏⭐️+吐槽📝,您的支持是我持续创作的动力~🔥

《PySpark大数据分析实战》-14.云服务模式Databricks介绍基本概念

  • 《PySpark大数据分析实战》-14.云服务模式Databricks介绍基本概念
    • 前言
    • Databricks基本概念
      • 工作空间Workspaces
      • 工作区Workspace
      • 笔记本Notebook
      • 集群Cluster
      • 文件系统DBFS
      • 作业Job
    • 结束语

《PySpark大数据分析实战》-14.云服务模式Databricks介绍基本概念

前言

大家好!今天为大家分享的是《PySpark大数据分析实战》第2章第5节的内容:云服务模式Databricks介绍基本概念。

图书在:当当、京东、机械工业出版社以及各大书店有售!

除了自己部署Spark的集群环境,Spark的商业母公司还提供了基于云环境的Spark环境Databricks。Databricks是软件即服务(SaaS)环境,基于Spark的统一数据分析平台,用于数据工程、数据科学和机器学习。Databricks提供了一组统一的工具,用于大规模构建、部署、共享和维护企业级数据解决方案。Databricks的主界面如图所示。

Databricks基本概念

在使用Databricks之前,需要对Databricks中的一些基本概念有所了解。

工作空间Workspaces

Workspaces称为工作区,是一个基于角色的交互式环境UI界面,可以管理Databricks的Cluster、Notebook、Job等,为了跟Workspace进行区分,本书将Workspaces称为工作空间。Databricks的主界面就是一个工作空间,不同角色的工作空间,可以通过主界面左侧菜单栏顶部菜单进行切换。

工作区Workspace

Workspace也称工作区,用于访问所有Databricks资产的环境,可以管理Notebook、Library,并将这些对象按文件夹的形式进行组织,同时工作区还提供对数据对象和计算资源的访问。工作区对应于主界面左侧菜单栏上的Workspace菜单。

笔记本Notebook

Notebook即笔记本,是一个基于Web的笔记本,包含可执行代码、笔记、图片资源等,可以在笔记本中编写Python、R、Scala、SQL等代码,执行代码并获得输出结果,可以对结果进行可视化处理。笔记本可以在工作区中创建,也可以将已有笔记本托管于Git仓库,通过Repos菜单将Git仓库添加到Databricks,实现笔记本的版本控制管理。

集群Cluster

Cluster即集群,是Databricks的计算资源,进行数据集成、数据分析、机器学习需要计算资源,必须先创建集群。Databricks的集群是Spark集群,支持单节点、多节点集群。集群可以通过主界面左侧菜单栏中的Compute菜单进行创建。

文件系统DBFS

Databricks文件系统(DBFS)是一个装载到Databricks工作区的分布式文件系统,可以在Databricks群集上使用。在Databricks中,集群提供计算资源,包括CPU、内存、网络等;DBFS则提供数据和文件的存储、读写能力,是Databricks中一个非常重要基础设施,这与HDFS类似。与HDFS不同的是,DBFS是针对可缩放对象存储的一种抽象,可将类Unix文件系统调用映射到本机云存储API调用,这让访问DBFS上的文件就像访问本地文件一样简单。

作业Job

Job称为作业,是Databricks中运行代码的一种方式。作业与笔记本不同,笔记本是Databricks中运行交互式代码的一种方式,而作业是Databricks中运行非交互式代码的一种方式。作业中可以运行笔记本、Python脚本、Jar包等,支持定时启动运行、持续运行。

结束语

好了,感谢大家的关注,今天就分享到这里了,更多详细内容,请阅读原书或持续关注专栏。

这篇关于《PySpark大数据分析实战》-14.云服务模式Databricks介绍基本概念的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/510765

相关文章

springboot的调度服务与异步服务使用详解

《springboot的调度服务与异步服务使用详解》本文主要介绍了Java的ScheduledExecutorService接口和SpringBoot中如何使用调度线程池,包括核心参数、创建方式、自定... 目录1.调度服务1.1.JDK之ScheduledExecutorService1.2.spring

Java使用Tesseract-OCR实战教程

《Java使用Tesseract-OCR实战教程》本文介绍了如何在Java中使用Tesseract-OCR进行文本提取,包括Tesseract-OCR的安装、中文训练库的配置、依赖库的引入以及具体的代... 目录Java使用Tesseract-OCRTesseract-OCR安装配置中文训练库引入依赖代码实

Android 悬浮窗开发示例((动态权限请求 | 前台服务和通知 | 悬浮窗创建 )

《Android悬浮窗开发示例((动态权限请求|前台服务和通知|悬浮窗创建)》本文介绍了Android悬浮窗的实现效果,包括动态权限请求、前台服务和通知的使用,悬浮窗权限需要动态申请并引导... 目录一、悬浮窗 动态权限请求1、动态请求权限2、悬浮窗权限说明3、检查动态权限4、申请动态权限5、权限设置完毕后

使用 sql-research-assistant进行 SQL 数据库研究的实战指南(代码实现演示)

《使用sql-research-assistant进行SQL数据库研究的实战指南(代码实现演示)》本文介绍了sql-research-assistant工具,该工具基于LangChain框架,集... 目录技术背景介绍核心原理解析代码实现演示安装和配置项目集成LangSmith 配置(可选)启动服务应用场景

TP-Link PDDNS服将于务6月30日正式停运:用户需转向第三方DDNS服务

《TP-LinkPDDNS服将于务6月30日正式停运:用户需转向第三方DDNS服务》近期,路由器制造巨头普联(TP-Link)在用户群体中引发了一系列重要变动,上个月,公司发出了一则通知,明确要求所... 路由器厂商普联(TP-Link)上个月发布公告要求所有用户必须完成实名认证后才能继续使用普联提供的 D

在Java中使用ModelMapper简化Shapefile属性转JavaBean实战过程

《在Java中使用ModelMapper简化Shapefile属性转JavaBean实战过程》本文介绍了在Java中使用ModelMapper库简化Shapefile属性转JavaBean的过程,对比... 目录前言一、原始的处理办法1、使用Set方法来转换2、使用构造方法转换二、基于ModelMapper

Java实现状态模式的示例代码

《Java实现状态模式的示例代码》状态模式是一种行为型设计模式,允许对象根据其内部状态改变行为,本文主要介绍了Java实现状态模式的示例代码,文中通过示例代码介绍的非常详细,需要的朋友们下面随着小编来... 目录一、简介1、定义2、状态模式的结构二、Java实现案例1、电灯开关状态案例2、番茄工作法状态案例

Java实战之自助进行多张图片合成拼接

《Java实战之自助进行多张图片合成拼接》在当今数字化时代,图像处理技术在各个领域都发挥着至关重要的作用,本文为大家详细介绍了如何使用Java实现多张图片合成拼接,需要的可以了解下... 目录前言一、图片合成需求描述二、图片合成设计与实现1、编程语言2、基础数据准备3、图片合成流程4、图片合成实现三、总结前

nginx-rtmp-module构建流媒体直播服务器实战指南

《nginx-rtmp-module构建流媒体直播服务器实战指南》本文主要介绍了nginx-rtmp-module构建流媒体直播服务器实战指南,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有... 目录1. RTMP协议介绍与应用RTMP协议的原理RTMP协议的应用RTMP与现代流媒体技术的关系2

微服务架构之使用RabbitMQ进行异步处理方式

《微服务架构之使用RabbitMQ进行异步处理方式》本文介绍了RabbitMQ的基本概念、异步调用处理逻辑、RabbitMQ的基本使用方法以及在SpringBoot项目中使用RabbitMQ解决高并发... 目录一.什么是RabbitMQ?二.异步调用处理逻辑:三.RabbitMQ的基本使用1.安装2.架构