【Azure 架构师学习笔记】- Azure Databricks (1) - 环境搭建

2023-11-30 14:28

本文主要是介绍【Azure 架构师学习笔记】- Azure Databricks (1) - 环境搭建,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

本文属于【Azure 架构师学习笔记】系列。
本文属于【Azure Databricks】系列。

前言

Databricks 已经成为了数据科学的必备工具,今时今日你已经很难抛开它来谈大数据,它常用于做复杂的ETL中的T, 数据分析,数据挖掘等,特别适用于做数据建模,机器学习等。

那么顺应时代,现在也来看看这个工具的内容。首先要有一个环境,基于Azure 的Databricks简称ADB。托管在Azure 上的Databricks已经被Azure进行了很大的优化, 在搭建时只需要简单的几步即可拥有一个环境,不过要提醒一句ADB的集群并不便宜,用完马上删掉或停止, 否则一晚过百美金就会烧掉。

搭建环境

步骤1: 创建ADB workspace

可以把Workspace想象成一个装在Azure上的应用程序,然后通过它进入Databricks的环境。通过下图,创建一个workspace:
在这里插入图片描述
创建的步骤很简单,提供一些简单信息,对于pricing tier处,可以先按默认选择,在实际环境中则需要考虑具体的费用和用法。

在这里插入图片描述

点击创建后等待几分钟即可完成:

在这里插入图片描述

Databricks 内部布局

通过workspace进去之后可以看到下图的布局,ADB 的版本更新可能会导致布局的偏差,不过基本功能都不会变。
在这里插入图片描述
我们主要用到的一些导航栏有:

  • Workspace: 通过一个“文件系统”把你的notebooks进行逻辑分组。默认情况下会有两个:Shared 和Users, Shared 文件夹用来存储共同协作notebooks。 users则只给创建的用户自己访问。可以在这里进行权限控制来保证多用户使用时的安全性。
  • Recents:存储最近访问的资源列表。
  • Compute:ADB的核心运算组件——集群所在地。

在这里插入图片描述

步骤3 创建集群

除了权限, ADB 中常规的必要操作就是创建和管理集群, 从Compute导航栏进去,点击创建集群:
在这里插入图片描述
集群选项不是非常多,最主要的部分是节点(min/ max workers)这个决定你运行时的费用和性能。还有自动停止时间,如果你担心忘记了手动停止,那么就这下图第二个箭头处填上合适的时间,让集群在没有活动后的多少分钟内停止。

在这里插入图片描述

创建时会出现下面左边箭头的图标,叫作pin cluster, ADB 的集群有个特性, 当集群建立后闲置30天都没有被用过,就会自动销毁,通过pin住集群可以避免在重要的环境下集群的异常消失。
集群创建后,在右边箭头中可以开始,停止集群。
在这里插入图片描述
创建完毕后的集群样子:
在这里插入图片描述

到此为止,物理上的搭建已经初步完成。下一文将对ADB 的集群进行更深入的研究,因为它实在太重要,而且费用贵。

这篇关于【Azure 架构师学习笔记】- Azure Databricks (1) - 环境搭建的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/437370

相关文章

使用Python实现快速搭建本地HTTP服务器

《使用Python实现快速搭建本地HTTP服务器》:本文主要介绍如何使用Python快速搭建本地HTTP服务器,轻松实现一键HTTP文件共享,同时结合二维码技术,让访问更简单,感兴趣的小伙伴可以了... 目录1. 概述2. 快速搭建 HTTP 文件共享服务2.1 核心思路2.2 代码实现2.3 代码解读3.

MySQL双主搭建+keepalived高可用的实现

《MySQL双主搭建+keepalived高可用的实现》本文主要介绍了MySQL双主搭建+keepalived高可用的实现,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,... 目录一、测试环境准备二、主从搭建1.创建复制用户2.创建复制关系3.开启复制,确认复制是否成功4.同

Centos环境下Tomcat虚拟主机配置详细教程

《Centos环境下Tomcat虚拟主机配置详细教程》这篇文章主要讲的是在CentOS系统上,如何一步步配置Tomcat的虚拟主机,内容很简单,从目录准备到配置文件修改,再到重启和测试,手把手带你搞定... 目录1. 准备虚拟主机的目录和内容创建目录添加测试文件2. 修改 Tomcat 的 server.X

VSCode配置Anaconda Python环境的实现

《VSCode配置AnacondaPython环境的实现》VisualStudioCode中可以使用Anaconda环境进行Python开发,本文主要介绍了VSCode配置AnacondaPytho... 目录前言一、安装 Visual Studio Code 和 Anaconda二、创建或激活 conda

pytorch+torchvision+python版本对应及环境安装

《pytorch+torchvision+python版本对应及环境安装》本文主要介绍了pytorch+torchvision+python版本对应及环境安装,安装过程中需要注意Numpy版本的降级,... 目录一、版本对应二、安装命令(pip)1. 版本2. 安装全过程3. 命令相关解释参考文章一、版本对

Java进阶学习之如何开启远程调式

《Java进阶学习之如何开启远程调式》Java开发中的远程调试是一项至关重要的技能,特别是在处理生产环境的问题或者协作开发时,:本文主要介绍Java进阶学习之如何开启远程调式的相关资料,需要的朋友... 目录概述Java远程调试的开启与底层原理开启Java远程调试底层原理JVM参数总结&nbsMbKKXJx

使用DeepSeek搭建个人知识库(在笔记本电脑上)

《使用DeepSeek搭建个人知识库(在笔记本电脑上)》本文介绍了如何在笔记本电脑上使用DeepSeek和开源工具搭建个人知识库,通过安装DeepSeek和RAGFlow,并使用CherryStudi... 目录部署环境软件清单安装DeepSeek安装Cherry Studio安装RAGFlow设置知识库总

Linux搭建Mysql主从同步的教程

《Linux搭建Mysql主从同步的教程》:本文主要介绍Linux搭建Mysql主从同步的教程,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录linux搭建mysql主从同步1.启动mysql服务2.修改Mysql主库配置文件/etc/my.cnf3.重启主库my

国内环境搭建私有知识问答库踩坑记录(ollama+deepseek+ragflow)

《国内环境搭建私有知识问答库踩坑记录(ollama+deepseek+ragflow)》本文给大家利用deepseek模型搭建私有知识问答库的详细步骤和遇到的问题及解决办法,感兴趣的朋友一起看看吧... 目录1. 第1步大家在安装完ollama后,需要到系统环境变量中添加两个变量2. 第3步 “在cmd中

Windows环境下安装达梦数据库的完整步骤

《Windows环境下安装达梦数据库的完整步骤》达梦数据库的安装大致分为Windows和Linux版本,本文将以dm8企业版Windows_64位环境为例,为大家介绍一下达梦数据库的具体安装步骤吧... 目录环境介绍1 下载解压安装包2 根据安装手册安装2.1 选择语言 时区2.2 安装向导2.3 接受协议