掌握数据利器:AWS Glue与数据基盘概览

2024-09-01 12:28

本文主要是介绍掌握数据利器:AWS Glue与数据基盘概览,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

引言

随着数字化进程的不断推进,企业现在能够积累并分析海量且多样化的数据。这一优势使得许多企业开始采用数据驱动型经营(即基于数据的经营策略)。通过基于数据的客观判断,企业及其管理者可以获得诸多好处。

然而,要充分利用所积累的数据,就需要建立一个坚实的数据基础设施。然而,这并不是一次性完成的任务。随着企业日常运营中数据量和种类的不断增加,需要持续优化性能、调整设计,并引入适合的工具和解决方案。

在本文中,我们将通过一系列文章介绍AWS Glue——一个在AWS上构建数据基础设施时至关重要的服务。希望这些内容能为您在Glue的应用过程中提供一些启发。

数据基础设施是什么?

数据基础设施指的是企业或组织用来收集、管理和分析数据的一系列系统。

数据基础设施通常承担以下四个主要功能:

  • 数据的收集
  • 数据的存储
  • 数据的加工
  • 数据的分析

通常情况下,数据基础设施由以下三层结构组成:

  • 数据湖
  • 数据仓库
  • 数据集市

虽然并没有硬性规定必须采用三层结构设计,但这一结构是数据基础设施中最基本的形式,因此非常值得掌握。

数据基础设施的四大功能

数据的收集
为了有效利用数据,首先需要收集各类数据。由于企业通常采用多个系统,数据往往分散在不同的地方进行管理。因此,必须将这些系统或数据库中孤立的数据集中起来。

注: “孤立数据”是指那些为单一目的保存且未与其他系统联通的数据,这些数据处于分割状态。

数据的存储
收集到的数据需要存储在数据基础设施中。通过利用数据湖,可以对结构化数据、半结构化数据和非结构化数据等各种数据进行集中管理,实现统一存储。

数据的加工
为了实现高效的数据分析,需要将数据加工成易于分析的状态。恰当地处理数据对分析的性能和精度有重要影响,因此这一环节至关重要。

数据的分析
最后,对数据进行分析。为了使处理后的数据更便于作为决策依据,通常需要对数据进行可视化分析。近年来,有许多便捷的可视化和分析工具以及BI工具可供选择,选择适合的工具也是关键的一步。此外,越来越多的企业开始将人工智能引入到数据分析过程中。

数据基础设施的三层结构

数据湖
数据湖是用于存储海量数据的场所,这些数据以原始形式存储,包括结构化数据、半结构化数据和非结构化数据等各种类型。数据湖的优势在于能够以其原始形式存储各种数据,从而拓展了数据的使用范围。数据湖中的数据并不像数据仓库或数据集市那样具备特定的目的,而是为了未来可能的需求进行储备。

数据仓库
数据仓库是用于存储经过处理后的数据的场所,这些数据源自数据湖中的原始数据。为了便于分析,数据仓库中的数据通常会经过结构化、格式转换、重复数据删除和字符编码转换等清理处理。这些操作使得数据仓库能够存储一致性强且便于跨领域分析的数据。这些处理通常通过ETL(提取、转换、加载)流程来实现,后面将对ETL进行详细解释。

数据集市
数据集市是根据具体的业务部门、用途或目的,从数据仓库中提取出所需数据,并将其加工为便于使用的形式后进行存储的场所。与全面覆盖信息的数据库仓库不同,数据集市根据不同的用途和需求对数据进行分类存储。这种方法有助于快速获取数据并优化分析过程。

ETL处理

ETL处理是指将数据提取(Extract)、转换(Transform)为适合数据仓库(DWH)使用的格式并进行加工处理,最后加载(Load)到数据仓库的一系列过程。ETL的名称即来源于这三个步骤的首字母缩写。

AWS Glue概述

AWS Glue是一种在AWS上提供的无服务器、可扩展的数据集成服务。通过使用Glue,用户可以从AWS内外的多个数据源中进行数据的发现、准备、移动和整合,从而大大简化了数据分析、机器学习以及其他基于数据的应用程序的开发。

AWS Glue所提供的功能非常广泛,因此很难用一句话来概括Glue的服务性质。

下图展示了AWS Glue环境的架构。

图片出自AWS Glue concepts - AWS Glue 

 

AWS Glue的主要功能包括以下几点:

  • Glue作业(Glue Job)
    Glue作业是AWS Glue中的核心功能之一,用于定义和执行数据的提取、转换和加载(ETL)流程。通过Glue作业,用户可以创建和管理一系列自动化的数据处理任务。

  • Glue数据目录(Glue Data Catalog)
    Glue数据目录是一个持久的元数据存储库,用于存储与数据存储位置和架构相关的元数据。它使得不同的数据源之间能够轻松共享和访问数据,并且可以作为多个AWS服务(如Amazon Athena、Amazon Redshift等)的共享数据元数据存储。

Glue作业

Glue作业是一个允许用户使用Python编写程序,以无服务器方式实现ETL处理的功能。尽管它与AWS Lambda有类似之处,但Glue作业在Apache Spark环境中运行,专门针对ETL处理提供内置功能和适合数据处理的资源。Glue作业还可以基于时间表或特定事件触发执行,灵活性极高。

Glue数据目录

Glue数据目录是一个用于存储数据元数据的集中式存储库。通过Glue数据目录,用户可以管理存储在S3上的结构化数据(如CSV和Parquet文件)的架构信息和文件位置等元数据。它还包含定义ETL作业所需的其他元数据,并可以保存数据的更改历史记录。虽然用户可以手动定义架构,但也可以利用Glue的爬虫(Crawler)功能自动从数据文件中检测并生成架构信息。

总结

本文概述了数据基础设施的基本概念和AWS Glue的关键功能。我们详细介绍了Glue作业的无服务器ETL处理能力,以及Glue数据目录在管理和存储数据元数据中的重要作用。通过理解这些核心功能,企业可以更高效地构建和优化其数据基础设施,为数据分析、机器学习等应用打下坚实基础。

这篇关于掌握数据利器:AWS Glue与数据基盘概览的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1126933

相关文章

Python MySQL如何通过Binlog获取变更记录恢复数据

《PythonMySQL如何通过Binlog获取变更记录恢复数据》本文介绍了如何使用Python和pymysqlreplication库通过MySQL的二进制日志(Binlog)获取数据库的变更记录... 目录python mysql通过Binlog获取变更记录恢复数据1.安装pymysqlreplicat

Linux使用dd命令来复制和转换数据的操作方法

《Linux使用dd命令来复制和转换数据的操作方法》Linux中的dd命令是一个功能强大的数据复制和转换实用程序,它以较低级别运行,通常用于创建可启动的USB驱动器、克隆磁盘和生成随机数据等任务,本文... 目录简介功能和能力语法常用选项示例用法基础用法创建可启动www.chinasem.cn的 USB 驱动

Oracle数据库使用 listagg去重删除重复数据的方法汇总

《Oracle数据库使用listagg去重删除重复数据的方法汇总》文章介绍了在Oracle数据库中使用LISTAGG和XMLAGG函数进行字符串聚合并去重的方法,包括去重聚合、使用XML解析和CLO... 目录案例表第一种:使用wm_concat() + distinct去重聚合第二种:使用listagg,

Python实现将实体类列表数据导出到Excel文件

《Python实现将实体类列表数据导出到Excel文件》在数据处理和报告生成中,将实体类的列表数据导出到Excel文件是一项常见任务,Python提供了多种库来实现这一目标,下面就来跟随小编一起学习一... 目录一、环境准备二、定义实体类三、创建实体类列表四、将实体类列表转换为DataFrame五、导出Da

Python实现数据清洗的18种方法

《Python实现数据清洗的18种方法》本文主要介绍了Python实现数据清洗的18种方法,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学... 目录1. 去除字符串两边空格2. 转换数据类型3. 大小写转换4. 移除列表中的重复元素5. 快速统

Python数据处理之导入导出Excel数据方式

《Python数据处理之导入导出Excel数据方式》Python是Excel数据处理的绝佳工具,通过Pandas和Openpyxl等库可以实现数据的导入、导出和自动化处理,从基础的数据读取和清洗到复杂... 目录python导入导出Excel数据开启数据之旅:为什么Python是Excel数据处理的最佳拍档

在Pandas中进行数据重命名的方法示例

《在Pandas中进行数据重命名的方法示例》Pandas作为Python中最流行的数据处理库,提供了强大的数据操作功能,其中数据重命名是常见且基础的操作之一,本文将通过简洁明了的讲解和丰富的代码示例,... 目录一、引言二、Pandas rename方法简介三、列名重命名3.1 使用字典进行列名重命名3.编

Python使用Pandas库将Excel数据叠加生成新DataFrame的操作指南

《Python使用Pandas库将Excel数据叠加生成新DataFrame的操作指南》在日常数据处理工作中,我们经常需要将不同Excel文档中的数据整合到一个新的DataFrame中,以便进行进一步... 目录一、准备工作二、读取Excel文件三、数据叠加四、处理重复数据(可选)五、保存新DataFram

使用Java解析JSON数据并提取特定字段的实现步骤(以提取mailNo为例)

《使用Java解析JSON数据并提取特定字段的实现步骤(以提取mailNo为例)》在现代软件开发中,处理JSON数据是一项非常常见的任务,无论是从API接口获取数据,还是将数据存储为JSON格式,解析... 目录1. 背景介绍1.1 jsON简介1.2 实际案例2. 准备工作2.1 环境搭建2.1.1 添加

MySQL中删除重复数据SQL的三种写法

《MySQL中删除重复数据SQL的三种写法》:本文主要介绍MySQL中删除重复数据SQL的三种写法,文中通过代码示例讲解的非常详细,对大家的学习或工作有一定的帮助,需要的朋友可以参考下... 目录方法一:使用 left join + 子查询删除重复数据(推荐)方法二:创建临时表(需分多步执行,逻辑清晰,但会