重磅|Spark Delta Lake 现在由Linux基金会托管,将成为数据湖的开放标准

本文主要是介绍重磅|Spark Delta Lake 现在由Linux基金会托管,将成为数据湖的开放标准,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

一年一度的  Spark + AI Summit Europe 峰会于2019年10月15-17日在欧洲的阿姆斯特丹举行。在10年16日 数砖和 Linux 基金会共同宣布 Delta Lake 和 将成为一个 Linux 基金会项目(参考:https://www.linuxfoundation.org/press-release/2019/10/the-delta-lake-project-turns-to-linux-foundation-to-become-the-open-standard-for-data-lakes)。该项目旨在建立一个开放的标准来管理数据湖中的大量数据,同时 Delta Lake 同样基于 Apache 2.0软件许可证开源。

640?wx_fmt=jpeg

Delta Lake 致力于提高数据湖的可靠性和可扩展性。它的高级抽象和保证,包括ACID事务和时间旅行,极大地简化了真实世界数据工程体系结构的复杂性。自从今年四月底的 Spark + Ai 峰会数砖宣布开源 Delta Lake 项目()。该项目每个月被部署在数千个组织中,成为数据和人工智能架构中不可或缺的基础组件。

 

为了进一步推动社区的采用和发展,数砖决定与Linux 基金会合作,利用他们的平台和丰富的经验来培育有影响力的开源项目,包括Linux本身、Jenkins和Kubernetes。数砖与阿里巴巴、Booz Allen Hamilton、英特尔和Starburst 公司一起宣布,不仅要对Apache Spark的Delta Lake 开发支持,还要对Apache Hive、Apache Nifi 和Presto 的开发进行支持。

 

为更健壮的数据湖提供丰富的特性集

 

正如前面所讨论的,Delta Lake 使数据湖中的数据更容易处理,也更健壮。它旨在解决数据湖中常见的许多问题。例如,不完整的数据摄入可能导致数据损坏;为了解决这个问题Delta Lak 引入了 ACID事务,支持多个数据管道并发地向数据湖读写数据。提供数据湖的数据源可能无法提供完整的列数据或正确的数据类型,因此 Schema Enforcement 可以防止坏数据导入到数据湖中从而导致数据损坏。更改数据捕获和 update/delete/upsert的支持允许非Append 的作业在数据湖上正常工作,这对于GDPR/CCPA来说是必须的。更多关于Delta Lake 的介绍可以参见过往记忆大数据之前的文章:重磅 | Apache Spark 社区期待的 Delta Lake 开源了。

 

Delta Lake 的功能还在不断增强,比如 Delta Lake 0.4.0 支持 Python Api,支持一些简单功能的 SQL 处理,参见过往记忆大数据之前的文章:Spark Delta Lake 0.4.0 发布,支持 Python API 和部分 SQL。相信在未来 Delta Lake 还会支持更多的功能。

 

数据湖的开放性和可扩展性

 

Delta Lake 设计的主要原则是开放性和可扩展性。Delta Lake将所有数据和元数据存储在云对象存储中,采用开放协议设计,利用了JSON 和 Apache Parquet 等现有的开放格式。这种开放性不仅消除了厂商锁定的风险,而且对于数据科学、机器学习和SQL的无数不同用例来说,也是至关重要的。

 

为了确保项目的长期发展和社区的发展,所以数砖与Linux基金会合作,进一步发扬这种开放精神。

 

开放 Delta Lake 管理和社区参与

 

很高兴Linux基金会现在将Delta Lake作为中立的项目,并采用开放治理模型来鼓励参与和技术贡献。这将有助于为 Delta Lake 项目的长期管理提供一个框架,并为 Delta Lake 社区建立良好的生态系统,开放 Delta Lake 存储的标准。我们相信,这种方法将有助于确保存储在 Delta Lake 的数据保持开放和可访问性,同时推动更多的创新和发展,以解决这一领域的挑战性问题。

 

Databricks 团队为data & AI生态系统创建并贡献了各种开源项目,包括Apache Spark、MLflow、Koalas和Delta Lake。数砖团队将继续参与开源社区,因为这是将新功能引入市场的最快、最全面的方式;能够建立一个可持续的、健康的业务,同时与社区保持联系,以确保项目不会将客户锁定在专有系统或数据格式中。

 

关于 Linux 基金会

 

Linux基金会是一个非盈利性的联盟,其目的在于协调和推动Linux系统的发展,以及宣传、保护和规范Linux,该组织是2007年,由开源码发展实验室(Open Source Development Labs,OSDL)与自由标准组织(Free Standards Group ,FSG)联合起来成立的,其中MeeGo是Linux基金会管理下的Linux操作系统。

 

本文翻译自 https://databricks.com/blog/2019/10/16/delta-lake-now-hosted-by-the-linux-foundation-to-become-the-open-standard-for-data-lakes.html

新福利:

从9月11日开始至10月15日截止,一共五周时间,每周二我会从公众号底部留言+转发+在看综合最多的读者中抽取一名读者,免费包邮送实体新书《HBase原理与实践》,留言互动起来吧~

上周获奖名单:xjy

640?wx_fmt=jpeg

640?wx_fmt=jpeg

640?wx_fmt=jpeg

 

猜你喜欢

1、

2、

3、

4、

 

640?wx_fmt=png

过往记忆大数据微信群,请添加微信:fangzhen0219,备注【进群】

这篇关于重磅|Spark Delta Lake 现在由Linux基金会托管,将成为数据湖的开放标准的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/636561

相关文章

Linux换行符的使用方法详解

《Linux换行符的使用方法详解》本文介绍了Linux中常用的换行符LF及其在文件中的表示,展示了如何使用sed命令替换换行符,并列举了与换行符处理相关的Linux命令,通过代码讲解的非常详细,需要的... 目录简介检测文件中的换行符使用 cat -A 查看换行符使用 od -c 检查字符换行符格式转换将

Go标准库常见错误分析和解决办法

《Go标准库常见错误分析和解决办法》Go语言的标准库为开发者提供了丰富且高效的工具,涵盖了从网络编程到文件操作等各个方面,然而,标准库虽好,使用不当却可能适得其反,正所谓工欲善其事,必先利其器,本文将... 目录1. 使用了错误的time.Duration2. time.After导致的内存泄漏3. jsO

Linux系统配置NAT网络模式的详细步骤(附图文)

《Linux系统配置NAT网络模式的详细步骤(附图文)》本文详细指导如何在VMware环境下配置NAT网络模式,包括设置主机和虚拟机的IP地址、网关,以及针对Linux和Windows系统的具体步骤,... 目录一、配置NAT网络模式二、设置虚拟机交换机网关2.1 打开虚拟机2.2 管理员授权2.3 设置子

Linux系统中卸载与安装JDK的详细教程

《Linux系统中卸载与安装JDK的详细教程》本文详细介绍了如何在Linux系统中通过Xshell和Xftp工具连接与传输文件,然后进行JDK的安装与卸载,安装步骤包括连接Linux、传输JDK安装包... 目录1、卸载1.1 linux删除自带的JDK1.2 Linux上卸载自己安装的JDK2、安装2.1

Linux卸载自带jdk并安装新jdk版本的图文教程

《Linux卸载自带jdk并安装新jdk版本的图文教程》在Linux系统中,有时需要卸载预装的OpenJDK并安装特定版本的JDK,例如JDK1.8,所以本文给大家详细介绍了Linux卸载自带jdk并... 目录Ⅰ、卸载自带jdkⅡ、安装新版jdkⅠ、卸载自带jdk1、输入命令查看旧jdkrpm -qa

Linux samba共享慢的原因及解决方案

《Linuxsamba共享慢的原因及解决方案》:本文主要介绍Linuxsamba共享慢的原因及解决方案,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录linux samba共享慢原因及解决问题表现原因解决办法总结Linandroidux samba共享慢原因及解决

Java利用JSONPath操作JSON数据的技术指南

《Java利用JSONPath操作JSON数据的技术指南》JSONPath是一种强大的工具,用于查询和操作JSON数据,类似于SQL的语法,它为处理复杂的JSON数据结构提供了简单且高效... 目录1、简述2、什么是 jsONPath?3、Java 示例3.1 基本查询3.2 过滤查询3.3 递归搜索3.4

MySQL大表数据的分区与分库分表的实现

《MySQL大表数据的分区与分库分表的实现》数据库的分区和分库分表是两种常用的技术方案,本文主要介绍了MySQL大表数据的分区与分库分表的实现,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有... 目录1. mysql大表数据的分区1.1 什么是分区?1.2 分区的类型1.3 分区的优点1.4 分

Mysql删除几亿条数据表中的部分数据的方法实现

《Mysql删除几亿条数据表中的部分数据的方法实现》在MySQL中删除一个大表中的数据时,需要特别注意操作的性能和对系统的影响,本文主要介绍了Mysql删除几亿条数据表中的部分数据的方法实现,具有一定... 目录1、需求2、方案1. 使用 DELETE 语句分批删除2. 使用 INPLACE ALTER T

新特性抢先看! Ubuntu 25.04 Beta 发布:Linux 6.14 内核

《新特性抢先看!Ubuntu25.04Beta发布:Linux6.14内核》Canonical公司近日发布了Ubuntu25.04Beta版,这一版本被赋予了一个活泼的代号——“Plu... Canonical 昨日(3 月 27 日)放出了 Beta 版 Ubuntu 25.04 系统镜像,代号“Pluc