重磅!ApacheHudi成立商业公司Onehouse

2024-09-06 17:08

本文主要是介绍重磅!ApacheHudi成立商业公司Onehouse,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

点击上方蓝色字体,选择“设为星标”

回复”面试“获取更多惊喜

6977edcf7839480e2186c24f8a6abce7.png

Apache Hudi(简称“Hudi”)于 2016 年在 Uber 创建,旨在将数据仓库功能引入数据湖以获取准实时的数据,开创了事务数据湖架构,现已在所有垂直行业中进入主流。在过去的 5 年里,围绕该项目已发展出一个丰富多彩的社区,并迅速创新。

Hudi 为数据湖带来了类似数据仓库及数据库的功能,并使诸如分钟级数据新鲜度、优化存储、自我管理表等新事物直接在数据湖中成为可能。来自世界各地的许多公司都为 Hudi 做出了贡献,该项目在不到两年的时间内增长了 7 倍,每月下载量接近 100 万次。

我很荣幸目睹了亚马逊、字节跳动、Disney+ Hotstar、GE Aviation、Robinhood、沃尔玛等更多企业采用并构建基于 Apache Hudi 的 EB (Exabyte) 级数据湖,来支持其关键商业应用。紧跟潮流,我很高兴能在这里分享过去几个月我们利用 Hudi 正在构建的公司和产品 - Onehouse。

为了启动我们的征程,我们获得了 Greylock Ventures 和 Addition 的 8 百万美元的种子轮投资——这些投资公司在培育企业数据初创公司方面拥有出色的业绩记录和丰富的经验。以下是我们的旅程故事和对未来的愿景。

数据湖、仓库、湖仓一体

在与 Hudi 社区中的不同公司合作时,我们注意到了一个共同模式。这些公司通常先采用主要支持传统 BI/Analytics 的数据仓库(简称“数仓”),主要因为数仓易于使用且通常可以完全托管。

然后,随着公司业务的增长,工作负载的复杂性和规模也会随之增加,从而导致成本呈指数级增长。不断上涨的成本及在数仓中无法实现的更高级数据科学工作负载促使他们投入数据湖。而对数据湖的投入伴随着一系列全新挑战,包括并发性、性能和对成熟数据管理的缺乏。

大多数公司最终在夹缝中求生存,被迫游走其中,同时使用数据湖和数仓来管理数据。然而,在过去几年里,像 Hudi 这样的新兴技术提供了解决上述一些问题的方法——通过向数据湖添加关键的数仓功能,如事务、索引和可扩展的元数据。最近,湖仓一体(Lakehouse)作为一种支持两种工作负载的新型湖而广为人知。这个术语是新的,但它蕴含了我们最初在 Uber 建立 Hudi 的初衷。

大数据管理问题依然存在

即使数据管理技术存在,湖仓一体仍然需要由专业、昂贵的工程团队,使用各种开源工具来建造。工程师需要深入了解至少 3 到 4 个分布式系统或数据库,并从头开始构建包括 CDC 摄取、数据删除/屏蔽作业、文件大小控制及数据布局优化在内的所有模块。

在与 Hudi 社区互动的五年中,我观察到这一流程通常需要几个月、甚至一年多的时间,时间长短取决于数据规模和复杂性。在大多数情况下,这些公司会重复构建同样的数据基础架构的各种模块。与其它项目不同的是,Hudi 从一开始就认识到了这个问题,提供了一组丰富的开放服务,包括回收存储空间、流式摄取及优化表以提高性能。例如,我们已经看到,依赖 Hudi 流处理工具来构建数据湖摄取的公司接踵而至,这推动了代码级别的标准化。

然而,公司仍然需要针对这些服务及其相互作用来建立卓越的运维,以使其数据湖充分发挥潜力。运维数据湖及湖仓一体具有挑战性;当您拥有实时流处理和事务数据源,并且需要复杂的变更数据捕获(CDC)管道时,这项工作会变得更加艰巨。事实上,我们在 Uber 围绕 Hudi 构建了大量运维系统,这使得将数据湖作为服务提供给拥有两万多名员工的大型全球企业成为可能。

在过去十年中花费了无数小时解决生产中断,恢复了五个大型分布式数据库(包括 Voldemort、ksqlDB,当然还有 Hudi)的系统稳定性,我可以肯定地说,卓越运维是成功的数据基础架构的最重要一面。由于缺乏标准化的高质量数据基础架构,围绕湖仓一体技术,许多数据湖项目从未充分发挥其潜力,而这正是我们要解决的问题。

OneHouse

我们从用户的角度,重新思考了整套数据基础架构。例如,假设我要加入下一个 LinkedIn 或 Uber,我会如何架构数据为其成功铺路,我们学到什么经验教训以及我们会改变什么。我们认为数据不应该被锁定在特定的查询或计算引擎中,而是可以在不同的 BI、AI 工具和框架中普遍接入,位于供应商中立的标准化数据基础架构之上,无需再次投资 3 到 4 年。Onehouse 就这样诞生了。Onehouse是您的湖仓一体(Lakehouse)的云原生托管基础,可自动摄取、管理和优化您的数据以加快处理速度。

Onehouse 并不是一个新的查询引擎;它是一个自我管理的数据层,可与任何流行的查询引擎或数据/表格式及供应商无缝互操作,因此您可以选择最适合您需求的组合。通过将突破性技术与全面托管且易于使用的服务相结合,企业可以在几分钟而不是几个月内构建数据湖,实现大量成本节约,并仍然拥有开放格式的数据。Onehouse 旨在成为您的数据基础架构的基石,作为您所有数据的归宿。宏观上我们从应对以下类别的挑战开始。

持续数据交付:基于 Hudi 的增量存储和处理能力,Onehouse 将用增量管道取代老式的批处理。只有处理发生变化的数据才能节省大量成本和实现低延迟管道,让您的数据始终保持最新。

魔力数据架构:Onehouse 可大规模提供魔力性能提升,无需人工调参。使繁琐的数据杂务自动化,包括聚合、缓存、小文件合并、目录同步和扩展表元数据,让数据工程师和科学家专注于创造商业价值。

真正开放与互操作:有时您需要 Spark,有时您需要 Presto,有时您仍然需要一个数仓。现代数据生态系统的发展速度如此之快,以至于与许多具有相同水平性能和功能的引擎的互操作性是达成可扩展性上唯一要考虑的。虽然开放格式是必要的第一步,但如果没有开放数据服务来管理数据,用户将面临同样的风险,即被锁定在提供这些服务的少数供应商中。

通过复用 Hudi 的开放服务,Onehouse 提供了真正的开放性和灵活性。大规模节省成本:Onehouse 帮助公司采用面向未来的架构,而不是在后期为复杂工作负载进行改造以导致数据迁移项目及昂贵的数据基础设施费用。Onehouse 在用户开启分析之旅时尽早实现易用性,同时随着数据量的增长或复杂性的增加,以具有成本效益的方式进行扩展。

Hudi 不是真正的产品

那么,这对 Hudi 有什么影响呢?实际上,比以往任何时候都好!我们不是来照搬开源来实现企业版的 Hudi。有了这笔资金,我们现在可以将全职、全身心投入的工程师团队的精力带到 Hudi 社区。

在支持 Hudi 社区四年多后,我认为 Hudi 的巨大增长推动了用户支持、开发人员参与和社区期望,远远超出了志愿者工程师或不同公司的单个工程团队所能承受的范围。我们将成为 Hudi 的狂热用户、社区的积极贡献者,并继续作为该项目的拥护者。我们计划贡献更多来自 Onehouse 的核心开源功能,以帮助 Hudi 这个已经优秀的平台服务变得更好。

作为 Onehouse,我们的重点将是利用我们在大规模数据系统方面的集体运维经验,帮助那些无法负担如此大量工程投资的公司。

下一步

在过去的几个月里,我们一直在努力对这一愿景进行初步迭代。如果您正处于建造湖仓一体(Lakehouse)的风口浪尖,或者正在积极寻求面向未来的数据架构,那么我们很乐意与您合作,将这个产品和平台变为现实。可以通过如下方式之一与我们联系:

  1. 加入我们的试点!在我们早期试点计划的第一批中,我们有少量名额。如果您有兴趣成为设计合作伙伴,请点击上方的“Request A Demo”或直接联系 info@onehouse.ai。

  2. 加入我们的团队!我们正在招聘一支由世界级人才组成的多元化团队,并正在寻找对我们的使命充满热情的人。

  3. 通过请求演示了解更多信息或将任何问题发送至 info@onehouse.ai。

最后,我想借此机会感谢我们的投资人一直以来的不懈支持,尤其是在我经历了一年半的漫长而艰辛的绿卡之路。作为一个通过工作签证将四年的周末和夜晚投入社区的人,这是我所期待的最好的结果——能够全职工作让 Hudi 和数据湖变得更好。


我把发表过的文章按照体系全部整理好了。现在你可以在后台方便的进行查找:

4fce675680403960bf71661d795130cf.png384a7daf8ecfedd035e553b5c64c80fd.png

如果这个文章对你有帮助,不要忘记 「在看」 「点赞」 「收藏」 三连啊喂!

Hi,我是王知无,一个大数据领域的原创作者。 

放心关注我,获取更多行业的一手消息。

d20bb5c6802fd9f60608780288069e3c.png

27ad010a15383c28d2380a08694d2c82.png

2022年全网首发|大数据专家级技能模型与学习指南(胜天半子篇)

互联网最坏的时代可能真的来了

我在B站读大学,大数据专业

我们在学习Flink的时候,到底在学习什么?

193篇文章暴揍Flink,这个合集你需要关注一下

Flink生产环境TOP难题与优化,阿里巴巴藏经阁YYDS

Flink CDC我吃定了耶稣也留不住他!| Flink CDC线上问题小盘点

我们在学习Spark的时候,到底在学习什么?

在所有Spark模块中,我愿称SparkSQL为最强!

硬刚Hive | 4万字基础调优面试小总结

数据治理方法论和实践小百科全书

标签体系下的用户画像建设小指南

4万字长文 | ClickHouse基础&实践&调优全视角解析

【面试&个人成长】2021年过半,社招和校招的经验之谈

大数据方向另一个十年开启 |《硬刚系列》第一版完结

我写过的关于成长/面试/职场进阶的文章

当我们在学习Hive的时候在学习什么?「硬刚Hive续集」

引用链接

[1] Apache Hudi: https://hudi.apache.org/
[2] 丰富多彩的社区: https://hudi.apache.org/blog/2022/01/06/apache-hudi-2021-a-year-in-review
[3] 亚马逊: https://aws.amazon.com/blogs/big-data/how-amazon-transportation-service-enabled-near-real-time-event-analytics-at-petabyte-scale-using-aws-glue-with-apache-hudi/
[4] Disney+ Hotstar: https://searchdatamanagement.techtarget.com/feature/Hudi-powering-data-lake-efforts-at-Walmart-and-Disney-Hotstar
[5] GE Aviation: https://aws.amazon.com/blogs/big-data/how-ge-aviation-built-cloud-native-data-pipelines-at-enterprise-scale-using-the-aws-platform/
[6] Robinhood: https://s.apache.org/hudi-robinhood-talk
[7] 沃尔玛: https://searchdatamanagement.techtarget.com/feature/Hudi-powering-data-lake-efforts-at-Walmart-and-Disney-Hotstar
[8] 回收存储空间: https://hudi.apache.org/docs/hoodie_cleaner
[9] 流式摄取: https://hudi.apache.org/docs/hoodie_deltastreamer
[10] 优化表: https://hudi.apache.org/docs/compaction
[11] Onehouse: https://onehouse.ai/
[12] 这篇 Blog: https://onehouse.ai/blog/onehouse-commitment-to-openness
[13] 加入我们的试点!: mailto:info@onehouse.ai?subject=Join%20the%20Onehouse%20Pilot
[14] info@onehouse.ai: mailto:info@onehouse.ai?subject=Join%20the%20Onehouse%20Pilot
[15] 加入我们的团队!: https://jobs.lever.co/Onehouse
[16] info@onehouse.ai: mailto:info@onehouse.ai

这篇关于重磅!ApacheHudi成立商业公司Onehouse的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1142608

相关文章

Python:豆瓣电影商业数据分析-爬取全数据【附带爬虫豆瓣,数据处理过程,数据分析,可视化,以及完整PPT报告】

**爬取豆瓣电影信息,分析近年电影行业的发展情况** 本文是完整的数据分析展现,代码有完整版,包含豆瓣电影爬取的具体方式【附带爬虫豆瓣,数据处理过程,数据分析,可视化,以及完整PPT报告】   最近MBA在学习《商业数据分析》,大实训作业给了数据要进行数据分析,所以先拿豆瓣电影练练手,网络上爬取豆瓣电影TOP250较多,但对于豆瓣电影全数据的爬取教程很少,所以我自己做一版。 目

创业者该如何设计公司的股权架构

本文来自七八点联合IT橘子和车库咖啡的一系列关于设计公司股权结构的讲座。 主讲人何德文: 在公司发展的不同阶段,创业者都会面临公司股权架构设计问题: 1.合伙人合伙创业第一天,就会面临股权架构设计问题(合伙人股权设计); 2.公司早期要引入天使资金,会面临股权架构设计问题(天使融资); 3.公司有三五十号人,要激励中层管理与重要技术人员和公司长期走下去,会面临股权架构设计问题(员工股权激

某公司笔试编程题

参加了某公司编程题,这些题都来自牛客网,记录总结吧! 一、蛇形矩阵 题目描述 蛇形矩阵是有1开始的自然数依次排列成的一个上三角矩阵. 接口说明 void GetResult(int Num, int* pResult);输入参数:int Num :输入的正整数N输出参数:int *pResult: 指向放蛇形矩阵的字符串指针指针指向的内存区域保证有效 样例输入: 4

我的第一次份实习工作-iOS实习生-公司使用过的软件

bittorrentsync 素材,文件同步软件 cornerstone svn 软件开发合作 mark man 测量坐标的软件 SQLLite Manager 数据库操作软件

自我提升社团成立啦,欢迎各位同学加入~

欢迎加入 大家好,我是马丁,我们的自我提升社团成立啦,欢迎有新的朋友加入!! 我们的社团主要目标是帮助每个人实现自我成长、自我提升,不论他是什么年龄、什么经验、什么专业,只要有一个好学和想进步的心,都可以加入。 为了提升帮助每个人实现自我成长,目前社团选择的是做一个智能客服系统,我们希望通过搭建一个企业级的智能客服系统来帮助每个人实现自我成长。后续,还会开发更多系统~ 目前群里大多是Jav

[机缘参悟-222] - 系统的重构源于被动的痛苦、源于主动的精进、源于进化与演进(软件系统、思维方式、亲密关系、企业系统、商业价值链、中国社会、全球)

目录 前言:系统的重构源于被动的痛苦、源于主动的精进、源于进化与演进 一、软件系统的重构 1、重构的定义与目的 2、重构的时机与方法 3、重构的注意事项 4、重构的案例分析 二、大脑思维的重构 1、大脑思维重构的定义 2、大脑思维重构的方法 3、大脑思维重构的挑战与前景 三、认知的重构 1、定义 2、目的 3、方法 四、实例 五、总结 四、婚姻家庭的重构 1、婚

每个游戏公司的领导都应该看看Supercell的“十年总结”

我知道,你一定会说,Supercell的案例太特殊了。手游出现以来,全世界就只有这么一个Supercell,它的经历、理念和公司架构这些文化,其他公司学不来,不管对中国公司还是海外公司,都没有什么实际借鉴意义。 但Supercell真的有这么“特殊”吗? 比如他们对于留存数据的看重,尤其是测试期留存的看重,和国内——和任何一家常规游戏公司看重留存的态度,都没有什么明显不同。 他们也会试着设立

龙蜥社区首推 AI 原生操作系统路线,三大重磅计划协同生态布局未来

近日,2024 龙蜥操作系统大会(OpenAnolis Conference)在北京圆满召开,此次大会由中国计算机学会开源发展委员会、中关村科学城委员会、海淀区委网信办、中国开源软件推进联盟指导,龙蜥社区主办,阿里云、浪潮信息、Intel、中兴通讯、Arm、中科方德等 24 家理事单位共同承办,主题为“进化·重构·赴未来”。北京市委网信办、海淀区委网信办等领导莅临指导,中国工程院院士、浙江大学信息

Redis单线程?别逗了,Redis6.0多线程重磅来袭!

2019年的 RedisConf 比以往时候来的更早一些,今年会议时间是4月1-3号,仍然是在旧金山鱼人码头Pier 27。恰逢今年是 Redis 第10周年,规模也比以往大一些,注册人数超过1600人,总共有80个议题,除了RedisLabs外还有很多云厂商和Redis用户带来分享。Redis 作者 antirez 在 RedisConf 2019 做了分享,其中一段展示了 Redis 6 引

重磅 | Delta Lake正式加入Linux基金会,重塑数据湖存储标准

大数据技术与架构 点击右侧关注,大数据开发领域最强公众号! 暴走大数据 点击右侧关注,暴走大数据! 作者:wwwzw By 暴走大数据 场景描述:2019年10月16日,在荷兰阿姆斯特丹举行的 Spark+AI 欧洲峰会上,DataBricks 和 Linux