Alluxio CEO李浩源:构筑数据流动的高速公路

2023-10-10 18:18

本文主要是介绍Alluxio CEO李浩源:构筑数据流动的高速公路,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

Robin.ly 是一个全新的视频内容平台,旨在为广大工程师和研究人员提高对商业、创业、投资和领导力的理解。本期是Robin.ly创始人Alex Ren采访Alluxio 创始人,李浩源博士

 

以下为采访实录摘要:

完整视频请在文末扫二维码关注

 

Alex: 大家好我是Alex Ren,Robin.lyTalentSeer的创始人。今天是我们Robin.ly Entrepreneurship Talk第二讲,荣幸地邀请到了知名大数据初创公司Alluxio的创始人及CEO,李浩源博士来做分享。介绍一下Robin.ly,它是一个新的视频内容平台,主要目的是为了提高工程师和研究人员对于leadership,entrepreneurship和AI的理解。通过邀请知名投资人,创始人,AI领域的科学家学者,以及一些业内领袖分享他们的经历,以此增进大家对于这些内容的理解。介绍一下李博士的背景:毕业于北大,康奈尔和UCBerkeley,获得UC Berkeley计算机博士学位。他的导师之一Ion Stoica是Databricks的founding CEO;另外一位导师,Scott Shenker是IEEE的工程院院士,也是以前一家startup,Nicira的创始人,Nicira后来以12亿美元被VMware收购。李博士是Tachyon和Spark Streaming系统的作者,也是Apache Spark的founding commiter。他曾经在Google和Conviva等公司从事过data mining相关工作。2015年李博士创立Alluxio时(那时公司名字是Techyon Nexus),获得了巨大的关注,并得到了硅谷知名风投人Andreessen Horowitz将近$8 million的投资。最近几年Alluxio获得了长足的发展,目前开源社区也越来越大,是现在主流的一个开源社区。今天想请浩源来分享下他对于大数据,对于AI带来的大数据的存储和计算问题,以及创业过程的理解。首先表示感谢!先请浩源解释一下Alluxio的定义,它的产品全称是memory speed virtual distributed storage system。能否通俗地解释下这是个什么系统?

 

李浩源:很高兴接受Alex的邀请来到这里,跟一些工程师朋友和对创业有兴趣的朋友做一些分享。回答一下问题:Alluxio系统,或者这个项目,是一个virtual distributed file system,翻译成中文叫“虚拟分布式存储系统”。这也是我当年博士项目以及博士论文的主题 。这个系统到底在干什么呢?为什么做,motivation是什么?从整个业界以及社会发展的角度看,未来的世界会是一个数据的时代。在一个数据的时代,最核心的价值本身在数据里面,这是foundation。从这个角度出发,我们当时在探索什么样的技术会对这个时代产生最根本性的改变,或者最fundamental的驱动。经过分析整个生态系统环境,无非就是两点——从宏观角度,是data-driven application,数据驱动的应用;另一个是存储领域,怎么样来存数据。这两个领域,一个是上层计算领域,一个是下层存储领域。再回来看整个数据的life cycle,绝大部分时间是在存储里面。所以很自然而然的想法就是,在整个生态系统里,存储系统会有最大的战略性意义和重要性 。

 

这是我们最开始的想法。但之后发现有问题。回顾过去40年的存储系统发展,基于硬件的发展以及算法的发展和架构的发展,每隔3-8年都会有新一代存储系统产生。从用户的角度看,用户会有很多存储,或者是同一个存储很多部署在自己的环境里面,所以整个数据的存储环境非常分散和混乱。而在数据时代,数据本身非常有价值,但前提是要管理好,利用好这些数据,但目前存储领域没有人能做好。因此我们做了这套系统,这个系统在计算和存储之间,可以为用户管理所有存储在不同存储系统里的数据。叫“虚拟化”,是因为我们不去真正存储,但是替用户去管理。在构建这个平台的过程中,我们起到了一个enabler的作用,在不同的存储里面管理所有数据。所以用户使用时,可能有HDFS,可能有EMC的存储,也可能有云存储,比如美国的亚马逊,微软,国内的阿里巴巴,华为等。但是无论它用什么存储,这个virtual distributed file system都可以把数据虚拟化,让上层很有效地使用,访问和管理数据。

 

Alex: 您讲到了上层,你们的上层是什么?有哪些公司在跟你们合作上层系统?

 

李浩源:从宏观角度讲是data-driven applications。这个概念很广,现在有不同的sector。比如最开始时,这个sector只是大家今天叫的big data analytics,比如Hadoop vendors,MapR,Cloudera,Hortonworks这种公司,这是第一批的data-driven application公司。之后第二批被称作IoT,或者是machine learning 公司;这些公司去构建机器学习的应用,或者是物联网的应用,最根本在于分析数据。无论是什么应用,只要是以数据驱动的应用——这是第二个和第三个sector。前瞻的话,以后随着无人驾驶,5G的出现,无人驾驶汽车本身就是一个小的data center,并且跟终端的大数据中心会有很大的带宽。所以它本身需要很大的数据交互量,这本身又是一个新的workload,未来的workload。我用这几个例子来说明workload的趋势,以前,新兴以及未来的类型。现在很多workloads,有早期的像MapReduce,Spark,还有之后的Hive,以及又出现的Presto,TensorFlow,Caffe等。因为我们是开源软件公司,很多互联网上都有这些案例;针对可以读中文的developer,我们推出了中文微信公众号,分享了很多中文案例。

 

Alex: 您提到了一些AI这方面的应用,在你们创立公司之后,也就是2015年之后,AI开始热度渐长,深度学习对数据的依赖越来越大,对存储和计算资源的要求越来越高;您怎么看AI这波潮流对做数据存储业务公司的挑战?你们的解决方案是?

 

李浩源:无论是现在的AI潮流,以前的大数据潮流,IoT的潮流,以后新的潮流,我们认为总体的业界方向都是数据驱动。数据本身——今天大家叫business critical——对商业产生了很大的价值;到下一阶段,可能有几十年的时间,但是下一个阶段主题是life critical,现在已经可以看到一些life critical的应用,比如自动驾驶,如果数据系统不work,就会危及生命。一个实际的案例是去年在旧金山的一个用户,他们是一家大约1000人左右做基因分析的startup公司Guardant Health, 他们用我们的软件分析癌症患者的基因,之后把原来需要四周的分析时间变成了两周。看起来似乎只差了一倍的时间,但是从癌症病人的角度看是生与死的区别。所以慢慢地数据应用会从business critical变成life critical。

 

Some base curve大家都很清楚,从今天的fraud detection,到risk management,e-commerce,广告推荐系统,产品推荐系统——做得越好,利润越高。这就是business critical,以后就是life critical,这是核心,是整个应用的走向。只要应用是数据驱动的应用,就需要大量的数据。而从一般情况看,数据越实时,越好管理,利用的效率越高,应用的结果越好。这里会涉及到底层数据的管理,如何有效访问数据,如何节省开销,如何使想使用数据的应用更容易地更实时地使用到数据。而不是另一种方式——在用户使用我们产品之前,有很多数据在另外一个存储系统里。应用的developer需要用某个数据,需要把数据导到一个新的存储里,这个过程可能要花费几周甚至几个月的时间。我们的系统可以使developer马上用上数据,这就是质的区别。同样两家公司,假设都是financial service行业,数据使用速度不同,竞争力就完全不同。就好像两个国家,一个有高速公路网,一个没有,两个国家同样可以拥有奥迪,奔驰等汽车,但没有高速公路网的话,汽车跑得再快还是受到极大的速度限制。

 

Alex: 能否介绍下你们的solution有什么特点

 

李浩源:整个数据领域的兴起大概是18年前,2001-2002年的时候。当时主要是几家互联网公司发现了这个领域的价值所在,提出大数据这一概念。很多人当时也看到了这个需求,认识到做数据平台的机会,但是绝大部分市场上已有的厂商解决问题的思路是做一个更好的存储系统。拿Hadoop vender这个大数据的厂商为例,今年可能已经改变了他们的message——但是5年前,10年前,谈到类似的问题,它的解决办法就是做一个非常好的存储,很便宜且容易使用,然后告诉整个业界:既然我的存储这么好,你们应该把所有的数据都移到我的存储里面。然而它忽视了整个存储行业的发展规律,每3-8年都会有一个trend——基于硬件发展以及架构革新的前进,总会有更好的存储系统出现。今天是云存储,或者叫面向对象的存储(object store),取代8-10年前流行的大数据存储HDFS。 

我们提出的这个概念是,不想做一个更好的马车,而是做一个汽车。将最根本的要做的事情进行了替换——不再做传统的存储,而是虚拟的存储。同样的philosophy也被用在了不同的领域。我博士论文做的Alluxio的概念叫VDFS,virtual distributed file system。这是拿PC时代发展举的例子。比如,现在我们用ipad或者任何pad,无非是为了发邮件,办公,看电影,玩游戏;并不需要关心邮件系统底下到底是如何设计的,也不需要关心ipad里面的CPU是谁产的。

从数据时代来看,这些应用以及应用的人关心的就是两件事情:第一,要把一个数据放进去,第二,晚些时候要读数据时候能读出来,在这个前提下,让剩下的事情尽量简单高效。这就是最核心的额内容也是我们正在做的事情。

 

Alex: 我看到你们有一个目标叫unified data at memory speed强调的是memory speed。能否从技术角度解释一下这意味着什么为什么一定要做到这个memory speed

 

李浩源unified data,可以把所有的数据整合起来;memory speed是业界硬件技术的一个发展趋势。这里有两个趋势,其一是存储计算分离,在计算端和计算集群有很多memory资源,内存资源,SSD资源以及硬盘资源。如何有效地管理这些资源,这就是我们做的事情——存储计算分离。另外一个趋势是,在计算端,缓存,DRAM,或者是3D Xpoint以及NVMe这些新型的缓存技术的容量持续以指数级的方式上涨。对于大部分的应用案例,大家会发现最重要的数据量在计算端,缓存以及内存资源已经有足够能力来处理了。这个趋势会越来越明显。所以如何设计系统架构去尽可能地利用这个趋势,非常重要。我们在设计系统的第一天,整个架构就是按照以上的趋势进行的设计,因为我们相信这就是未来的大方向。

 

Alex: 我们来看看您之前的创业经历。UC BerkeleyAMPLab享有盛誉,除了很多知

名的开源产品,如Apache MesosSparkDatabricks这样的公司。您在读博士期间确定研究方向后,找到了这个痛点就做了现在的公司,这中间您有一个transition——从技术领域transit到了一个founder的角色。作为founder您就要开始关注一些商业模式和市场需求。这是一个什么样的过程,有些什么样的心得?

李浩源:一方面这是一个transition,另外一方面其实我也有一定的准备。从个人角度看,我对企业级软件比较有兴趣,也希望这种系统的创新可以被应用到不同的领域去power这种重要的infrastructure——这属于个人兴趣。基于这种兴趣,在去Berkeley之前,我在一个做enterprise software的start up Conviva工作过一段时间。做enterprise software的公司和做comsumer product 的公司有一些差别,因为很多时候comsumer company自己也是客户,可以从自己的角度去理解和思考。但是enterprise很多时候是面向企业,要专门去企业了解。所以在去Berkeley之前,我也利用了这个机会,这家公司除了做软件工程师外,也给了我很多机会去了解enterprise software,如何做enterprise software。

因此在我开始读博士以前,脑海里就有了大概的方向——要做数据,尽量和存储相关,并且在Berkeley期间慢慢找到了最终的方向。所以整个过程都对创业有一些准备和思考。在博士毕业前开始创立这家公司时,还是很不同——做公司,做项目和博士发论文本身就截然不同,会涉及到不同的挑战。

 

Alex: 我在跟您的沟通中发现您对技术痛点研究得比较深入,这个就是普通情况下founder需要做的事情。你要关注整个市场趋势是什么,技术能解决什么痛点。这也说明您读博时就已经有很强的目的性了。

 

李浩源:对。还有一个是当时实验室的优势,有两方面原因——其一是实验室的老师们给了博士生很大的空间和很多机会,如果学生想往一个方向走的话,你可以自己决定想走的方向。其二,整个实验室的架构非常有利于产业界和学术界的结合。当时这间实验室除了正常的自然科学基金资助以外,还有超过一半的资金来自业界,大约在硅谷数得上名字的技术公司都是这家实验室的赞助商。所以每年有固定两次每次三天,和业界进行集中交流的时间。作为博士生,实验室的研究人员,有机会去向业界展示阶段性的研究成果,他们也会给你一些意见和建议。这么一个feedback loop是一个非常有优势的点。这种关系也方便了学生在六天以外跟一些不同的公司有很大程度的交流。我记得早期的时候,我们这个项目有几十次presentation,有充分地与业界公司里权威的技术人员进行交流的机会。

 

Alex: 另外我也想到,您的导师是比较知名的成功的创业者,在学术上和创业上都做得比较成功难能可贵。您从他们身上学到了什么东西?

 

李浩源:因为我有两个导师,他们每个人都不一样。两个人都非常厉害。在博士期间可以有这两个导师是我的幸运。这两个人从外界的角度来讲都属于功成名就了,无论是在学术界还是产业界。最重要的是他们都非常努力,即使在这个人生阶段还是毫不松懈,他们的努力程度不亚于任何一个实验室里的博士生,非常让人惊讶。另外一个就是他们对学术和产业技术方向的观点和看法非常深入。从我的角度看,他们在自己各自的领域都是世界上最杰出的任务。所以很多时候你思考的问题是如何从根本上来推动一个领域向前发展,非常有意思。从这方面看,去尝试,做一点比较基础性的创新很有意义,这也是我跟他们学到的一点。

 

Alex: 那您在创业生涯中,对哪些能力或者素质比较关注?比如说soft skills,还是presentation,沟通能力?

 

李浩源:刚才的这些skill都很重要,我自身也需要一直提高这些技能,而且这些技能不要等到做公司那天再去学。从我个人经历看,最开始做开源软件,公司成立之前大约有五六十人,有二三十家公司,需要很多沟通,就需要对一些presentation和softskill进行提升。当然公司在发展的不同阶段也一直需要提高这些技能。做不做公司是要看一个人要走的方向,但无论是否做公司这些技能的提高都很必要。

 

Alex:我想这个对你们来讲可能尤其重要,因为你们不只做这个公司,而且还有个开源的社区。本身开源社区的架构和技术的推广就是你们的责任。

 

李浩源:对。从另外一个角度讲,这不是一个人的事情。我觉得我比较幸运的是我们公司有很多非常厉害的人,比如说现在有一个副总裁是专门负责开源社区的成长。也有副总裁是专门做产品,专门做营销。负责社区的人会有day-to-day的跟社区人员沟通,当然会有各种各样沟通上的问题,不过可以随时解决。那最重要的是有一个好的团队,架构设好了,有一个好的团队,在这种情况下会是很好的经历。

 

Alex:您提到了开源社区——我想您经常会出现两个身份,一个是创始人,一个是开源社区的维护者。您怎么去平衡这两个角色?

 

李浩源:说实话,比较难平衡。从创始人的角度看,很多时候要考虑一个技术远景。从公司CEO的角度看,有很多的日常运营以及代理公司的问题,这两个角色稍微有点区别。在开源社区这边,由于我们有一个很不错的团队,所以社区方面的日常运营不需要我过分参与。但是有机会的话,我还是非常喜欢跟程序员社区的成员进行沟通。我本身也是程序员背景,很喜欢这件事情,有很大的passion。

 

Alex:我看到市场上你们在中美两国都在推广, 我想知道在市场上有哪些进展?

 

李浩源目前是有很多公司在用。我们也感到非常自豪,因为各个领域最好的公司都在内部使用我们的软件做越来越重要的业务。比如,我们采访的大部分听众是中国的程序员背景,从中国国内的角度看,中国目前按市值来排名的最大的前十家互联网公司里,有九家在产品线里使用我们的软件,很多也是公开地积极地参与到社区的活动里。我们的微信公众号里也有一些公开的案例,像腾讯,京东,滴滴,唯品会都在用,七牛,苏宁也都在用我们的产品。除了互联网行业,零售行业使用也很广泛。目前使用最多的几个行业是互联网,零售,包括e-commerce,还有电信行业——特别是中美顶级的最好的三家电信公司都在用我们的软件——当然还有金融服务行业,比如在美国和亚洲地区规模最大的银行也在使用我们的产品。这也是我们目前觉得很自豪的事情: 我们的技术和产品可以得到这些很重要公司的认可,我们的产品能够让他们成为他们做很重要架构时的一个应用。

 

Alex:大数据创业几年前就已经开始了,现在应该已经有像你们这样做到有一定的attraction和客户revenue的社区的一个情况,您怎么看Alluxio下一步的发展,未来三年的目标是什么?

 

李浩源:首先,大数据这个词被几个大数据厂商使用过度,成为了coin term。从这个角度讲,我们不认为自己是一家大数据公司,而是一家数据公司。区别在哪里呢?大数据公司大家认为就是做大数据分析,像Spark,MapReduce,Hive;而我们做的其实叫data-driven application,只要是数据驱动的应用我认为都可以跑在我们的平台上面。所以说我们是一家数据公司。这是我对未来的一个看法。

 

未来3-5年,在我刚才提到的几个领域,中美之间还有整个亚太地区,最领先的产业公司大部分都在用我们的产品,所以希望两方面:其一,从3年的角度看,有更多行业的顶级公司使用我们的产品,在它们的数据架构里面充当一个很重要的位置,这是从扩展行业的角度讲;其二,在已有的行业里,希望有更多的公司使用我们的产品,也希望我们的社区发展得越来越大。因为如果想作一个市值标准的话,社区发展是非常重要的指标。开源也是基础架构型软件未来的一个必然趋势。目前很多世界领先的500强公司在选择基础架构型软件时,一定要选择一个有开源背景的软件。所以我们从使用角度来讲要做到广和深,从技术角度来讲,要慢慢走向一个更加成熟的平台型技术。目前的系统从长远讲还有很多挑战,这也是令开发人员以及社区人员非常兴奋的一点,因为有新的东西可以做。我坚信这个系统会越来越丰富,越来越成熟,我们有一个长长的用户需求列表,希望这个系统可以越来越全面,走向对系统定位更成熟的方向。

 

Alex:今天倾听了浩源对整个数据行业发展的介绍,包括您所说的数据驱动的应用,整个生态,以及AI起来之后对行业背后的存储和计算带来的挑战,特别是他作为一个startup的founder,怎么从一个researcher的角色过渡到一个创业者的经历,有很多的思考渗透其中。希望大家关注Alluxio的社区,如果有兴趣解决冲突的问题,也可以多了解他们的solution,加入他们的开源社区平台。

另外李浩源博士,受邀在201812月6日中国大数据技术大会(BDTC 2018)主论坛上,作题为“Alluxio—统一化分布式虚拟文件系统”的主旨报告,敬请期待!同时也可以多关注我们Robin.ly平台里边的内容,后期会有更多类似的分享。谢谢!

 

李浩源:谢谢大家,谢谢Alex!

想看更多访谈或参与我们的线下活动,请扫二维码关注我们的网站和微信订阅号(Robinly)

想看更多关于Alluxio的分享,请关注www.alluxio.org和微信订阅号:

 

这篇关于Alluxio CEO李浩源:构筑数据流动的高速公路的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/182211

相关文章

大模型研发全揭秘:客服工单数据标注的完整攻略

在人工智能(AI)领域,数据标注是模型训练过程中至关重要的一步。无论你是新手还是有经验的从业者,掌握数据标注的技术细节和常见问题的解决方案都能为你的AI项目增添不少价值。在电信运营商的客服系统中,工单数据是客户问题和解决方案的重要记录。通过对这些工单数据进行有效标注,不仅能够帮助提升客服自动化系统的智能化水平,还能优化客户服务流程,提高客户满意度。本文将详细介绍如何在电信运营商客服工单的背景下进行

基于MySQL Binlog的Elasticsearch数据同步实践

一、为什么要做 随着马蜂窝的逐渐发展,我们的业务数据越来越多,单纯使用 MySQL 已经不能满足我们的数据查询需求,例如对于商品、订单等数据的多维度检索。 使用 Elasticsearch 存储业务数据可以很好的解决我们业务中的搜索需求。而数据进行异构存储后,随之而来的就是数据同步的问题。 二、现有方法及问题 对于数据同步,我们目前的解决方案是建立数据中间表。把需要检索的业务数据,统一放到一张M

关于数据埋点,你需要了解这些基本知识

产品汪每天都在和数据打交道,你知道数据来自哪里吗? 移动app端内的用户行为数据大多来自埋点,了解一些埋点知识,能和数据分析师、技术侃大山,参与到前期的数据采集,更重要是让最终的埋点数据能为我所用,否则可怜巴巴等上几个月是常有的事。   埋点类型 根据埋点方式,可以区分为: 手动埋点半自动埋点全自动埋点 秉承“任何事物都有两面性”的道理:自动程度高的,能解决通用统计,便于统一化管理,但个性化定

使用SecondaryNameNode恢复NameNode的数据

1)需求: NameNode进程挂了并且存储的数据也丢失了,如何恢复NameNode 此种方式恢复的数据可能存在小部分数据的丢失。 2)故障模拟 (1)kill -9 NameNode进程 [lytfly@hadoop102 current]$ kill -9 19886 (2)删除NameNode存储的数据(/opt/module/hadoop-3.1.4/data/tmp/dfs/na

异构存储(冷热数据分离)

异构存储主要解决不同的数据,存储在不同类型的硬盘中,达到最佳性能的问题。 异构存储Shell操作 (1)查看当前有哪些存储策略可以用 [lytfly@hadoop102 hadoop-3.1.4]$ hdfs storagepolicies -listPolicies (2)为指定路径(数据存储目录)设置指定的存储策略 hdfs storagepolicies -setStoragePo

Hadoop集群数据均衡之磁盘间数据均衡

生产环境,由于硬盘空间不足,往往需要增加一块硬盘。刚加载的硬盘没有数据时,可以执行磁盘数据均衡命令。(Hadoop3.x新特性) plan后面带的节点的名字必须是已经存在的,并且是需要均衡的节点。 如果节点不存在,会报如下错误: 如果节点只有一个硬盘的话,不会创建均衡计划: (1)生成均衡计划 hdfs diskbalancer -plan hadoop102 (2)执行均衡计划 hd

2024年流动式起重机司机证模拟考试题库及流动式起重机司机理论考试试题

题库来源:安全生产模拟考试一点通公众号小程序 2024年流动式起重机司机证模拟考试题库及流动式起重机司机理论考试试题是由安全生产模拟考试一点通提供,流动式起重机司机证模拟考试题库是根据流动式起重机司机最新版教材,流动式起重机司机大纲整理而成(含2024年流动式起重机司机证模拟考试题库及流动式起重机司机理论考试试题参考答案和部分工种参考解析),掌握本资料和学校方法,考试容易。流动式起重机司机考试技

【Prometheus】PromQL向量匹配实现不同标签的向量数据进行运算

✨✨ 欢迎大家来到景天科技苑✨✨ 🎈🎈 养成好习惯,先赞后看哦~🎈🎈 🏆 作者简介:景天科技苑 🏆《头衔》:大厂架构师,华为云开发者社区专家博主,阿里云开发者社区专家博主,CSDN全栈领域优质创作者,掘金优秀博主,51CTO博客专家等。 🏆《博客》:Python全栈,前后端开发,小程序开发,人工智能,js逆向,App逆向,网络系统安全,数据分析,Django,fastapi

烟火目标检测数据集 7800张 烟火检测 带标注 voc yolo

一个包含7800张带标注图像的数据集,专门用于烟火目标检测,是一个非常有价值的资源,尤其对于那些致力于公共安全、事件管理和烟花表演监控等领域的人士而言。下面是对此数据集的一个详细介绍: 数据集名称:烟火目标检测数据集 数据集规模: 图片数量:7800张类别:主要包含烟火类目标,可能还包括其他相关类别,如烟火发射装置、背景等。格式:图像文件通常为JPEG或PNG格式;标注文件可能为X

pandas数据过滤

Pandas 数据过滤方法 Pandas 提供了多种方法来过滤数据,可以根据不同的条件进行筛选。以下是一些常见的 Pandas 数据过滤方法,结合实例进行讲解,希望能帮你快速理解。 1. 基于条件筛选行 可以使用布尔索引来根据条件过滤行。 import pandas as pd# 创建示例数据data = {'Name': ['Alice', 'Bob', 'Charlie', 'Dav