阿里专家刘应耀:探索阿里数据藏宝图

2023-10-15 05:10

本文主要是介绍阿里专家刘应耀:探索阿里数据藏宝图,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

文章讲的是 阿里专家刘应耀:探索阿里数据藏宝图2013年11月22-23日,作为国内唯一专注于Hadoop技术与应用分享的大规模行业盛会,2013 Hadoop中国技术峰会(China Hadoop Summit 2013)于北京福朋喜来登集团酒店隆重举行。来自国内外各行业领域的近千名CIO、CTO、架构师、IT经理、咨询顾问、工程师、Hadoop技术爱好者,以及从事Hadoop研究与推广的IT厂商和技术专家将共襄盛举。

刘应耀:探索阿里数据藏宝图
2013 Hadoop中国技术峰会

  Hadoop中国技术峰会由China Hadoop Summit专家委员会主办,由IT168、ITPUB、ChinaUnix协办,渠达传媒负责承办。本届大会将秉承“效能、应用、创新”为主题,旨在通过开放、广泛的分享和交流,着力于促进中国企业用户提高应用Hadoop的能力和水平,降低Hadoop技术应用门槛和投资预算门槛,推广大数据的应用价值。

刘应耀:探索阿里数据藏宝图
阿里巴巴高级技术专家刘应耀

  在下午的一场分论坛演讲中,来自阿里巴巴高级技术专家刘应耀发表了题为《探索阿里数据藏宝图——数据地图》的主题演讲,其主要介绍了我们面对大数据,应该关注些什么?阿里巴巴有多少数据?是如何进行存储的?数据与数据之间存在什么关系?大数据的未来是什么?

  谈到阿里的大数据,刘应耀老师特别强调说,“阿里的数据非常复杂,复杂到集团里没有人可以说清楚,阿里到底有多少数据,我们这些数据都存储在哪里,我们这些数据都有什么价值,又如何来挖掘这些价值。”

刘应耀:探索阿里数据藏宝图

  阿里的目标是成为一家数据公司,所以一定要解决一个非常关键的问题,“我们要解决这些数据的存放、管理、关系、以及具体的价值。”为此,阿里进行了一个关于数据管理的项目——数据地图。

  在数据地图项目中,阿里使用到了Hadoop,但刘应耀老师表示,Hadoop并不是万能的,尽管它适合做大数据的存储与分析,但当数据的规模到达一定程度的时候,Hadoop会表现出它的瓶颈,包括计算处理、跨集群的问题等等。此外,Hadoop还有一些先天的缺陷,比如安全、对外开放、搭建企业级的平台。

刘应耀:探索阿里数据藏宝图

  除了Hadoop外,由于阿里数据的复杂性,他们还开发了很多数据系统,比如ODPS、OTS等等,但在这么多数据系统的前提下,如果有效的管理数据,已经成为阿里技术团队所面临的巨大挑战。

  从刘应耀老师展示的这张结构图中,我们可以看到,每个数据系统都有一个显著的特征:都有原仓。“那么我们首先就把所有的数据都收集起来,数据系统之间的流动,是通过我们的同步工具——同步中心。这一系列同步工具所产生的数据的流向,我们做了详细的记录。”

  同时,像数据处理过程中的一些基础服务,比如调度、预警、数据的安全等级、数据生产的消耗的CPU的IO、数据大量的行为日志等等,把这些全部收集起来,作为数据的特征,再加上数据字典和血缘关系,这样就形成了数据的资源池,元数据中心。阿里的元数据中心提供了一系列的数据服务,包括各种数据应用,其中就包括了数据地图这个项目。

刘应耀:探索阿里数据藏宝图

  此外,刘应耀还介绍了数据生命周期管理。“大家知道,Hadoop是一个非常灵活的数据系统,当然除此之外还有很多。开放人员在上面做了什么可能只有他自己知道,如果没有一个很好的管理体制,很难产生好的效果。”

刘应耀:探索阿里数据藏宝图

  数据生命周期管理的作用就在于,来记录数据什么时候产生的、什么时候该用,什么时候销毁,以及解决了根据数据的重要层级,不同的级别的数据采用不同的备份策略。


作者:王晓东

来源:IT168

原文链接:阿里专家刘应耀:探索阿里数据藏宝图

这篇关于阿里专家刘应耀:探索阿里数据藏宝图的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/215537

相关文章

大模型研发全揭秘:客服工单数据标注的完整攻略

在人工智能(AI)领域,数据标注是模型训练过程中至关重要的一步。无论你是新手还是有经验的从业者,掌握数据标注的技术细节和常见问题的解决方案都能为你的AI项目增添不少价值。在电信运营商的客服系统中,工单数据是客户问题和解决方案的重要记录。通过对这些工单数据进行有效标注,不仅能够帮助提升客服自动化系统的智能化水平,还能优化客户服务流程,提高客户满意度。本文将详细介绍如何在电信运营商客服工单的背景下进行

基于MySQL Binlog的Elasticsearch数据同步实践

一、为什么要做 随着马蜂窝的逐渐发展,我们的业务数据越来越多,单纯使用 MySQL 已经不能满足我们的数据查询需求,例如对于商品、订单等数据的多维度检索。 使用 Elasticsearch 存储业务数据可以很好的解决我们业务中的搜索需求。而数据进行异构存储后,随之而来的就是数据同步的问题。 二、现有方法及问题 对于数据同步,我们目前的解决方案是建立数据中间表。把需要检索的业务数据,统一放到一张M

关于数据埋点,你需要了解这些基本知识

产品汪每天都在和数据打交道,你知道数据来自哪里吗? 移动app端内的用户行为数据大多来自埋点,了解一些埋点知识,能和数据分析师、技术侃大山,参与到前期的数据采集,更重要是让最终的埋点数据能为我所用,否则可怜巴巴等上几个月是常有的事。   埋点类型 根据埋点方式,可以区分为: 手动埋点半自动埋点全自动埋点 秉承“任何事物都有两面性”的道理:自动程度高的,能解决通用统计,便于统一化管理,但个性化定

使用SecondaryNameNode恢复NameNode的数据

1)需求: NameNode进程挂了并且存储的数据也丢失了,如何恢复NameNode 此种方式恢复的数据可能存在小部分数据的丢失。 2)故障模拟 (1)kill -9 NameNode进程 [lytfly@hadoop102 current]$ kill -9 19886 (2)删除NameNode存储的数据(/opt/module/hadoop-3.1.4/data/tmp/dfs/na

异构存储(冷热数据分离)

异构存储主要解决不同的数据,存储在不同类型的硬盘中,达到最佳性能的问题。 异构存储Shell操作 (1)查看当前有哪些存储策略可以用 [lytfly@hadoop102 hadoop-3.1.4]$ hdfs storagepolicies -listPolicies (2)为指定路径(数据存储目录)设置指定的存储策略 hdfs storagepolicies -setStoragePo

Hadoop集群数据均衡之磁盘间数据均衡

生产环境,由于硬盘空间不足,往往需要增加一块硬盘。刚加载的硬盘没有数据时,可以执行磁盘数据均衡命令。(Hadoop3.x新特性) plan后面带的节点的名字必须是已经存在的,并且是需要均衡的节点。 如果节点不存在,会报如下错误: 如果节点只有一个硬盘的话,不会创建均衡计划: (1)生成均衡计划 hdfs diskbalancer -plan hadoop102 (2)执行均衡计划 hd

深入探索协同过滤:从原理到推荐模块案例

文章目录 前言一、协同过滤1. 基于用户的协同过滤(UserCF)2. 基于物品的协同过滤(ItemCF)3. 相似度计算方法 二、相似度计算方法1. 欧氏距离2. 皮尔逊相关系数3. 杰卡德相似系数4. 余弦相似度 三、推荐模块案例1.基于文章的协同过滤推荐功能2.基于用户的协同过滤推荐功能 前言     在信息过载的时代,推荐系统成为连接用户与内容的桥梁。本文聚焦于

阿里开源语音识别SenseVoiceWindows环境部署

SenseVoice介绍 SenseVoice 专注于高精度多语言语音识别、情感辨识和音频事件检测多语言识别: 采用超过 40 万小时数据训练,支持超过 50 种语言,识别效果上优于 Whisper 模型。富文本识别:具备优秀的情感识别,能够在测试数据上达到和超过目前最佳情感识别模型的效果。支持声音事件检测能力,支持音乐、掌声、笑声、哭声、咳嗽、喷嚏等多种常见人机交互事件进行检测。高效推

【Prometheus】PromQL向量匹配实现不同标签的向量数据进行运算

✨✨ 欢迎大家来到景天科技苑✨✨ 🎈🎈 养成好习惯,先赞后看哦~🎈🎈 🏆 作者简介:景天科技苑 🏆《头衔》:大厂架构师,华为云开发者社区专家博主,阿里云开发者社区专家博主,CSDN全栈领域优质创作者,掘金优秀博主,51CTO博客专家等。 🏆《博客》:Python全栈,前后端开发,小程序开发,人工智能,js逆向,App逆向,网络系统安全,数据分析,Django,fastapi

烟火目标检测数据集 7800张 烟火检测 带标注 voc yolo

一个包含7800张带标注图像的数据集,专门用于烟火目标检测,是一个非常有价值的资源,尤其对于那些致力于公共安全、事件管理和烟花表演监控等领域的人士而言。下面是对此数据集的一个详细介绍: 数据集名称:烟火目标检测数据集 数据集规模: 图片数量:7800张类别:主要包含烟火类目标,可能还包括其他相关类别,如烟火发射装置、背景等。格式:图像文件通常为JPEG或PNG格式;标注文件可能为X