滴滴敏捷数据中台实践

2024-06-02 16:48
文章标签 数据 实践 敏捷 滴滴

本文主要是介绍滴滴敏捷数据中台实践,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

 

场景描述:滴滴每天处理交通大数据超过4800TB,日均车辆定位数据超过150亿,每日处理路径规划请求400亿次,数据覆盖了交通路况、用户叫车信息、司机驾驶行为、车辆数据等多个维度。滴滴目前对15分钟后供需预测的准确度已经达到了85% 。

关键词:滴滴 数据中台

 

滴滴每天处理交通大数据超过4800TB,日均车辆定位数据超过150亿,每日处理路径规划请求400亿次,数据覆盖了交通路况、用户叫车信息、司机驾驶行为、车辆数据等多个维度。滴滴目前对15分钟后供需预测的准确度已经达到了85% 。

滴滴数据中台发展

业务发展驱动数据进化

滴滴数据中台建设围绕四个方面进行:

  • 业务信息化
  • 信息数据化
  • 数据资产化
  • 资产变现化

并且解决不同的问题。

 

中台数据体系建设的核心难点

产品方面:多场景,全链路的复杂需求

业务方面多团队,多目标的协作需求

 

滴滴精益数据管理体系

滴滴的数据中台从底向上构建了包括数据基础建设,敏捷数据资产,数据治理,数据交付体系。

 

两年来的建设成果:

  • 数据基础设施+系统工具链:开始对外输出
  • 数据文化 150+次改进复盘,周活1700到5000+
  • 敏捷数据治理 DataRank资产分从40到70
  • 精益数据生产D0级事故从非例行任务从10+降为1
  • DataGraph智能数据目录20%员工高频使用
  • 价值交付 NPS从19%到60%

滴滴数据系统构成

数据架构:

 

滴滴的数据架构体系包含了当前大数据领域主流的技术:

离线部分以Hadoop和Hive为主,实时计算部分Flink,Spark

OLAP领域使用了Hbase、Presto和Clickhouse。

智能数据目录

  • 统一的元数据检索能力,
  • 支持Hive、 报表等多种数据实体的统一搜索
  • 基于数据价值或热度的综合排序
  • 业务驱动的数据图谱
  • 众包协作的知识沉淀

 

 

精益数据生产

  • 数据基础质量
  • 稳定性建设
  • 数据上下游联动(全链路 SLA)
  • 埋点管理
  • 数据采集
  • 运维/质量监控
  • 90%复盘率

建立数据委员会,推进业务-运维-数据的 协同机制 一键埋点,用户行为轨迹全记录 数据采集秒级同步,准确性99.999% 数据链路全监控,自动定位关键节点。

如何定位需要的数据

  • 指标口径管理(数据字典)
  • 元数据(数据地图+OneSearch)
  • 资产价值评估体系(DataRank)
  • 数据开放
  • 数据安全规范

指标口径变动100%管控 所有元数据信息一键快速查询 精准评估每一张表的数据影响和价值 数据开放率99.04% 隐私数据全脱敏,完备的权限管控机制, 数据泄露0事故。

更快更简单的使用数据

  • 精细化建设
  • 分级保障
  • 数据图谱与数据中间层
  • 成本优化
  • 数据价值量化

核心数据5点产出(业内普遍7-8点),开发效率提升35% ,指导数据优化方向

标准化数据服务

 

实时数据集成服务

  • 采集集群总规模约300+
  • 数据源约4500+个
  • Agent 数量27000个
  • 峰值摄入数据条数2900w/s
  • 日均查询2千万次
  • 平均响应时间<1S
  • 稳定性99.996%

 

这篇关于滴滴敏捷数据中台实践的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1024529

相关文章

Java利用JSONPath操作JSON数据的技术指南

《Java利用JSONPath操作JSON数据的技术指南》JSONPath是一种强大的工具,用于查询和操作JSON数据,类似于SQL的语法,它为处理复杂的JSON数据结构提供了简单且高效... 目录1、简述2、什么是 jsONPath?3、Java 示例3.1 基本查询3.2 过滤查询3.3 递归搜索3.4

MySQL大表数据的分区与分库分表的实现

《MySQL大表数据的分区与分库分表的实现》数据库的分区和分库分表是两种常用的技术方案,本文主要介绍了MySQL大表数据的分区与分库分表的实现,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有... 目录1. mysql大表数据的分区1.1 什么是分区?1.2 分区的类型1.3 分区的优点1.4 分

Mysql删除几亿条数据表中的部分数据的方法实现

《Mysql删除几亿条数据表中的部分数据的方法实现》在MySQL中删除一个大表中的数据时,需要特别注意操作的性能和对系统的影响,本文主要介绍了Mysql删除几亿条数据表中的部分数据的方法实现,具有一定... 目录1、需求2、方案1. 使用 DELETE 语句分批删除2. 使用 INPLACE ALTER T

tomcat多实例部署的项目实践

《tomcat多实例部署的项目实践》Tomcat多实例是指在一台设备上运行多个Tomcat服务,这些Tomcat相互独立,本文主要介绍了tomcat多实例部署的项目实践,具有一定的参考价值,感兴趣的可... 目录1.创建项目目录,测试文China编程件2js.创建实例的安装目录3.准备实例的配置文件4.编辑实例的

Python 中的异步与同步深度解析(实践记录)

《Python中的异步与同步深度解析(实践记录)》在Python编程世界里,异步和同步的概念是理解程序执行流程和性能优化的关键,这篇文章将带你深入了解它们的差异,以及阻塞和非阻塞的特性,同时通过实际... 目录python中的异步与同步:深度解析与实践异步与同步的定义异步同步阻塞与非阻塞的概念阻塞非阻塞同步

Python Dash框架在数据可视化仪表板中的应用与实践记录

《PythonDash框架在数据可视化仪表板中的应用与实践记录》Python的PlotlyDash库提供了一种简便且强大的方式来构建和展示互动式数据仪表板,本篇文章将深入探讨如何使用Dash设计一... 目录python Dash框架在数据可视化仪表板中的应用与实践1. 什么是Plotly Dash?1.1

Redis 中的热点键和数据倾斜示例详解

《Redis中的热点键和数据倾斜示例详解》热点键是指在Redis中被频繁访问的特定键,这些键由于其高访问频率,可能导致Redis服务器的性能问题,尤其是在高并发场景下,本文给大家介绍Redis中的热... 目录Redis 中的热点键和数据倾斜热点键(Hot Key)定义特点应对策略示例数据倾斜(Data S

springboot集成Deepseek4j的项目实践

《springboot集成Deepseek4j的项目实践》本文主要介绍了springboot集成Deepseek4j的项目实践,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价... 目录Deepseek4j快速开始Maven 依js赖基础配置基础使用示例1. 流式返回示例2. 进阶

Python实现将MySQL中所有表的数据都导出为CSV文件并压缩

《Python实现将MySQL中所有表的数据都导出为CSV文件并压缩》这篇文章主要为大家详细介绍了如何使用Python将MySQL数据库中所有表的数据都导出为CSV文件到一个目录,并压缩为zip文件到... python将mysql数据库中所有表的数据都导出为CSV文件到一个目录,并压缩为zip文件到另一个

SpringBoot整合jasypt实现重要数据加密

《SpringBoot整合jasypt实现重要数据加密》Jasypt是一个专注于简化Java加密操作的开源工具,:本文主要介绍详细介绍了如何使用jasypt实现重要数据加密,感兴趣的小伙伴可... 目录jasypt简介 jasypt的优点SpringBoot使用jasypt创建mapper接口配置文件加密