【SDCC讲师专访】饿了么DBA经理虢国飞:饿了么数据库架构变迁

2024-02-21 05:32

本文主要是介绍【SDCC讲师专访】饿了么DBA经理虢国飞:饿了么数据库架构变迁,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

2016年3月18日-19日,由CSDN重磅打造的数据库核心技术与实战应用峰会、互联网应用架构实战峰会将在上海举行。届时,CSDN将采访一些与会讲师,谈谈他们将在会上分享的内容。


本期我们采访的讲师是虢国飞先生,现任饿了么DBA经理,混迹数据库行业多年,先后在5173、新蛋网、沪江网等担任DBA和DBA Leader职务,关注于数据库管理自动化建设、MySQL、PostgreSQL、MSSQL、NoSQL等领域的技术研究 。他将在数据库核心技术与实战应用峰会中带来《饿了么数据库架构变迁》的干货分享。下面则是CSDN小编对虢国飞先生的会前专访,以下为专访具体内容:

图片描述

饿了么DBA经理 虢国飞

CSDN:首先请您简单介绍下自己、公司以及目前所负责的领域。

虢国飞:大家好,我叫虢(guo)国飞,网名“飞扬过海”,一直从事数据库领域的工作,熟悉的数据库产品有MySQL、MSSQL、PostgreSQL和部分NoSQL,先后在5173、新蛋网、沪江网从事过DBA方面的工作,现在“饿了么”公司担任DBA经理职务,主要负责饿了么数据库的维护和数据库团队的管理工作。

CSDN:您在数据库行业多年,掌握着丰富的数据库开发和设计经验,那么您是如何保持对这份技术热情的呢?

虢国飞:个人认为,能够在一个领域里面保持持续的热情,主要取决于兴趣、成就感和好奇心,只有热爱这个行业、这份工作,才会不断的想去学习、研究和思考,如果再能在此基础上做出一些有意思的事情,取得一些成绩,然后结交一些朋友,相信这份成就感会继续支持你在这个行业里面走下去;还有需要保持一颗好奇心,乐于接受新的事物和技术,能打破自己已有的知识体系,融入新的思想,再从新组织起来,形成新的体系,这样才能不断丰富、提升自己。

CSDN:您能和我们分享下饿了么订单从每天几十万单到如今的几百万订单过程中,在数据库架构方面是如何调整变化的,以及每个阶段面临了哪些问题,又是如何应对的呢?

虢国飞:我最初到饿了么的时候,那时候每天几十万的单量,但是因为饿了么之前一直没有专门的DBA,使得数据库面临的问题很多,包括磁盘空间不足、主从延时、连接数不够、无规范、无规则、大量慢SQL等问题一应俱全;我过去后做了三件事情:1. 先解决一些救火方面的问题,比方磁盘空间、延时、连接数等,2. 推动数据库设计、开发的规则、规范和数据库部署安装的规范,3. 收集了数据库运行数据、加上了监控报警;三项措施其实瞄准了三个方向:稳定现在、收紧入口、把控数据;尤其是把控数据方面,为我们后面的架构调整和DB优化提供了数据、指明了方向。

数据库架构调整大概经历了四个阶段:硬件和DB升级、垂直拆分、sharding、异地容灾。

  1. 硬件和DB升级:
    这个是最开始为解决磁盘空间、延时、SlowSQL等问题采取的一些救火措施,我们上了SSD盘、升级MySQL5.5到5.6、增加slave将不同业务划分到单独的slave上面 (做隔离,单个业务Slow SQL不影响全局 )、同时还进行了机房的搬迁,这其中遇到MySQL升级到5.6 业务代码不兼容的问题(主要是时间和null值不兼容,前期测试也做得不完善),导致真正实施的时候排查了比较久。

  2. 垂直拆分:
    随着我们订单量的不断上涨,主库的压力增加明显,我们通过之前收集的运行数据,再对比我们压测数据,发现原有的架构下,订单上升到200万单左右,核心数据库TPS就支持不了啦,同时Slave延时的问题还会继续出现,连接数也不够,于是我们将核心的主库按业务和TPS的比例拆分成了五套集群,其他相关的业务库也按照我们的运行数据和压测效果一一拆分,最终平稳支持了300多万单的冲击;这个阶段其实主要的问题在于,如何有节奏的推动开发人员配合我们来做DB的拆分,那在拆分之前我们会通过我们的数据来告知到老板和开发负责人我们DB会面临哪些问题?瓶颈在哪里?不调整的话最多能支撑的订单量是多少?我们会拿运行数据、压测数据以及我们拆分后的预期数据来展示给他们,有了数据的支撑和专业的对比分析,老板也会帮我们推动拆分的事;其实还没完,等拆分完成后我们会拿实际运行的数据和之前预期的数据做对比,做成分析报告发给老板和相关的开发人员,让大家感觉到咱们做的事情是有效果、有价值的。

  3. sharding:
    这个阶段,系统要求是10x容量设计,这个阶段对DBA来讲,其实比较痛苦,首先是方案的确定会比较麻烦,最重要的是依赖的因素太多了,很多事情DBA并不能把控,需要很多资源的投入;因为业务比较复杂,光讨论sharding的切片方案就耗时1个多月,还有sharding的方案选型、实施方案、灰度方案、回滚方案以及业务代码的改造等;最终我们将核心的DB拆分为两个维度(用户和商家维度),分了120个片(可以支持1024片),从一套集群变成了12套集群,引入了DAL层(对业务透明),改造后经过压测分析,可以支持到3000w订单/天的量;当然这种调整也带来了新的问题,如sharding之后数据一致性(两个分片)、DAL本身的容灾机制、DB维护量增加等;我们后面开发了数据差异对比和自动数据订正工具来保障数据的一致性,同时也在DAL这一层做了冗余的灾备机制,DB维护我们也通过工具来简化DBA的操作。

  4. 异地容灾:
    这个是我们正在进行的阶段,异地灾备投入比较大,而且风险也比较高,目前因为我们并没有在MySQL源码上面做一些工作,有没有开发drc类似的工具(当然这个是我们努力的方向),所以方案的研究和测试都是在考虑MySQL缺陷下进行的,比如一开始我们就是基于切换的时候两边的数据有差异的前提下来讨论方案的(当然数据是不能丢的,我们需要知道哪些数据出现了问题),因为数据的延时,带来比较严重的问题是数据的冲突和业务数据状态的一致性,对这些数据的丢失或者不一致问题,我们是通过业务方和DBA分别跑脚本来应对的,即业务会负责业务数据状态不一致的修复,DBA会负责修复数据的冲突(比方切换前自增列我们会统一将自增因子调大或者一开始两边就是奇偶递增,避免新写入的数据和老的数据冲突),等机房恢复后,我们再来通过脚本比对差异的数据,跟进业务方案来修复,目前方案还在测试验证当中。

CSDN:在您看来,您觉得数据库技术接下来会面临着哪些挑战?它的发展趋势又如何?

虢国飞:现在互联网对数据库的使用方式发生了很多变化,数据库不再像过去那样笨重,变成很轻的东西了,因为大家对数据库的吞吐量有更高的要求;而且现在硬件性能提升很快,数据库以前的瓶颈以前说是在磁盘IO上,后面可能转变到数据库代码能否将这些强悍的硬件性能使用好的情况。

个人感觉,数据库技术会往三个方向发展,第一是提高数据库本身的吞吐量,在保证数据的一致性的前提下,如何减少锁或者提高锁效率、提高并发度、细化管理方式和提示信息等方面,像MySQL这类开源数据库,还是有很多地方可以继续完善;第二是分布式数据库技术发展,目前大部分公司在做分布式数据库时都会依赖中间件,没有能力做中间件的公司,要做数据库的sharding会比较痛苦,开发人员需要改造很多代码,而且升级、维护都会比较麻烦,不过中间件的引入会带来新的问题,拖慢了效率,增加一个新的风险点,增加了沟通成本,出问题时排查的路线也会更长;如果能让数据库本身实现中间件的机制,那对DBA来讲会是很给力的支持,DBA完全能够自己把控,现在有一些公司在做这个研究;第三是云数据库,CDB目前发展也比较迅速,高配的CDB 越来越多,有丰富的工具支持,中小型的业务完全可以使用CDB,如果不关注状态的业务也可以在多个CDB之间做灾备(比方发送短信的业务),不过数据量大、并发高、要求高的业务,还是推荐自己来维护。

CSDN:您在饿了么期间,有没有很有意思的事情发生,让您至今记忆犹新呢?

虢国飞:我觉得DBA最印象深刻的是故障,尤其是大的故障,我记得在饿了么经历了一个比较大的事故是int字段溢出的问题,碰巧的是我们业务代码之前就有对这个表的插入失败情况,于是抛出的错都被业务丢弃了,当时正是业务高峰期,订单状态都不轮转了,我们的各项监控指标都在安全水位,而且没有错误日志,大家都找到问题;后来还是一位熟悉业务的架构师发现这个现象后,再对表进行测试才找到原因;这个事情让我感受最深的是做DBA很多事情不能停留在表面,我们对各种性能指标都有监控,但是这个还是不够的,还必须深入到业务,才能真正在问题出现时及时定位;现在我们的监控会加入对业务对数据的监控,这需要深入了解业务的特点,这样我们才能制定有效的监控指标,有的放矢,自证清白(即便故障时没有业务代码的错误信息,我们也能知道DB到底有没有问题)。

CSDN:以您对数据库技术的多年研究,如何才能更好的掌握数据库这门技术呢?

虢国飞:个人认为有几点:感兴趣、爱学习、多动手、勤思考、善总结,先深入学习某一款数据库,再扩展到其他,搭建T型知识体系,最终能形成一套自己的维护管理DB的方式方法。

CSDN:在本次SDCC数据库峰会上分享的话题是?

虢国飞:“饿了么数据库架构变迁”,希望和大家分享下我们在业务快速增长下是怎么来调整数据库架构的,同时和大家探讨下各种架构的优劣。

CSDN:您最期待在本次SDCC数据库峰会上听到哪些内容?

虢国飞:数据库架构和技术发展上面其他同仁的一些新的想法和实践,还有遇到过的问题。


SDCC的精彩正在继续,2016年3月18日-19日,数据库核心技术与实战应用峰会、互联网应用架构实战峰会将在上海召开,我们静候您的到来。大会官网(含购票)

这篇关于【SDCC讲师专访】饿了么DBA经理虢国飞:饿了么数据库架构变迁的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/730713

相关文章

使用Dify访问mysql数据库详细代码示例

《使用Dify访问mysql数据库详细代码示例》:本文主要介绍使用Dify访问mysql数据库的相关资料,并详细讲解了如何在本地搭建数据库访问服务,使用ngrok暴露到公网,并创建知识库、数据库访... 1、在本地搭建数据库访问的服务,并使用ngrok暴露到公网。#sql_tools.pyfrom

Java实现数据库图片上传功能详解

《Java实现数据库图片上传功能详解》这篇文章主要为大家详细介绍了如何使用Java实现数据库图片上传功能,包含从数据库拿图片传递前端渲染,感兴趣的小伙伴可以跟随小编一起学习一下... 目录1、前言2、数据库搭建&nbsChina编程p; 3、后端实现将图片存储进数据库4、后端实现从数据库取出图片给前端5、前端拿到

IDEA连接达梦数据库的详细配置指南

《IDEA连接达梦数据库的详细配置指南》达梦数据库(DMDatabase)作为国产关系型数据库的代表,广泛应用于企业级系统开发,本文将详细介绍如何在IntelliJIDEA中配置并连接达梦数据库,助力... 目录准备工作1. 下载达梦JDBC驱动配置步骤1. 将驱动添加到IDEA2. 创建数据库连接连接参数

Jmeter如何向数据库批量插入数据

《Jmeter如何向数据库批量插入数据》:本文主要介绍Jmeter如何向数据库批量插入数据方式,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录Jmeter向数据库批量插入数据Jmeter向mysql数据库中插入数据的入门操作接下来做一下各个元件的配置总结Jmete

MySql中的数据库连接池详解

《MySql中的数据库连接池详解》:本文主要介绍MySql中的数据库连接池方式,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录mysql数据库连接池1、概念2、为什么会出现数据库连接池3、原理4、数据库连接池的提供商5、DataSource数据源6、DBCP7、C

StarRocks数据库详解(什么是StarRocks)

《StarRocks数据库详解(什么是StarRocks)》StarRocks是一个高性能的全场景MPP数据库,支持多种数据导入导出方式,包括Spark、Flink、Hadoop等,它采用分布式架构,... 目录StarRocks介绍什么是StarRocks?StarRocks适合什么场景?StarRock

Windows环境下安装达梦数据库的完整步骤

《Windows环境下安装达梦数据库的完整步骤》达梦数据库的安装大致分为Windows和Linux版本,本文将以dm8企业版Windows_64位环境为例,为大家介绍一下达梦数据库的具体安装步骤吧... 目录环境介绍1 下载解压安装包2 根据安装手册安装2.1 选择语言 时区2.2 安装向导2.3 接受协议

SpringBoot使用Jasypt对YML文件配置内容加密的方法(数据库密码加密)

《SpringBoot使用Jasypt对YML文件配置内容加密的方法(数据库密码加密)》本文介绍了如何在SpringBoot项目中使用Jasypt对application.yml文件中的敏感信息(如数... 目录SpringBoot使用Jasypt对YML文件配置内容进行加密(例:数据库密码加密)前言一、J

Python调用Orator ORM进行数据库操作

《Python调用OratorORM进行数据库操作》OratorORM是一个功能丰富且灵活的PythonORM库,旨在简化数据库操作,它支持多种数据库并提供了简洁且直观的API,下面我们就... 目录Orator ORM 主要特点安装使用示例总结Orator ORM 是一个功能丰富且灵活的 python O

使用 sql-research-assistant进行 SQL 数据库研究的实战指南(代码实现演示)

《使用sql-research-assistant进行SQL数据库研究的实战指南(代码实现演示)》本文介绍了sql-research-assistant工具,该工具基于LangChain框架,集... 目录技术背景介绍核心原理解析代码实现演示安装和配置项目集成LangSmith 配置(可选)启动服务应用场景