实时数仓，站上产业潮头

本文主要是介绍实时数仓，站上产业潮头，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

在这场新的数据驱动战场里，谁能更好的对数据进行智能、准确、迅速、高性价比的体系化处理，谁能以更低的成本、更高效的能力构建底层的PaaS、IaaS组件，谁就能在如今的市场竞争中构建更具竞争力的业务模型，成为新的弄潮儿。

对ByteHouse而言，在被越来越多企业选择的如今，属于它的新战场，也更是一个个像布鲁肯一样的降本增效新故事，正在到来。

作者| 皮爷

出品|产业家

一个开屏广告的持续时间是几秒？你可能会说是2s，也可能是3s；那一个开屏广告的从你打开APP的那一刻到出现在你眼前，需要多长时间？

“我们能做到200ms，甚至是100ms”。布鲁肯市场负责人张亚灵告诉我们。

在这个和人们眨眼一次几乎一致的时间线里，上演的却是一个完整周期的广告模型——从打开时的接受用户数据，到基于用户数据生成对应的广告策略，最终再反馈到产品端进行前端展示。

这是布鲁肯每天都在提供支持的场景——数据广告。对布鲁肯和数字广告行业的一个简单介绍是，其主要面向媒体端和广告主提供对应的广告服务，一方面帮助媒体端（如电商平台、社媒网站等）获得更大的流量和广告收益，另一方面帮助广告主提供足够精准的广告投放策略，以提高产品曝光。

而为这个复杂精密的实时数字广告模型提供核心动力的，正是布鲁肯的底层数据库，在这个底层的动力源里，无数的数据被加速处理、加速决策，而在特定的如618、双11等节日大促期间，底层的数据流转则更是会被以十倍、乃至百倍的要求提速。

这并不是一件容易的事。“我们平常也会出现一些服务不稳定、请求超时的情况，这种情况也会对前端业务有不小的影响。”张亚灵告诉产业家。与此同时，伴随着布鲁肯业务的增长，其对应的IT资源底层成本也更是在飞速增长。

实际上，这不只是数字广告一个行业的特点。

在如今的2024年，伴随着云计算和数字化浪潮的推进，在越来越多的如电商零售、金融等行业，数据实时性的权重正在被加速提升，对企业而言，如果想要保证业务的持续发展，其底层数据库必须要能满足数据的实时性和高并发要求，此外，在这些要求之上，同时也更必须保证高性价比。

也可以说，布鲁肯正是当下的缩影之一。那么，企业应该如何构建自己的实时数仓体系，又或者说，对企业而言，一个能满足性能、成本、运维等全部需求的数据库方案应该是怎样的？

在布鲁肯的新故事里，一个基于实时数仓的降本增效答案正在出现。

一、“烧钱”的数字广告

2023年4月份，火山引擎ByteHouse团队突然监测到一个“奇怪”但却欣喜的情况，一个企业用户突然基于ByteHouse上线了自己的业务，并且使用量迅速飙升。

“速度很快，前后也就用了11天不到的时间。”ByteHouse团队相关负责人告诉我们。“ByteHouse瞬间的业务并发到了新的峰值，几乎是当时所有客户业务里并发量最高的。”

对ByteHouse的一个介绍是，ByteHouse是火山引擎旗下的一款云原生数据仓库，其能够支撑海量的实时数据分析和数据离线分析，同时具备极强的弹性扩缩容能力、极致分析性能和丰富的企业级服务能力。换言之，这是一款专门面向实时数据方向的数据库产品。

而他们口中的这个客户，正是布鲁肯。在此刻，一个在这家数字广告头部企业内部正在发生的事情是：伴随着业务的增长，它原有的数据库已经不能满足需求，这种不满足在功能，也更在成本。

首先，从数据库类型来看，布鲁肯之前使用的是IT圈内有着“极具战斗力”美誉的开源数据库ClickHouse，由IT部门的相关人员进行数据库的企业级开发和专项运维。

不过，这种选择如今正在面临问题。即伴随着布鲁肯业务的发展，其业务本身的数据量以及对于数据的实时性计算分析效率的要求也更在越来越高。对于市面主流的OLAP产品而言，这些产品尽管本身具备强大的分析和线性拓展能力，但从另一些功能需求上，比如复杂查询等，这些OLAP产品并不擅长。

同时，在数据存储等方面，众所周知，由于ClickHouse本身固有的存储模式（列式存储），伴着布鲁肯业务的发展，其对应的硬件成本也更在飞速飙升。

对应到布鲁肯内部，这更可以理解为是一个效率和成本的双重难题。

即一方面，与布鲁肯对于实时数据处理能力、高并发的能力的强烈需求对应的是，其前端业务侧一度出现类似“业务卡顿、用户请求反馈慢、投放策略优化不及时”等等问题。而另一方面，对应的也更是伴随着布鲁肯业务的发展，其在底层硬件投入以及数据库运维侧也在投入更多的企业运营成本。

换言之，对布鲁肯而言，作为一个对实时数据处理要求极高的企业，如果想要寻求更优质的前端业务模型和更快的发展速度，数据库侧的建设策略必须要调整。

实际上，布鲁肯的这种对实时数据的需求在过去的几年时间里已经成为一种共性的“刚需”，不论是在电商促销、金融场景，包括供应链调度等等，伴随着企业业务的发展深化，其都在涌现出不同程度的对实时数据的特殊要求，以更好地帮助企业调整前端业务的市场策略，进而让企业更具灵活性和适应性。

但如果从整个数据库市场来看，这又不是一件容易的事。不论是开源方向的ClickHouse、Flink，还是目前市面上主流的数据库产品，尽管伴随着湖仓一体等模式的发展以及越来越多开源产品的企业级商业化，但就目前而言，其面向实时数据方向都很难兼备产品性能、运维、成本这三项能力，并且没有被验证。

换言之，这些产品并不是专门面向实时数据场景的数据库产品。

这也恰是在布鲁肯内部的共识。即在ByteHouse团队感知到之前，关于数据库的选型工作在布鲁肯内部已经持续开展了一段时间，在其中包括上述所说的Flink以及国内诸多主流数据库产品，都已经被测试过相关的性能以及对应的使用成本。

ByteHouse，成了这家数字广告头部企业补齐自身“木桶短板”的最终选择。

二、“1个人力，降低企业30%成本”的新故事

而这种选择，甚至给布鲁肯团队带来了惊喜。

一个数据是，从最开始选择ByteHouse到使用其进行生产，布鲁肯仅仅用了11天。对布鲁肯而言，这是一个对企业业务影响极小且成本极低的方案。

“在我们把数据迁移到火山引擎ByteHouse的这个过程中，业务侧其实是有比较强的感知的，包括客户层面的反馈，也都感觉出效果变得更好。”张亚灵告诉我们。

从产品能力来看，ByteHouse更准确的着力点是加速数据在布鲁肯整个体系中的流转，其可以为布鲁肯的前端业务提供更快速的数据处理和数据分析能力，进而帮助布鲁肯的客户和广告主实时优化下单策略和广告策略，同时让投放过程中的指标可以以更快的速度展现到前端，提高其广告投放的性价比。

“其实在整个过程中，我们几乎没有提供过重的服务，除了部分参数和指标的调整确认，也就是一个研发接近20%、30%的人力投入，对于布鲁肯来说，只投入1个人力就完成了接入和运维。”上述ByteHouse负责人表示，“而且在后续的售后环节，ByteHouse的高度产品化，让布鲁肯的使用也非常稳定。”

对布鲁肯内部而言，除了这种隐形成本的降低，在显性成本侧有更清晰的感知。“基本全线切到火山引擎之后，我们的成本大概降低了30%，在效率侧，我们评估提高了30%- 40% 左右，这两个一叠加，其实我觉得效率整体提高一半是有的。”张亚灵告诉我们。

上述负责人告诉我们，最开始布鲁肯仅是一个单集群上线了ByteHouse，而如今伴随着业务发展，上线ByteHouse的集群达到了四个，如今第五个集群的建设正在筹备中。此外，布鲁肯内部核心的主业务集群也更是从最开始的32核扩展到现在的 192核。

此外，在布鲁肯的前端业务侧，这种变化也更为清晰。“以618为例，我们之前只上了程序化竞价广告，像今年，我们包括其他的一些网站、社媒，以及品牌PDB投放我们也都可以支持，相当于业务宽度更广了。”张亚灵告诉我们。

实际上，今年618的合作也更是双方合作的一个缩影。

对布鲁肯而言，其所在数字广告行业往往和电商等行业具备同样的流量峰值点，对应到底层的服务器和数据库侧则是需要紧急扩容和定向监测运维，可以说，这也恰是对底层IT架构的一次大考。

“基本提前2周，我们双方团队就制定了一些预案，包括到时候如何扩容，如果处理紧急情况等等。”ByteHouse负责人表示，“严格来说，在618的时候，只需要运维人员点击一些扩容按键就可以，比如先点击Kafka的扩容键，再点ByteHouse这边的扩容，系统对应就会直接扩容完成，而且会保证在分钟级。”

这种运维的工作，如果基于之前的开源产品，其投入成本和工作量会是现在的几十乃至上百倍。而对布鲁肯而言，这种低成本的轻度运维的模式已经成为常态。

降本增效，构建新的增长动力源——这也正是ByteHouse和布鲁肯正在讲述的构建的新故事。

三、在抖音查询效率提升100倍背后

如果把视角往前拉回，能看到的是，在布鲁肯618的支撑背后，ByteHouse的“不费力”并非偶然。“我们在字节跳动内部有过大量的这种扩容的需求和场景，这些情况对我们而言已经不再是难事。”ByteHouse负责人告诉我们。

这句话背后，对应是ByteHouse在字节跳动内部的一个完整故事。

从时间线来看，早在2016年前后，字节最早使用的是恰是和布鲁肯一样的开源数据库ClickHouse，但伴随着使用，字节IT团队开始基于ClickHouse不断进行深度开发。

比如在引擎侧，实现从高可用引擎到实时数据引擎、唯一键引擎、Bitmap引擎的进化；以及在性能和运维侧进行更深度的强化，如强化的企业级运维的能力，比如自动化部署（布鲁肯的扩容也恰是其中能力模块之一）、可视化运维等等。

2020年，ByteHouse 正式在字节跳动内部立项，一年之后的2021年的10月，火山引擎正式发布企业版产品ByteHouse。

这些从头条、抖音等字节内部庞大场景里训练出来的产品能力和企业级服务能力，如今也恰是真实构成了ByteHouse在“布鲁肯们”内集性能、成本、运维等全部需求的落地。

据了解，在相同的业务场景和数据量下，和市面上主流分析型数据库产品所需的资源相比，ByteHouse可以用“一半”的资源享有一样的并发性能，换言之，其对应的是50%的成本降幅。

在运维侧更是如此，可以理解为，在这个企业级数据库产品的关键衡量指标上，ByteHouse对外输出的是在字节内部场景成功实践的能力，对应到监测、扩容等相关环节，则是更为具体和精准有效指标展示和运维操作，以及易用、可用对应的更低成本的运维投入。

以抖音业务为例，为了基于自身推荐系统为用户推送可能感兴趣的视频内容， “兴趣圈层”可谓是平台最重要的核心功能之一。而且，和市面上的基于单一维度和标签构建的用户兴趣圈层功能不同的是，抖音所做的是基于多个标签的交叉识别，以更好的提高自身的精准推荐模型。

这其中映射的算法复杂度和数据处理量，均会有指数级别的暴增，对底层的存储架构性能挑战极大。

从架构来看，抖音之前采用的数据库是一种行式存储的数据库，伴随着抖音相关数据的暴增，数据库本身的查询性能瓶颈被很快达到。

此外，如果要在原有数据库上查询上亿级别的数据，就必须要通过分片、读写分离等策略来提升性能，并配备更高性能的硬件，这也就意味着硬件成本会被显著提高。

而ByteHouse，也正式成了抖音技术团队的最新选择。作为一款OLAP引擎，一个数据是，其和原有的数据库相比，将抖音不同几个典型场景的查询效率平均提升了 100 倍左右，大大提升了用户使用抖音的流畅度。与此同时，由于 ByteHouse 出色的查询性能和良好的数据压缩比，综合硬件成本也更是被加速降低。

这种对降本增效的故事不仅在发生在抖音，也更在字节的一个个场景。一个数据是，截止到2022 年 3 月，ByteHouse在字节内部部署规模已超过1万8000台，单集群超过2400 台，管理总数据量超过700PB。而与之对应的运维人员人力，仅有不到3个人。

如今，这些全部面向实时数据服务的原子能力被拆解重构成ByteHouse不同的面向企业的服务方案。“现在我们主要提供三种模式，一类是基于私有化部署的，面向有专项需求的企业，一类是基于PaaS服务的，类似布鲁肯这种，另一类是SaaS模式的存算分离版本，这也是如今我们字节内部在广泛落地使用的。”

这些方案和原子能力，如今也更在成为着ByteHouse在数据库行业的标签。

四、数据飞轮的下一个十年：

我们需要怎样的数据库？

中国的数据库行业，在过去伴随着信息化发展的20年中，一向不缺乏波澜壮阔的故事。

不论是早年以Oracle为代表的集中式数据库，还是后来伴随着云计算兴起的分布式数据库，不论是早年的开源路线还是后来企业级产品的后来居上，不论是存算分离、流批一体还是如今愈发高涨对数据实时性和高并发的要求，这些都在成为数据库行业的前进信号，也更在推动着更优质的企业级数据库产品，以及更实用的数据理念的出现。

在ByteHouse身上，这种信号也更在愈发清晰。

“我们觉得火山引擎ByteHouse另一个带给我们很有收获的点是强化我们内部数据驱动的文化，帮助我们更好地给予数据去运营、决策。”张亚灵告诉我们，“以及包括数据质量管理、数据合规管理等等方面，我们这块的意识也变得更强。”

这也恰是在ByteHouse背后对应的数据飞轮模型。数据飞轮理念，对应的是当下企业的数智化模型，即其通过不断积累数据和分析数据，推动产品性能的持续改善，进而吸引更多用户，产生更多数据，形成正向的、自我强化的循环。

可以说，这也恰是ByteHouse在布鲁肯中真正成为有价值生产力工具的一个有效印证。即在产品之上，为企业的整个业务模型提供的是一个兼备性能和成本的双重加持。

而如今，在布鲁肯之外，ByteHouse对外交出的数据故事也在有更精彩的版本。比如在今年7月份，火山引擎ByteHouse就对外发布了高性能全文检索引擎，满足不同企业对底层不同数据的检索；再比如在今年年初，其也更发布了高性能向量检索能力，而在最近，这项能力则是覆盖了“以图搜图”应用场景，满足企业需求。

以及在产品运维能力上，上述负责人告诉我们，如今ByteHouse正在尝试把越来越多重要的集群后端指标展示到运维界面前端，让运维人员可以更容易地完成日常运维工作，保证集群稳定运行；同时，ByteHouse团队在“DB for AI”的向量检索能力之外，也更在探索“AI for DB”等越来越多其他方向。

“我们主要还是保证两条线的同步进行，一条线是ByteHouse本身的实时数仓能力，包括文件检索、地理中台、向量等等，另一条线也更是不断强化企业级服务能力，让企业能更易用、可用。”

客观来看，伴随着数字化和AI时代的深入，在中国的土壤里，数据驱动发展的模型正在加速成熟，而对于实时数据有充分需求的场景也更在正在越来越多。

根据一份QYResearcH调研团队的最新报告显示，在过去几年里，中国实时数据库市场在加速发展, 2023年市场规模为1.27亿（美元）, 约占全球的16.95%, 而这一数字到 2029 年将预计达到 1.84 亿（美元） , 届时全球占比将达到 17.90% 。

可以说，在这场新的数据驱动战场里，谁能更好的对数据进行智能、准确、迅速、高性价比的体系化处理，谁能以更低的成本、更高效的能力构建底层的PaaS、IaaS组件，谁就能在如今的市场竞争中构建更具竞争力的业务模型，成为新的弄潮儿。

对ByteHouse而言，在被越来越多企业选择的如今，属于它的新战场，也更是一个个像布鲁肯一样的降本增效新故事，正在到来。

这篇关于实时数仓，站上产业潮头的文章就介绍到这儿，希望我们推荐的文章对编程师们有所帮助！