今天，他们一起聊了聊数据融合

本文主要是介绍今天，他们一起聊了聊数据融合｜CNCC 2023，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

2023 年 10 月 26-28 日，第二十届中国计算机大会(CNCC 2023)在沈阳市举行，27 日下午，由 OceanBase 申办的「下一代数据融合技术趋势」技术论坛圆满落幕。

会上，OceanBase 联合多位数据库领域知名学者、专家围绕 HTAP 工作负载融合、机器学习、多模态数据融合、单机分布式一体化融合，以及多种数据库是否可以融合以及该如何融合的相关议题进行了探讨。OceanBase 创始人兼首席科学家阳振坤进行了开场致辞；华东师范大学副校长、研究生院院长、“智能+”研究院院长、数据学院教授周傲英，南洋理工大学教授、新加坡电信-南洋理工人工智能联合实验室主任丛高，武汉大学计算机学院教授、大数据研究院副院长彭智勇，OceanBase CTO 杨传辉，网商银行基础技术架构负责人蒋维杰先后进行了主题演讲及圆桌讨论。

应用驱动创新，下一代数据融合

伴随着互联网的兴起以及数字化、信息化发展浪潮，数据量呈爆发式增长，由此带来的海量数据高并发问题层出不穷。从1990 年代开始，数据的数量和种类都在迅猛增加，数据量和数据类型都超出了当时关系数据库的处理能力，各种非关系型的数据库系统如雨后春笋，不断涌现。

当今很多业务同时需要多种数据库的场景也越来越多，比如多数业务系统同时需要联机事务处理和联机分析处理，游戏业务不仅需要关系数据库进行会员管理、计费等，还需要保存和处理游戏本身的数据，而这类数据通常并不是结构化的，而是半结构化的，这就需要文档数据库等；外卖业务同样需要关系数据库进行顾客、骑手的管理以及交易处理等，还需要分析判断顾客附近的骑手以及多个顾客之间的距离以提升骑手配送效率等，这时空间数据库就显得很有必要。

在会上，OceanBase 创始人兼首席科学家阳振坤对此发表了自己的看法：“尽管融合数据库的发展是一种趋势，但这不意味着各种专门的数据库就会消亡，就像今天人们普遍用智能手机欣赏音乐和视频，但电影院和专业的视频音响设备仍然有存在的价值，很多时候人们用智能手机玩游戏，但很多人更喜欢游戏机等等。”

“目前，多数的融合数据库还处在比较初级的阶段，比如部分 HTAP 数据库其实是在后台集成 OLTP、OLAP 和 ETL 三个系统，一定程度简化了用户的使用，但并没有降低用户的开发成本和业务成本，一些关系数据库的文档数据管理能力或空间数据管理能力还比较弱等等。作为数据库领域的未来重要趋势，融合数据库不仅着眼于多工作负载的统一，使联机事务处理和实时分析处理的深度融合成为现实，还将推动前瞻性的多租户架构发展以及多模态数据库的深度融合，以适应未来数据库的多样化及现代化需求。”阳振坤表示。

华东师范大学副校长、研究生院院长、“智能+”研究院院长、数据学院教授周傲英也从数据赋能角度发表了他对数据融合的独特见解。他认为：“数据是人对世界的认知结果在计算机中的表示。而数据库是信息社会的关键基础设施，也是计算机科学的重要分支，今天所谈的数据融合一定程度上也是应用驱动创新的一种体现，与数据库的成长之路发展是一脉相承的。”

他从数据库的历史谈起，最早数据库不是数据库，而是 File System。他认为当下热门的 HTAP 数据库就是“File System”的回归。原来觉得一个数据库或许能解决所有的问题，后面发现专有数据库更适合解决特定问题，所以今天我们又需要从源头开始思考到底是“One Suite fits all”还是” One Size Fits a Bunch”，正是这些需求让 HTAP 数据库成为今天的主流。

周傲英表示：“数据库的成长之路也是应用驱动创新：过去开源成就了创新、硬件加速了创新，今天的融合数据库也在驱动创新，从专有的垂类开始到融合的通用，从解决一个专有问题走到解决更多的问题。通过运用技术和科学融合来创新，用技术应用倒逼技术的诞生，用技术来催生科学的诞生，然后形成良性循环，中国人才能在数据库领域作出自己的贡献。”

多模态、机器学习，数据融合的重要趋势

近年来， AI、大模型很火，在数据库领域也涌现了众多向量数据库品牌。而关于其的争论也大多围绕 AI 如何帮助解决数据库系统难题。比如调优、调参，测试等。

南洋理工大学教授、新加坡电信-南洋理工人工智能联合实验室主任丛高为大家分享了其所在课题组的新研究——通过机器学习增强数据库系统，主要涵盖调优、调参、索引优化三个方面。

为了解决用户隐私数据严格加密影响压力测试的难题，该课题组提出了一种新方法——用自回归的机器生成模型，这个技术难点就是 Cardinality 形成的约束让自回归变成了不可导，使其无法直接优化这个问题，通过把约束转化成让自回归模型可导，以解决这样的问题，通过这样的工作负载，学出的模型基本可以描述数据的分布，再生成这样的数据来支持刚才讲的应用。

另一方面，如何用机器学习去改进索引这部分的工作，是这几年学术界比较热的热点，也是本课题的研究重点之一。机器学习不会去替代索引结构，也不会改变它的查询算法，而是通过用 Machine Learning 的技术去提升现有的索引性能，以R-Tree为例，建一个更好的R-Tree。

这里提到的用机器模型训练，便是未来数据库的发展趋势之一。丛高表示：“这个学习模型还存在很多待解决的问题，但它是很有潜力的。正如今天的大模型对数据和数据库系统也会有所助力，这些技术的研究和突破是学术界和工业界共同努力的方向。”

关于“融合”，武汉大学计算机学院教授、大数据研究院副院长彭智勇认为，“多模态数据”就是在讲融合，融合就是关联，关联才能产生 Power，才能产生人工智能。目前，多模态数据应用于自动驾驶、制造业、家谱研究等，市面上已经有一些数据库称自己为“多模态数据库”。

彭智勇指出：“多模态数据库目前有两种实现形式，集成方式和原生方式。这里面涉及的技术和数据库息息相关，特别是存储、查询和并发控制。多模数据库现在大家关注更多的是查询，但实际上事务才是更为艰难的问题，因为事务处理强调一致性，还有可用性、分区容忍性。三者不可能兼有，只能放弃一个。因为我们融合集成了不同类型的数据，比如说事务型数据库强调强一致性，NoSQL 数据库强调弱一致，而这种最终一致性如何实现，这个矛盾在多模态数据库中是一个很大的挑战”

单机分布式一体化，数据融合的架构创新

数据库类型分两种：一种叫集中式数据库，也是以前的主流数据库，另一种是分布式数据库，相对这个领域比较新一点，从 2000 年谷歌开始做分布式的文件系统、分布式的计算、分布式的表格系统研发，慢慢发展到今天的原生分布式数据库 OceanBase，由分布式存储发展到分布式数据库。

OceanBase 自 2010 年诞生，经历了从 1.0-4.0 的四个主要发展阶段。OceanBase CTO 杨传辉以 OceanBase 为例，为大家带来了“单机分布式一体化架构的探索与实践”的主题分享。

杨传辉表示：“我们讲单机分布式一体化正是希望把单机数据库和分布式数据库融合起来，以前所有的单机数据库都是没有办法做扩展的，但单机数据库的功能很强大，单机性能很好，但缺少高可用和机房容灾的能力，并且机器处理能力不足。而分布式数据库可以扩展，并且可以做三地五中心的高可用的架构。由于以前所有的分布式数据库是由分布式存储发展来的，也带来了一些问题，每台机器性能比较差。所以在设计 OceanBase 架构时，我们就想把分布式和单机架构糅合在一起成为一套系统——一方面让系统可以扩展，另一方面不希望损失单机性能，让用户使用起来更便捷。所以 OceanBase 在去年提出了单机分布式一体化架构，涵盖接口的统一、能力的统一、性能的统一、扩展方式的统一。包括由单机到分布式这个过程，保证一台机器扩上去不损失事务，对用户来说是无感平滑的。”

OceanBase 从 1.0 到 4.0，经历了四个主要发展阶段。1.0 阶段，OceanBase 从内部场景开始打磨自身稳定性，到 2.0 阶段，SQL 性能的进一步优化、兼容MySQL，再到 3.0 阶段的兼容 Oracle，兼顾 TP 和 AP，真正做到了一体化的交易分析和处理。在这些探索的基础下，OceanBase 有了 4.0 版本，开始打破分布式数据库不适合小企业的刻板印象，尝试做单机分布式一体化，让分布式数据库“可大可小”，在真正成为主流数据库的路上迈出了重要的一步。

今天的 OceanBase 正在从金融走向国计民生，具备了从大到小的能力，助力不同规模的企业实现数字化转型。

网商银行作为全球首个应用在分布式数据库上的金融核心系统，其基础技术架构负责人蒋维杰在现场为大家分享了“网商银行分布式数据库一体化架构的实践探索”。

网商银行是一家没有实体店和营业厅的银行，所有的业务都是在手机 APP、支付宝、微信小程序或者是网页上进行的，所有数据来源全部来源于线上，这意味着网商银行对技术要求十分之高。蒋维杰介绍：“网商银行最主要的特点就是它非常类似于一家互联网企业，所以它的技术特点有三个方面，首先是必须具备很高的性能来应对用户数据可能出现的爆发式增长；其次是对于数据库或者是对于计算能力都要求高弹性，以此来保证具备成本优势；第三是金融基因带来的高可用和资源隔离需求。”

在从 MySQL 升级成为 OceanBase 的过程中，网商银行经历了很长时间的进步与发展。也因此，蒋维杰提出了自己对下一代数据库的发展方向畅想：其一，在不同规格的芯片服务器情况下怎么保障数据的稳定性，怎么保持负载的均衡，这个还需要去不断探索；其二，在金融行业，目前的 RTO＜8s 是否能继续压缩，可以在更短的时间完成数据库的故障恢复；其三，离线数据分析的传输成本问题，现有数据库是否能处理融合类型的数据库，真正去为业务服务。

圆桌共话：下一代数据融合技术趋势

在论坛尾声，几位专家、学者围绕「下一代数据融合技术趋势」进行了圆桌讨论。

华东师范大学副校长、研究生院院长、“智能+”研究院院长、数据学院教授周傲英：“做系统，我们努力的方向跟生活的经验是紧密结合的，肯定要关注应用，但是如果关注应用太广泛就等于没有关注；如果关注得少可能更有价值，找到案例很重要。”

OceanBase 创始人兼首席科学家阳振坤：“关于融合我想说两个点，其一是TP和AP，大家如果实际接触业务会觉得这件事情很需要，现在 AP 用到的问题就是大家都用大数据系统，大数据系统是需要ETL的，数据出去做转换、做加载，现在业务要的报表越来越多，多一个维度就多一份数据，所以很多公司大数据的增长速度是快于业务增长速度的，这是不可持续的。第二个点是结构化和半结构化。关系数据库最强大的能力是结构化数据，可我们今天有越来越多的半结构化数据需要处理。”

武汉大学计算机学院教授、大数据研究院副院长彭智勇：“当数据量越来越大，如果数据管理很复杂，它的性能就会下降，所以现在主要是把数据的结构变得简单。同时，更多要关注数据模型的基础性研究和平台的变化。”

网商银行基础技术架构负责人蒋维杰：“数据库接下来会不会在互操作性上达成一种交互的统一，界面上通过统一的语言或者是界面实现不同类型数据库的快速交互，我觉得是一个可以期待的方向。当然，数据模型或者是底层数据存储的统一能做到最好，但是数据结构不一样或者是对数据查询的要求不一样，真正做到数据模型的统一不一定能达到，但是真正在互操作层面或者是协同层面能够做到统一，这个我觉得是一个非常值得期待的。”

南洋理工大学教授、新加坡电信-南洋理工人工智能联合实验室主任丛高：“我也是从AP和TP融合说起，我觉得这件事本身像阳老师说的，是冲突的。如果我们探索现有系统，一般是这个做得好一些，那个做得差一些，可能TP好一些或者AP好一些，既然有应用，这个事肯定是会往前发展的，但是很难做到一个系统真正让两个都做得比其他的好。”

这篇关于今天，他们一起聊了聊数据融合｜CNCC 2023的文章就介绍到这儿，希望我们推荐的文章对编程师们有所帮助！