今天,他们一起聊了聊数据融合|CNCC 2023

2023-11-03 22:45

本文主要是介绍今天,他们一起聊了聊数据融合|CNCC 2023,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

2023 年 10 月 26-28 日,第二十届中国计算机大会(CNCC 2023)在沈阳市举行,27 日下午,由 OceanBase 申办的「下一代数据融合技术趋势」技术论坛圆满落幕。

会上,OceanBase 联合多位数据库领域知名学者、专家围绕 HTAP 工作负载融合、机器学习、多模态数据融合、单机分布式一体化融合,以及多种数据库是否可以融合以及该如何融合的相关议题进行了探讨。OceanBase 创始人兼首席科学家阳振坤进行了开场致辞;华东师范大学副校长、研究生院院长、“智能+”研究院院长、数据学院教授周傲英,南洋理工大学教授、新加坡电信-南洋理工人工智能联合实验室主任丛高,武汉大学计算机学院教授、大数据研究院副院长彭智勇,OceanBase CTO 杨传辉,网商银行基础技术架构负责人蒋维杰先后进行了主题演讲及圆桌讨论。

图片

应用驱动创新,下一代数据融合

伴随着互联网的兴起以及数字化、信息化发展浪潮,数据量呈爆发式增长,由此带来的海量数据高并发问题层出不穷。从1990 年代开始,数据的数量和种类都在迅猛增加,数据量和数据类型都超出了当时关系数据库的处理能力,各种非关系型的数据库系统如雨后春笋,不断涌现。

当今很多业务同时需要多种数据库的场景也越来越多,比如多数业务系统同时需要联机事务处理和联机分析处理,游戏业务不仅需要关系数据库进行会员管理、计费等,还需要保存和处理游戏本身的数据,而这类数据通常并不是结构化的,而是半结构化的,这就需要文档数据库等;外卖业务同样需要关系数据库进行顾客、骑手的管理以及交易处理等,还需要分析判断顾客附近的骑手以及多个顾客之间的距离以提升骑手配送效率等,这时空间数据库就显得很有必要。

在会上,OceanBase 创始人兼首席科学家阳振坤对此发表了自己的看法:“尽管融合数据库的发展是一种趋势,但这不意味着各种专门的数据库就会消亡,就像今天人们普遍用智能手机欣赏音乐和视频,但电影院和专业的视频音响设备仍然有存在的价值,很多时候人们用智能手机玩游戏,但很多人更喜欢游戏机等等。”

图片

“目前,多数的融合数据库还处在比较初级的阶段,比如部分 HTAP 数据库其实是在后台集成 OLTP、OLAP 和 ETL 三个系统,一定程度简化了用户的使用,但并没有降低用户的开发成本和业务成本,一些关系数据库的文档数据管理能力或空间数据管理能力还比较弱等等。作为数据库领域的未来重要趋势,融合数据库不仅着眼于多工作负载的统一,使联机事务处理和实时分析处理的深度融合成为现实,还将推动前瞻性的多租户架构发展以及多模态数据库的深度融合,以适应未来数据库的多样化及现代化需求。”阳振坤表示。

华东师范大学副校长、研究生院院长、“智能+”研究院院长、数据学院教授周傲英也从数据赋能角度发表了他对数据融合的独特见解。他认为:“数据是人对世界的认知结果在计算机中的表示。而数据库是信息社会的关键基础设施,也是计算机科学的重要分支,今天所谈的数据融合一定程度上也是应用驱动创新的一种体现,与数据库的成长之路发展是一脉相承的。”

图片

他从数据库的历史谈起,最早数据库不是数据库,而是 File System。他认为当下热门的 HTAP 数据库就是“File System”的回归。原来觉得一个数据库或许能解决所有的问题,后面发现专有数据库更适合解决特定问题,所以今天我们又需要从源头开始思考到底是“One Suite fits all”还是” One Size Fits a Bunch”,正是这些需求让 HTAP 数据库成为今天的主流。

周傲英表示:“数据库的成长之路也是应用驱动创新:过去开源成就了创新、硬件加速了创新,今天的融合数据库也在驱动创新,从专有的垂类开始到融合的通用,从解决一个专有问题走到解决更多的问题。通过运用技术和科学融合来创新,用技术应用倒逼技术的诞生,用技术来催生科学的诞生,然后形成良性循环,中国人才能在数据库领域作出自己的贡献。”

图片

多模态、机器学习,数据融合的重要趋势

近年来, AI、大模型很火,在数据库领域也涌现了众多向量数据库品牌。而关于其的争论也大多围绕 AI 如何帮助解决数据库系统难题。比如调优、调参,测试等。

南洋理工大学教授、新加坡电信-南洋理工人工智能联合实验室主任丛高为大家分享了其所在课题组的新研究——通过机器学习增强数据库系统,主要涵盖调优、调参、索引优化三个方面。

图片

为了解决用户隐私数据严格加密影响压力测试的难题,该课题组提出了一种新方法——用自回归的机器生成模型,这个技术难点就是 Cardinality 形成的约束让自回归变成了不可导,使其无法直接优化这个问题,通过把约束转化成让自回归模型可导,以解决这样的问题,通过这样的工作负载,学出的模型基本可以描述数据的分布,再生成这样的数据来支持刚才讲的应用。

另一方面,如何用机器学习去改进索引这部分的工作,是这几年学术界比较热的热点,也是本课题的研究重点之一。机器学习不会去替代索引结构,也不会改变它的查询算法,而是通过用 Machine Learning 的技术去提升现有的索引性能,以R-Tree为例,建一个更好的R-Tree。

这里提到的用机器模型训练,便是未来数据库的发展趋势之一。丛高表示:“这个学习模型还存在很多待解决的问题,但它是很有潜力的。正如今天的大模型对数据和数据库系统也会有所助力,这些技术的研究和突破是学术界和工业界共同努力的方向。”

关于“融合”, 武汉大学计算机学院教授、大数据研究院副院长彭智勇认为,“多模态数据”就是在讲融合,融合就是关联,关联才能产生 Power,才能产生人工智能。目前,多模态数据应用于自动驾驶、制造业、家谱研究等,市面上已经有一些数据库称自己为“多模态数据库”。

图片

彭智勇指出:“多模态数据库目前有两种实现形式,集成方式和原生方式。这里面涉及的技术和数据库息息相关,特别是存储、查询和并发控制。多模数据库现在大家关注更多的是查询,但实际上事务才是更为艰难的问题,因为事务处理强调一致性,还有可用性、分区容忍性。三者不可能兼有,只能放弃一个。因为我们融合集成了不同类型的数据,比如说事务型数据库强调强一致性,NoSQL 数据库强调弱一致,而这种最终一致性如何实现,这个矛盾在多模态数据库中是一个很大的挑战”

图片

单机分布式一体化,数据融合的架构创新

数据库类型分两种:一种叫集中式数据库,也是以前的主流数据库,另一种是分布式数据库,相对这个领域比较新一点,从 2000 年谷歌开始做分布式的文件系统、分布式的计算、分布式的表格系统研发,慢慢发展到今天的原生分布式数据库 OceanBase,由分布式存储发展到分布式数据库。

OceanBase 自 2010 年诞生,经历了从 1.0-4.0 的四个主要发展阶段。OceanBase CTO 杨传辉以 OceanBase 为例,为大家带来了“单机分布式一体化架构的探索与实践”的主题分享。

图片

杨传辉表示:“我们讲单机分布式一体化正是希望把单机数据库和分布式数据库融合起来,以前所有的单机数据库都是没有办法做扩展的,但单机数据库的功能很强大,单机性能很好,但缺少高可用和机房容灾的能力,并且机器处理能力不足。而分布式数据库可以扩展,并且可以做三地五中心的高可用的架构。由于以前所有的分布式数据库是由分布式存储发展来的,也带来了一些问题,每台机器性能比较差。所以在设计 OceanBase 架构时,我们就想把分布式和单机架构糅合在一起成为一套系统——一方面让系统可以扩展,另一方面不希望损失单机性能,让用户使用起来更便捷。所以 OceanBase 在去年提出了单机分布式一体化架构,涵盖接口的统一、能力的统一、性能的统一、扩展方式的统一。包括由单机到分布式这个过程,保证一台机器扩上去不损失事务,对用户来说是无感平滑的。”

OceanBase 从 1.0 到 4.0,经历了四个主要发展阶段。1.0 阶段,OceanBase 从内部场景开始打磨自身稳定性,到 2.0 阶段,SQL 性能的进一步优化、兼容MySQL,再到 3.0 阶段的兼容 Oracle,兼顾 TP 和 AP,真正做到了一体化的交易分析和处理。在这些探索的基础下,OceanBase 有了 4.0 版本,开始打破分布式数据库不适合小企业的刻板印象,尝试做单机分布式一体化,让分布式数据库“可大可小”,在真正成为主流数据库的路上迈出了重要的一步。

今天的 OceanBase 正在从金融走向国计民生,具备了从大到小的能力,助力不同规模的企业实现数字化转型。

网商银行作为全球首个应用在分布式数据库上的金融核心系统,其基础技术架构负责人蒋维杰在现场为大家分享了“网商银行分布式数据库一体化架构的实践探索”。

图片

网商银行是一家没有实体店和营业厅的银行,所有的业务都是在手机 APP、支付宝、微信小程序或者是网页上进行的,所有数据来源全部来源于线上,这意味着网商银行对技术要求十分之高。蒋维杰介绍:“网商银行最主要的特点就是它非常类似于一家互联网企业,所以它的技术特点有三个方面,首先是必须具备很高的性能来应对用户数据可能出现的爆发式增长;其次是对于数据库或者是对于计算能力都要求高弹性,以此来保证具备成本优势;第三是金融基因带来的高可用和资源隔离需求。”

在从 MySQL 升级成为 OceanBase 的过程中,网商银行经历了很长时间的进步与发展。也因此,蒋维杰提出了自己对下一代数据库的发展方向畅想:其一,在不同规格的芯片服务器情况下怎么保障数据的稳定性,怎么保持负载的均衡,这个还需要去不断探索;其二,在金融行业,目前的 RTO<8s 是否能继续压缩,可以在更短的时间完成数据库的故障恢复;其三,离线数据分析的传输成本问题,现有数据库是否能处理融合类型的数据库,真正去为业务服务。

图片

圆桌共话:下一代数据融合技术趋势

在论坛尾声,几位专家、学者围绕「下一代数据融合技术趋势」进行了圆桌讨论。

图片

华东师范大学副校长、研究生院院长、“智能+”研究院院长、数据学院教授周傲英:“做系统,我们努力的方向跟生活的经验是紧密结合的,肯定要关注应用,但是如果关注应用太广泛就等于没有关注;如果关注得少可能更有价值,找到案例很重要。”

OceanBase 创始人兼首席科学家阳振坤:“关于融合我想说两个点,其一是TP和AP,大家如果实际接触业务会觉得这件事情很需要,现在 AP 用到的问题就是大家都用大数据系统,大数据系统是需要ETL的,数据出去做转换、做加载,现在业务要的报表越来越多,多一个维度就多一份数据,所以很多公司大数据的增长速度是快于业务增长速度的,这是不可持续的。第二个点是结构化和半结构化。关系数据库最强大的能力是结构化数据,可我们今天有越来越多的半结构化数据需要处理。”

武汉大学计算机学院教授、大数据研究院副院长彭智勇“当数据量越来越大,如果数据管理很复杂,它的性能就会下降,所以现在主要是把数据的结构变得简单。同时,更多要关注数据模型的基础性研究和平台的变化。”

网商银行基础技术架构负责人蒋维杰:“数据库接下来会不会在互操作性上达成一种交互的统一,界面上通过统一的语言或者是界面实现不同类型数据库的快速交互,我觉得是一个可以期待的方向。当然,数据模型或者是底层数据存储的统一能做到最好,但是数据结构不一样或者是对数据查询的要求不一样,真正做到数据模型的统一不一定能达到,但是真正在互操作层面或者是协同层面能够做到统一,这个我觉得是一个非常值得期待的。”

南洋理工大学教授、新加坡电信-南洋理工人工智能联合实验室主任丛高“我也是从AP和TP融合说起,我觉得这件事本身像阳老师说的,是冲突的。如果我们探索现有系统,一般是这个做得好一些,那个做得差一些,可能TP好一些或者AP好一些,既然有应用,这个事肯定是会往前发展的,但是很难做到一个系统真正让两个都做得比其他的好。”

这篇关于今天,他们一起聊了聊数据融合|CNCC 2023的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/341387

相关文章

大模型研发全揭秘:客服工单数据标注的完整攻略

在人工智能(AI)领域,数据标注是模型训练过程中至关重要的一步。无论你是新手还是有经验的从业者,掌握数据标注的技术细节和常见问题的解决方案都能为你的AI项目增添不少价值。在电信运营商的客服系统中,工单数据是客户问题和解决方案的重要记录。通过对这些工单数据进行有效标注,不仅能够帮助提升客服自动化系统的智能化水平,还能优化客户服务流程,提高客户满意度。本文将详细介绍如何在电信运营商客服工单的背景下进行

基于MySQL Binlog的Elasticsearch数据同步实践

一、为什么要做 随着马蜂窝的逐渐发展,我们的业务数据越来越多,单纯使用 MySQL 已经不能满足我们的数据查询需求,例如对于商品、订单等数据的多维度检索。 使用 Elasticsearch 存储业务数据可以很好的解决我们业务中的搜索需求。而数据进行异构存储后,随之而来的就是数据同步的问题。 二、现有方法及问题 对于数据同步,我们目前的解决方案是建立数据中间表。把需要检索的业务数据,统一放到一张M

关于数据埋点,你需要了解这些基本知识

产品汪每天都在和数据打交道,你知道数据来自哪里吗? 移动app端内的用户行为数据大多来自埋点,了解一些埋点知识,能和数据分析师、技术侃大山,参与到前期的数据采集,更重要是让最终的埋点数据能为我所用,否则可怜巴巴等上几个月是常有的事。   埋点类型 根据埋点方式,可以区分为: 手动埋点半自动埋点全自动埋点 秉承“任何事物都有两面性”的道理:自动程度高的,能解决通用统计,便于统一化管理,但个性化定

使用SecondaryNameNode恢复NameNode的数据

1)需求: NameNode进程挂了并且存储的数据也丢失了,如何恢复NameNode 此种方式恢复的数据可能存在小部分数据的丢失。 2)故障模拟 (1)kill -9 NameNode进程 [lytfly@hadoop102 current]$ kill -9 19886 (2)删除NameNode存储的数据(/opt/module/hadoop-3.1.4/data/tmp/dfs/na

异构存储(冷热数据分离)

异构存储主要解决不同的数据,存储在不同类型的硬盘中,达到最佳性能的问题。 异构存储Shell操作 (1)查看当前有哪些存储策略可以用 [lytfly@hadoop102 hadoop-3.1.4]$ hdfs storagepolicies -listPolicies (2)为指定路径(数据存储目录)设置指定的存储策略 hdfs storagepolicies -setStoragePo

Hadoop集群数据均衡之磁盘间数据均衡

生产环境,由于硬盘空间不足,往往需要增加一块硬盘。刚加载的硬盘没有数据时,可以执行磁盘数据均衡命令。(Hadoop3.x新特性) plan后面带的节点的名字必须是已经存在的,并且是需要均衡的节点。 如果节点不存在,会报如下错误: 如果节点只有一个硬盘的话,不会创建均衡计划: (1)生成均衡计划 hdfs diskbalancer -plan hadoop102 (2)执行均衡计划 hd

【Prometheus】PromQL向量匹配实现不同标签的向量数据进行运算

✨✨ 欢迎大家来到景天科技苑✨✨ 🎈🎈 养成好习惯,先赞后看哦~🎈🎈 🏆 作者简介:景天科技苑 🏆《头衔》:大厂架构师,华为云开发者社区专家博主,阿里云开发者社区专家博主,CSDN全栈领域优质创作者,掘金优秀博主,51CTO博客专家等。 🏆《博客》:Python全栈,前后端开发,小程序开发,人工智能,js逆向,App逆向,网络系统安全,数据分析,Django,fastapi

烟火目标检测数据集 7800张 烟火检测 带标注 voc yolo

一个包含7800张带标注图像的数据集,专门用于烟火目标检测,是一个非常有价值的资源,尤其对于那些致力于公共安全、事件管理和烟花表演监控等领域的人士而言。下面是对此数据集的一个详细介绍: 数据集名称:烟火目标检测数据集 数据集规模: 图片数量:7800张类别:主要包含烟火类目标,可能还包括其他相关类别,如烟火发射装置、背景等。格式:图像文件通常为JPEG或PNG格式;标注文件可能为X

pandas数据过滤

Pandas 数据过滤方法 Pandas 提供了多种方法来过滤数据,可以根据不同的条件进行筛选。以下是一些常见的 Pandas 数据过滤方法,结合实例进行讲解,希望能帮你快速理解。 1. 基于条件筛选行 可以使用布尔索引来根据条件过滤行。 import pandas as pd# 创建示例数据data = {'Name': ['Alice', 'Bob', 'Charlie', 'Dav

SWAP作物生长模型安装教程、数据制备、敏感性分析、气候变化影响、R模型敏感性分析与贝叶斯优化、Fortran源代码分析、气候数据降尺度与变化影响分析

查看原文>>>全流程SWAP农业模型数据制备、敏感性分析及气候变化影响实践技术应用 SWAP模型是由荷兰瓦赫宁根大学开发的先进农作物模型,它综合考虑了土壤-水分-大气以及植被间的相互作用;是一种描述作物生长过程的一种机理性作物生长模型。它不但运用Richard方程,使其能够精确的模拟土壤中水分的运动,而且耦合了WOFOST作物模型使作物的生长描述更为科学。 本文让更多的科研人员和农业工作者