本文主要是介绍Hubble数据库再获得国家级重点项目推荐,作为HTAP国产数据库入选工信部全国试点,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
为深入实施国家大数据战略,落实《“十四五”大数据产业发展规划》(工信部规〔2021〕179号),加快培育数据要素市场,夯实产业发展基础,提升产业供给能力和行业赋能效应。工业和信息化部办公厅关于组织开展2022年大数据产业发展试点示范项目申报工作。围绕数据要素市场培育、大数据重点产品和服务、行业大数据应用3大领域8个方向,遴选一批大数据产业试点示范项目,通过树立一批各行业、各领域的排头兵,推进大数据产业高质量发展。经过四个月的遴选,天云数据Hubble数据库作为国产HTAP数据库入选,获得国家级重点项目推荐。
为什么HTAP数据库 会入选大数据产品试点?
数据库市场有传统数据库、大规模事务处理的TP数据库、大规模分析处理的AP数据库。互联网的消费化,越来越强调体验的实时性,交易和分析场景必须一致,这对传统数据库的应用来说是一次巨大的升级。
**那么在 HTAP出现之前,应对以上的刚需市场是怎么做的?**把TP和AP做融合,成为湖仓一体的概念;然后把MPP数据库与湖仓一体融合,成为新技术趋势。实际上就是将MPP数据库加Hadoop开源。
**这种现象会带来什么风险?**MPP数据库不能单独支持湖仓一体,它需要 Hbase 和 ES 来配合,本质还是属于数据集。在某大型股份制银行,为了支持手机银行端的个性化数仓,传统 MPP 结构根本没法满足刚才说的这种服务价值,要实现手机端对大屏小屏化的趋势,还要配套数百个节点,所以现在市场上的湖仓一体本质上还是一个集成方案,需要在传统 MPP 数据库和开源 hadoop 之间做大量的数据同步和一致性校验。既然要有数据同步,就必然有时间窗口,数据的不及时性、不一致性。
这不是简单的替代逻辑,是产业链升级逻辑,面向新兴的大数据领域,新兴的数据库依然扮演着重要角色,不仅仅可以对传统数据库 Oracle 做碾压替代,同时还能够胜任大数据领域的刚需。而在整个流批一体的市场需求上,Hubble数据库的自身定位就具有天然优势,因此能够作为大数据产品领域里的HTAP数据库入选工信部试点。
**国产原创Hubble数据库,提供统一支撑事务处理和工具负载分析。**如何能够在同一数据库实例下,同时支撑高并发低延迟的OLTP事务,和海量密集计算的OLAP分析作业?天云数据凭借其多年来在大数据分布式计算领域的经验以及多家大型银行的实践最终通过引入损失函数动态评价SQL逻辑计划的执行成本、CBO代价优化解析、Sharding切片线程级别物理资源匹配不同计算负载、TP和AP双引擎调度执行、随机和序列化IO对存储的访问、依靠数据副本机制同时支持KV键值存储和列存存储交出了完美的答案。这意味着一张表可以同时支持行存和列存,真正的融合了存储结构,避免了在交易和分析数据库间每夜ETL数据搬家的繁琐运维工作和数据冗余。
**Hubble数据库实现去“O”并突破其并发瓶颈,对抗西方开源市场。**根据IDC《2021年上半年中国关系型数据库软件市场跟踪报告》显示,在传统部署模式市场中,国际厂商仍占主导地位,其中最多的是Oracle,占比为26.7%。Hubble数据库早在10年前就在践行去IOE最难的部分,在银行A类核心系统国产化成功替换Oracle一体机。对比Oracle,单表3亿记录数量级下的用户业务场景性能突破 Oracle 800并发瓶颈,1600 并发下依然保持线性稳定服务。同等并发下,平均响应时间和最大响应时间均优于Oracle,具有稳定的线性横向扩展能力。
Hubble数据库一直以对抗西方开源组件为目标市场,完成了Apache的Flink不能处理更多事实表的金融反欺诈和复杂权益服务; 比Cloudera的 Impala更快的多表关联AP计算;比Facebook的 Presto更高可用的数据pipeline服务,同时替代时序数据库、图数据库。要知道更灵活和开放的开源技术,背后也是风险的根源。Ceph创始人曾警告用户:“务必要提防号称软件定义存储而兜售的解决方案,它们不是给你自由,而是给你束缚。把你引向某一家厂商,或让你被某一家厂商锁定。”
**Hubble数据库重新定义数据基础设施,基础软件在工业化改造的实践应用。**申报和实施指南提到,在行业融合应用方面,加快大数据在农业、工业、服务业等方面深度融合应用,形成一批相对成熟的解决方案,推动数字经济与实体经济深度融合。项目产品在关键技术或产品性能方面有一定突破,可有效提升企业数据开发利用水平和安全保障能力,具有较强的可复制可推广性。天云数据在工业化的实践:
·某大型石油AI认知平台项目,工业4.0下的“人工智能+油田”,用AI技术处理传感器的海量实时数据;自动根据测井数据和标准层数据划分地层,分层准确度达80%以上;不依赖双表压力差,单表数据也可建模,无需建立复杂庞大的规则。以2个月构建12个石油应用模型PK掉IBM和微软的2年2个应用模型。不仅提高了模型生产的效率,也批量化地解决石油勘探、开发、运输等一系列生产问题。
·碳中和-区域分布式光伏发电功率预测,通过采集气象数据、辐照数据、设备数据,并结合电网用户的用电历史数据,基于LSTM的迭代神经网络,实现小尺度空间、15分钟级的单户发用电量的精确预测,通过预测数据帮助电网公司实现了精准的负荷规划。基于图机器学习技术提取的时空特征数据,同时利用时间特征、空间特征、气象特征、环境特征等内容,通过深度神经网络算法技术实现多种特征维度的不同组合,以及通过自动化调参技术和深度搜索技术进行模型自动优化。在某省范围内推广,至少可为自发自用企业节省10%的电费,直接经济效益超过170亿元。
·生产运行优化,以生产模型为基础,生产动态信息为依据进行生产潜力挖掘和风险分析,建立一整套生产计划优化流程,组织各业务、信息部门协同参与,实现生产计划的可视化编制;基于生产模型的设计粒度,进行年度、月度、日度计划的编制。生产计划与生产实际动态数据紧密结合,基于一体化生产模型,优化生产运行方案。
·户变关系为台区变压器与所供用户的关系。若台区内变压器与用户不对应,严重影响的故障定位及故障抢修效率,导致用户复电时间较长、体验差等问题,判别变压器及其用户的隶属关系,提高电力营销系统中户变关系档案的准确性,可简单高效解决历史遗留的户变关系不正确的问题,同时为更精准的线损计算打好基础。
·决策引擎助力能源数据质量异常检测通过将行业标准生成知识包,知识包提供接口供HTAP分布式数据库调用,实现了数据标准中关于数据质量的相关规则模型以及算法模型;
·基于宽带子波及反射系数构建的宽带过井地震记录,运用深度学习技术训练宽带地震信号和过井地震信号的深度网络模型,并将训练好的模型用于全工区目标层获取高分辨率地震资料,从而达到在不降低信噪比的前提下,大幅度提高地震剖面分辨率的目的。
·基于神经网络技术,利用原始测井曲线实现智能地层划分、储层物性参数自动计算、储层含油性识别、储层产能预测,极大的提高工作效率和识别精度,降低了生产成本。
·油藏数值模拟器,利用海量的历史生产数据,运用深度学习技术,建立智能油藏数值模拟器。该模型无需预先建立油田具体的物理模型,模拟时间大大缩短,工作效率提升,人工成本缩减;智能模型能够捕捉很多传统模拟器无法认识到的非线性油田生产行为,使得拟合精度进一步提高。
**数据库作为基础软件的皇冠,是大数据产业发展之魂。**在实践应用中,一句话总结“软件定义世界,数据连接未来”。
**Hubble数据库作为HTAP数据库入选工信部全国试点。**申报和实施指南提到,在产品和服务创新方面,引导企业探索突破数据各相关技术瓶颈,形成一批具有核心竞争力的大数据产品;鼓励企业开展服务模式创新,推动大数据服务向专业化、工程化、平台化发展。2022年大数据产业发展试点示范项目,天云数据“国产HTAP数据库研发及产业化项目”入选大数据重点产品和服务试点示范领域的“大数据重点产品方向”。本次入选,说明Hubble数据库的HTAP获得已经突破行业技术瓶颈,在市场上独具核心竞争力,可以推动大数据服务向专业化、工程化、平台化发展。
**本次评选是工信部针对当前大数据产业发展情况给出的权威认定,代表了中国大数据产业项目的较高水准,天云数据荣膺殊荣。**天云数据会持续探索深耕,利用一线企业的实战经验,探索形成一批可复制、可推广、可借鉴的经验模式,助力全国大数据产业高质量发展。
这篇关于Hubble数据库再获得国家级重点项目推荐,作为HTAP国产数据库入选工信部全国试点的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!