HashData助力中科院打造地球大数据

2023-12-23 08:50

本文主要是介绍HashData助力中科院打造地球大数据,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

请添加图片描述
背景

中国科学院“地球大数据科学工程”A类战略性先导科技专项(简称“地球大数据专项”)于2018年1月1日正式立项。该工程以建成具有全球影响力、国际化、开放式的国际地球大数据科学中心为目标,致力于推动并实现地球大数据技术创新、重大科学发现和一站式全方位宏观决策系统。

地球大数据专项一个典型的应用例子是:定量统计分析黄河三角洲过去40年的变化,包括湿地海岸线、河岸生态系统以及土地利用类型等。传统的做法是派遣科研人员到实地考察,这是几乎不能完成的任务。我们希望通过该工程,基于对地检测卫星过去40年拍摄到的黄河三角洲的遥感图片,利用深度学习和海量地理数据处理技术,精确地量化具体变化指标。

产品形态上,地球大数据专项的目标是打造中国版的“谷歌地球”,设置了包括地球大数据卫星、数据一路一带、全景美丽中国和大数据云服务平台等在内的共9个子项目。其中,大数据云服务平台是整个专项的技术基座,通过将资源、环境、生物、人文、生态等领域的数据汇聚起来,构建一个数据存储、分析处理和共享平台,并在此基础上提供数字地球科学服务。

面临挑战

作为一个雄心勃勃的项目技术基座,地球大数据云服务平台自然面临着一系列技术挑战:
数据规模庞大,结构众多:
• 支持38PB基础存储量,每年新增5PB数据;
• 对地观测、地面观测、基础地理等多种业务模式;
• 涵盖结构化、半结构化、非结构化格式;
应用场景广泛:
• 支持33个院系、129个单位使用;
• 涵盖资源、环境、生物、生态多个领域,不同学科的融合;
科学计算特性:
• 满足高性能计算需求及数据格式多样化;
数据存储和访问:
• 支持100+PB的数据规模及灵活访问方式;
共享与隔离:
• 方便数据共享及计算性能的隔离;

解决方案

作为地球大数据专项的外协单位,我们与中科院网络中心、中科院计算所一起参与规划建设了大数据云服务平台,利用HashData数据仓库为整个工程提供海量数据的存储和处理分析能力。大数据云平台整体架构图如下:
请添加图片描述通过集成到地球大数据云平台的HashData数据仓库服务,科研院所单位用户可以在几分钟内创建启动一个数据仓库,规模从几个到上百个节点,数据加载后立即开始数据分析任务。随着数据量和分析工作负载的变化,还可以动态地对数据仓库集群进行弹性伸缩。同时,由于是完全托管的云服务,HashData管理控制台承担了所有的集群资源配置、数据备份、持续监控、网络迁移、故障恢复、高可用和升级等纷繁复杂、易出错的运维工作,让用户(特别是考虑到地球大数据云平台的主要用户是科研人员,而不是IT人员)专注于科研数据分析上。

其次,对象存储作为整个地球大数据云平台的数据持久层,能够以非常低的成本存储提供海量存储能力,包括结构化、半结构化和非结构化数据,有很高的可用性和持久性,满足专项日益增长的数据量。结合HashData湖仓一体的能力,用户可以通过统一的SQL接口对各种数据进行高性能的融合分析处理。

再次,借助HashData数据仓库元数据、计算和存储三者分离、多集群统一数据存储的架构(参考文章《HashData多集群共享统一存储架构》),每个科研院系单位都可以创建自己的计算集群,确保计算性能隔离的同时,又能够实现数据在不同院系之间的充分共享,加速科研进度。

最后,通过基于HashData的MPP计算引擎实现分布式PostGIS功能,进行矢量和栅格数据处理,架构示意如下:
请添加图片描述
整体实现了分布式GIS空间数据处理, 支持矢量、栅格数据分布式加载入库,并在库内针对空间数据建立索引, 栅格数据入库可自动切割瓦片,根据瓦片边界建立索引。在内部实现的GIS空间数据高效分布式计算,支持空间范围查询、矢量数据叠加分析。

总结

HashData数据仓库云服务已于2020年12月30号在地球大数据云平台上线,可为130余家科研院所提供大数据分析服务。除了为大数据云平台包括地球共享服务系统、CASEarth Databank系统和数据丝路地球大数据系统等其它系统提供支撑外,同时还为科学院内部院系提供通用的数据仓库服务,用于多种应用场景,包括寒旱所的地表观测数据处理,遥感所的植被分布统计,和地质所的地质勘探数据分析。在地理信息数据处理性能方面,相对于之前的解决方案,HashData数据仓库也有很大的提升,例如数据加载提速近100倍,栅格数据叠加分析提速近70倍。

随着地球大数据云平台的逐步成熟稳定,HashData数据仓库将支撑越来越多的数据存储、分析和共享任务,为中科院数字地球科学研究做出更多贡献。

这篇关于HashData助力中科院打造地球大数据的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/527439

相关文章

Java利用JSONPath操作JSON数据的技术指南

《Java利用JSONPath操作JSON数据的技术指南》JSONPath是一种强大的工具,用于查询和操作JSON数据,类似于SQL的语法,它为处理复杂的JSON数据结构提供了简单且高效... 目录1、简述2、什么是 jsONPath?3、Java 示例3.1 基本查询3.2 过滤查询3.3 递归搜索3.4

MySQL大表数据的分区与分库分表的实现

《MySQL大表数据的分区与分库分表的实现》数据库的分区和分库分表是两种常用的技术方案,本文主要介绍了MySQL大表数据的分区与分库分表的实现,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有... 目录1. mysql大表数据的分区1.1 什么是分区?1.2 分区的类型1.3 分区的优点1.4 分

Mysql删除几亿条数据表中的部分数据的方法实现

《Mysql删除几亿条数据表中的部分数据的方法实现》在MySQL中删除一个大表中的数据时,需要特别注意操作的性能和对系统的影响,本文主要介绍了Mysql删除几亿条数据表中的部分数据的方法实现,具有一定... 目录1、需求2、方案1. 使用 DELETE 语句分批删除2. 使用 INPLACE ALTER T

Python Dash框架在数据可视化仪表板中的应用与实践记录

《PythonDash框架在数据可视化仪表板中的应用与实践记录》Python的PlotlyDash库提供了一种简便且强大的方式来构建和展示互动式数据仪表板,本篇文章将深入探讨如何使用Dash设计一... 目录python Dash框架在数据可视化仪表板中的应用与实践1. 什么是Plotly Dash?1.1

Redis 中的热点键和数据倾斜示例详解

《Redis中的热点键和数据倾斜示例详解》热点键是指在Redis中被频繁访问的特定键,这些键由于其高访问频率,可能导致Redis服务器的性能问题,尤其是在高并发场景下,本文给大家介绍Redis中的热... 目录Redis 中的热点键和数据倾斜热点键(Hot Key)定义特点应对策略示例数据倾斜(Data S

Python实现将MySQL中所有表的数据都导出为CSV文件并压缩

《Python实现将MySQL中所有表的数据都导出为CSV文件并压缩》这篇文章主要为大家详细介绍了如何使用Python将MySQL数据库中所有表的数据都导出为CSV文件到一个目录,并压缩为zip文件到... python将mysql数据库中所有表的数据都导出为CSV文件到一个目录,并压缩为zip文件到另一个

SpringBoot整合jasypt实现重要数据加密

《SpringBoot整合jasypt实现重要数据加密》Jasypt是一个专注于简化Java加密操作的开源工具,:本文主要介绍详细介绍了如何使用jasypt实现重要数据加密,感兴趣的小伙伴可... 目录jasypt简介 jasypt的优点SpringBoot使用jasypt创建mapper接口配置文件加密

使用Python高效获取网络数据的操作指南

《使用Python高效获取网络数据的操作指南》网络爬虫是一种自动化程序,用于访问和提取网站上的数据,Python是进行网络爬虫开发的理想语言,拥有丰富的库和工具,使得编写和维护爬虫变得简单高效,本文将... 目录网络爬虫的基本概念常用库介绍安装库Requests和BeautifulSoup爬虫开发发送请求解

Oracle存储过程里操作BLOB的字节数据的办法

《Oracle存储过程里操作BLOB的字节数据的办法》该篇文章介绍了如何在Oracle存储过程中操作BLOB的字节数据,作者研究了如何获取BLOB的字节长度、如何使用DBMS_LOB包进行BLOB操作... 目录一、缘由二、办法2.1 基本操作2.2 DBMS_LOB包2.3 字节级操作与RAW数据类型2.

MySQL使用binlog2sql工具实现在线恢复数据功能

《MySQL使用binlog2sql工具实现在线恢复数据功能》binlog2sql是大众点评开源的一款用于解析MySQLbinlog的工具,根据不同选项,可以得到原始SQL、回滚SQL等,下面我们就来... 目录背景目标步骤准备工作恢复数据结果验证结论背景生产数据库执行 SQL 脚本,一般会经过正规的审批