Geospatial Data 在 Nebula Graph 中的实践

2023-11-04 10:10

本文主要是介绍Geospatial Data 在 Nebula Graph 中的实践,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

本文首发于 Nebula Graph Community 公众号

Geospatial Data 在 Nebula Graph 中的实践

本文主要介绍了地理空间数据(Geospatial Data)以及它在 Nebula Graph 中的具体实践。

Geospatial Data 在 Nebula Graph 中的实践

什么是 Geospatial Data

地理空间数据(Geospatial Data)是包含简单地理空间要素信息的数据,比如点(point)、线(linestring)、多边形(polygon),或是其他更复杂的形状。

Nebula Graph 在 2.6 版本中引入了对 Geospatial Data 完整的支持,包括地理空间数据的存储、计算,以及索引。Nebula Graph 目前支持 Geography 类型的地理空间数据,Geography 类型是建模在地球空间坐标系上由经纬度坐标对表示的地理位置信息。

Geospatial Data – 地理空间数据使用

创建 Schema

这里仅以 Tag 为例,当然 Edgetype 上同样可以将 Geography 类型作为属性列。

Nebula 目前支持点、线、多边形三种空间数据类型。下面介绍一下如何如何创建 Geography 类型属性以及如何插入地理空间数据到 Nebula 中。

CREATE TAG any_shape(geo geography);
CREATE TAG only_point(geo geography(point));
CREATE TAG only_linestring(geo geography(linestring));
CREATE TAG only_polygon(geo geography(polygon));

geography 属性后面没有指定具体的地理形状信息时,代表该列可以存储任意地理形状的数据;当指定形状类型时,则代表只能存储该形状的地理数据,比如 geography(point),就代表该列只能存储 point 形状的地理位置信息。

插入数据

向 Tag any_shapegeo 列插入数据:

INSERT VERTEX any_shape(geo) VALUES "101":(ST_GeogFromText("POINT(120.12 30.16)"));
INSERT VERTEX any_shape(geo) VALUES "102":(ST_GeogFromText("LINESTRING(3 8, 4.7 73.23)"));
INSERT VERTEX any_shape(geo) VALUES "103":(ST_GeogFromText("POLYGON((75.3 45.4, 112.5 53.6, 122.7 25.5, 93.9 28.6, 75.3 45.4))"));

向 Tag only_pointgeo 列插入数据:

INSERT VERTEX only_point(geo) VALUES "201":(ST_Point(120.12,30.16)"));;

向 Tag only_linestringgeo 插入数据:

INSERT VERTEX only_linestring(geo) VALUES "302":(ST_GeogFromText("LINESTRING(3 8, 4.7 73.23)"));

向 Tag only_polygongeo 列插入数据:

INSERT VERTEX only_polygon(geo) VALUES "403":(ST_GeogFromText("POLYGON((75.3 45.4, 112.5 53.6, 122.7 25.5, 93.9 28.6, 75.3 45.4))"));

当插入地理数据形状不符合该列地理形状要求时,会报错无法插入:

(root@nebula) [geo]> INSERT VERTEX only_polygon(geo) VALUES "404":(ST_GeogFromText("POINT((75.3 45.4))"));
[ERROR (-1005)]: Wrong value type: ST_GeogFromText("POINT((75.3 45.4))")

我们可以看到地理空间数据插入方法比较奇特,和 int、string、bool 等基本类型的插入很不一样。

我们以 ST_GeogFromText("POINT(120.12 30.16)") 为例,ST_GeogFromText 是一个地理位置信息解析函数,它接受一个 string 类型的 WKT(Well-Known Text)标准格式表示的地理位置数据:

POINT(120.12 30.16) 代表一个东经 120°12′,北纬 30°16′ 的地理位置点。ST_GeogFromText 函数会从 wkt 参数中解析并构造一个 geography 数据对象,然后 INSERT 语句会将其以 WKB(Well-Known Binary)标准存储在 Nebula 中。

Geospatial functions – 地理空间函数

Nebula 支持的地理空间函数可以分为以下几大类:

  • 构造函数
    • ST_Point(longitude, latitude),根据一对经纬度构造一个 geography point 对象
  • 解析函数
    • ST_GeogFromText(wkt_string),从 wkt 文本中解析 geography 对象
    • ST_GeogFromWKB(wkb_string),从 wkb 文本中解析 geography 对象 # 尚未正式支持,因为 Nebula还未支持二进制字符串
  • 格式设置函数
    • ST_AsText(geogrpahy),将 geogrpahy 对象以 wkt 文本格式输出
    • ST_AsBinary(geography),将 geography 对象以 wkb 文本格式输出 # 尚未正式支持,因为 Nebula 还未支持二进制字符串
  • 转换函数
    • ST_Centroid(geography),计算 geography 对象的重心,重心是一个 geography point 对象
  • 谓词函数
    • ST_Intersects(geography_1, geography_2),判断两个 geography 对象是否相交
    • ST_Covers(geography_1, geography_2),判断第一个 geography 对象是否完全覆盖第二个
    • ST_CoveredBy(geography_1, geography_2),ST_Covers 的反义词
    • ST_DWithin(geography_1, geography_2, distance_in_meters),判断两个 geography 对象的最短距离是否小于给定距离
  • 度量函数
    • ST_Distance(geography_1, geography_2),计算两个 geography 对象之间的距离

这些函数接口遵循 OpenGIS Simple Feature Access 以及 ISO SQL/MM 标准,具体用法参见Nebula 文档

Geospatial index – 地理空间索引

什么是地理空间索引?

地理空间索引用于基于空间谓词函数的的地理形状的快速过滤,如:ST_Intersects、ST_Covers 等。

Nebula 使用Google S2库做空间索引。

S2 库将地球表面投影到一个外切的正方体上,然后对正方体的每一个正方形表面递归地进行 n 次四等,最后使用一条空间填充曲线–希尔伯特曲线去连接这些小正方格子的中心。

当 n 无穷大时,这条希尔伯特曲线就几乎填满了正方形。

S2 库使用的是 30 阶的希尔伯特曲线。

oPuZvt.png

如下图, 是用希尔伯特曲线填充地地球表面的示意图:

oPuPED.png

可以看到,地球表面最终被这些希尔伯特曲线划分成了一个个单元格。对于地球表面的任意地理形状,比如一个城市、一条河流、一个人的位置我们都可以用若干个这样的格子去完全覆盖住这个地理形状。

每个格子都有一个唯一的 int64 的 CellID 来标识。因此,地理对象的空间索引就是构建完全覆盖该地理形状的 S2 格子的集合。

当构建地理空间对象的索引时,会构造一个完全覆盖被索引对象的不同 S2 单元格的集合。基于空间谓词函数的索引查询通过查找覆盖所查询对象的 S2 单元格的集合与覆盖被索引对象的 S2 单元格之间的交集,来快速过滤掉大量不相关的地理对象。

创建 geography 索引
CREATE TAG any_shape_geo_index on any_shape(geo)

对于形状为 point 的地理数据,可以用一个 level 为 30 的 S2 单元格来表示它,因此一个 point 对应一个索引条目;对于形状为 linestring 和 polygon 的地理数据,我们使用多个不同 level 的 S2 单元格来覆盖,因此会对应多个索引条目;

空间索引会用来加速所有 geo 谓词的查找速度,比如对于如下语句

LOOKUP ON any_shape WHERE ST_Intersects(any_shape.geo, ST_GeogFromText("LINESTRING(3 8, 4.7 73.23)"));

当 any_shape 的 geo 列上没有空间索引时,该语句会先将 any_shape 的所有数据读到内存,然后用来计算是否和点(3.0, 8.0)相交,这个计算的开销一般是比较昂贵的。当 any_shape 的数据量较大时,计算开销将难以接受。

而当 any_shape 的 geo 列有空间索引时,该语句会首先用空间索引过滤掉绝大部分和该线绝对不相交的数据,最终读到内存的还是会有部分可能相交的,因此还需要进行一次计算。这样空间索引就以很小的代价快速过滤掉了大部分不可能相交的数据,最终进行精确过滤的只有少部分,极大的降低了计算开销。


交流图数据库技术?加入 Nebula 交流群请先填写下你的 Nebula 名片,Nebula 小助手会拉你进群~~

这篇关于Geospatial Data 在 Nebula Graph 中的实践的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/345057

相关文章

基于MySQL Binlog的Elasticsearch数据同步实践

一、为什么要做 随着马蜂窝的逐渐发展,我们的业务数据越来越多,单纯使用 MySQL 已经不能满足我们的数据查询需求,例如对于商品、订单等数据的多维度检索。 使用 Elasticsearch 存储业务数据可以很好的解决我们业务中的搜索需求。而数据进行异构存储后,随之而来的就是数据同步的问题。 二、现有方法及问题 对于数据同步,我们目前的解决方案是建立数据中间表。把需要检索的业务数据,统一放到一张M

系统架构师考试学习笔记第三篇——架构设计高级知识(20)通信系统架构设计理论与实践

本章知识考点:         第20课时主要学习通信系统架构设计的理论和工作中的实践。根据新版考试大纲,本课时知识点会涉及案例分析题(25分),而在历年考试中,案例题对该部分内容的考查并不多,虽在综合知识选择题目中经常考查,但分值也不高。本课时内容侧重于对知识点的记忆和理解,按照以往的出题规律,通信系统架构设计基础知识点多来源于教材内的基础网络设备、网络架构和教材外最新时事热点技术。本课时知识

论文翻译:arxiv-2024 Benchmark Data Contamination of Large Language Models: A Survey

Benchmark Data Contamination of Large Language Models: A Survey https://arxiv.org/abs/2406.04244 大规模语言模型的基准数据污染:一项综述 文章目录 大规模语言模型的基准数据污染:一项综述摘要1 引言 摘要 大规模语言模型(LLMs),如GPT-4、Claude-3和Gemini的快

Prometheus与Grafana在DevOps中的应用与最佳实践

Prometheus 与 Grafana 在 DevOps 中的应用与最佳实践 随着 DevOps 文化和实践的普及,监控和可视化工具已成为 DevOps 工具链中不可或缺的部分。Prometheus 和 Grafana 是其中最受欢迎的开源监控解决方案之一,它们的结合能够为系统和应用程序提供全面的监控、告警和可视化展示。本篇文章将详细探讨 Prometheus 和 Grafana 在 DevO

springboot整合swagger2之最佳实践

来源:https://blog.lqdev.cn/2018/07/21/springboot/chapter-ten/ Swagger是一款RESTful接口的文档在线自动生成、功能测试功能框架。 一个规范和完整的框架,用于生成、描述、调用和可视化RESTful风格的Web服务,加上swagger-ui,可以有很好的呈现。 SpringBoot集成 pom <!--swagge

CentOS下mysql数据库data目录迁移

https://my.oschina.net/u/873762/blog/180388        公司新上线一个资讯网站,独立主机,raid5,lamp架构。由于资讯网是面向小行业,初步估计一两年内访问量压力不大,故,在做服务器系统搭建的时候,只是简单分出一个独立的data区作为数据库和网站程序的专区,其他按照linux的默认分区。apache,mysql,php均使用yum安装(也尝试

使用Spring Boot集成Spring Data JPA和单例模式构建库存管理系统

引言 在企业级应用开发中,数据库操作是非常重要的一环。Spring Data JPA提供了一种简化的方式来进行数据库交互,它使得开发者无需编写复杂的JPA代码就可以完成常见的CRUD操作。此外,设计模式如单例模式可以帮助我们更好地管理和控制对象的创建过程,从而提高系统的性能和可维护性。本文将展示如何结合Spring Boot、Spring Data JPA以及单例模式来构建一个基本的库存管理系统

vue2实践:el-table实现由用户自己控制行数的动态表格

需求 项目中需要提供一个动态表单,如图: 当我点击添加时,便添加一行;点击右边的删除时,便删除这一行。 至少要有一行数据,但是没有上限。 思路 这种每一行的数据固定,但是不定行数的,很容易想到使用el-table来实现,它可以循环读取:data所绑定的数组,来生成行数据,不同的是: 1、table里面的每一个cell,需要放置一个input来支持用户编辑。 2、最后一列放置两个b

【HarmonyOS】-TaskPool和Worker的对比实践

ArkTS提供了TaskPool与Worker两种多线程并发方案,下面我们将从其工作原理、使用效果对比两种方案的差异,进而选择适用于ArkTS图片编辑场景的并发方案。 TaskPool与Worker工作原理 TaskPool与Worker两种多线程并发能力均是基于 Actor并发模型实现的。Worker主、子线程通过收发消息进行通信;TaskPool基于Worker做了更多场景化的功能封装,例

15 组件的切换和对组件的data的使用

划重点 a 标签的使用事件修饰符组件的定义组件的切换:登录 / 注册 泡椒鱼头 :微辣 <!DOCTYPE html><html lang="en"><head><meta charset="UTF-8"><meta name="viewport" content="width=device-width, initial-scale=1.0"><meta http-equiv="X-UA-