知识图谱的演进与基于 OpenSPG+TuGraph 的推理实践

2024-04-11 20:28

本文主要是介绍知识图谱的演进与基于 OpenSPG+TuGraph 的推理实践,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

本文为蚂蚁集团开发工程师王少飞在TuGraph Meetup北京站的演讲,主要介绍了蚂蚁知识图谱平台经过多年金融领域业务沉淀的知识语义增强可编程框架SPG,及TuGraph作为执行引擎在图谱推理过程的作用。

作者介绍: 王少飞,蚂蚁知识图谱推理开发工程师,作为核心开发者从0到1参与了推理引擎的建设,目前负责OpenSPG-Reasoner模块的开源和维护。

🌟OpenSPG GitHub,欢迎大家 Star 关注~:
https://github.com/OpenSPG/openspg

知识图谱发展阶段与趋势

图片

知识图谱作为结构化语义知识库,用来描述和建模现实世界中各物及其之间的复杂关系。其发展历程可概括为三个阶段:通用知识图谱阶段、领域知识图谱阶段及与大模型结合阶段。

  • 通用知识图谱阶段:此阶段以从开放数据集中抽取SPG(Subject-Predicate-Object)三元组构建静态知识库为主,旨在提升搜索推荐精准度与用户体验;
  • 领域知识图谱阶段:知识获取方式从开放支持域到封闭支持域为主,融合专家经验规则,旨在挖掘专业领域内稀缺知识,主要用于如风控、信贷等场景;
  • 企业级知识管理:当前阶段与大模型相结合,知识图谱目标变成关注知识标准化、跨域数据互联与复用等问题。

图片

从静态常识到 Deep Context:随着阶段演进,仅在推理过程中加入文本信息,概念,或加入交易或社交等实体间关系,其推理效果并无显著效果。转而强调实体多要素信息的深度协同,以揭示稀疏实体间隐含的语义关联,实现语义可解释的稠密化。

SPG语义增强

任何复杂技术的大规模产业化应用都需要统一的技术框架,以屏蔽复杂的技术细节以实现跨场景迁移性支持新业务的快速部署。蚂蚁知识图谱团队通过多年业务实践的总结,提出了新一代知识语义框架SPG并开源,充分借力LPG的结构性与RDF的语义性实现可编程范式的知识引擎架构,支持各领域图谱的高效构建和跨领域的知识语义对齐。

SPG知识图谱其主体模型的语义增强与业界主流方式存在差异,主要体现在以下方面:

  • 知识定义:将知识分为实体、概念和事件三类。实体为与业务紧密相关的客观实例,可通过属性描述与画像刻画(如用户、企业);概念为从具体到一般的抽象,描述一组实体集合,具有相对静态与较强的泛化性;事件则为附有时空约束的实体类型,例如行业事件、企业事件、诊疗事件等。

图片

  • 语义增强示意:对传统属性图进行改造,将实体的简单文本属性通过语义增强。例如,将shop的province、city等通识属性链指到具体的概念上,并建立上下级关系;将邮箱及其具体格式进行标准化处理,转化为标准实体,实现对实体属性的深度理解与有效关联。

图片

SPG能力进化与升级

SPG能力的进化与分级共包括五个阶段,其能力逐渐增强并且逐步进行兼容:

  • 兼容模式:目标是实现大数据体系下结构化与非结构化数据能够快速建立简单属性图,以及能够使用图推理能力;
  • 领域模型约束:加入更多schema约束,对普通属性进行抽象,将其抽象成一些概念或者标准的实体,此时这些主体属性不再是一个简单的属性,而是链指到一些具体的概念上;
  • 数据到知识的迭代演化:随着不断迭代,通过加入更多链指以及融合算子,来强化主体唯一性,发现主体间更丰富的语义关联。例如,知识图谱中已经存在的商店,和另一个域下有口碑描述或抽象出来的商店,可能为同一个店铺。为了消除同一实体的不一致性,通过加入内置的融合算子(fuseOp),将它融合成一个实体;
  • 谓词语义及逻辑符号:对于谓词的抽象,例如preferences在传统的属性图里就是一个简单的属性,我们把这个属性抽象成类目的概念,类目下可能有成都火锅,为此链指一条边,用户user到Category类目下可能也有一条边,于是通过链指的方式,就可以做更多的模糊推理或推荐。
  • 符号语句化阶段:定义谓词之间的关系,例如可以定义两个谓词间的互反和互斥的关系,通过符号化的表示来定义逻辑的规则,从而进行推理。

图片

利用TuGraph赋能SPG图谱推理

如何在知识图谱推理中使用 TuGraph 能力?首先在知识推理中,利用OpenSPG逻辑规则执行引擎,其大致可以分为三部分:

  • 最上层为用户的输入,用户可以通过我们自定义的符号KGDSL来输入,同时也接受ISO接口标准输入;
  • 中间层是我们的解析编译与优化过程,可以通过Lube将它解析优化成最终执行计划。右边catalog是在编译过程中或解析过程中对一些谓词,事件概念,大模型进行管理;
  • 最下层Adapter,可以去对接TuGraph-Analytics,或者是TuGraph-db。

图片

在图谱推理中,主要分为在线分析处理(OLAP)与离线场景的应用:

  • OLAP场景:在OLAP场景中,由TuGraph来提供类似于Cypher查询语言。首先用户通过Schema建模后,将想要的数据导入TuGraph-db中,之后用户每一个query进来后都有推理引擎来执行编译与优化,生成ISO-GQL语言,最终通过与TuGraph-db通信完成查询或完成修改目标。

图片

  • 离线场景:在离线场景下,利用TuGraph提供的计算编程框架,用户可嵌入自定义算子来实现支持SPG能力。整个流程需要用户新建离线任务,经规则解析器解析生成执行计划,并对每一个执行计划进行对应OP操作。根据adapter的不同,生成基于 TuGraph 每一个OP的实现。编译打包为插件提交至TuGraph-Analytics-Engine运行,最终获得逐步推理结果。左侧就是我们所提供的所有OP的列表。最终我们用到TuGraph-Analytics的一些能力,其实就是一些节点管理的能力,数据管理的能力和数据计算的能力。

图片

SPG知识图谱语义框架以其独特的语义增强方法与能力进化机制,结合 TuGraph平台的强大功能,为知识图谱的构建、推理与应用提供了有力支撑,适应了现代知识图谱技术的发展趋势与应用场景需求。

关注我们

查看官网: spg.openkg.cn/

Github: github.com/OpenSPG/ope…

SPG 知识图谱 平台致力于分享 SPG 及 SPG + LLM 双驱架构及应用相关进展,欢迎大家扫码关注~

这篇关于知识图谱的演进与基于 OpenSPG+TuGraph 的推理实践的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/895096

相关文章

Java架构师知识体认识

源码分析 常用设计模式 Proxy代理模式Factory工厂模式Singleton单例模式Delegate委派模式Strategy策略模式Prototype原型模式Template模板模式 Spring5 beans 接口实例化代理Bean操作 Context Ioc容器设计原理及高级特性Aop设计原理Factorybean与Beanfactory Transaction 声明式事物

基于MySQL Binlog的Elasticsearch数据同步实践

一、为什么要做 随着马蜂窝的逐渐发展,我们的业务数据越来越多,单纯使用 MySQL 已经不能满足我们的数据查询需求,例如对于商品、订单等数据的多维度检索。 使用 Elasticsearch 存储业务数据可以很好的解决我们业务中的搜索需求。而数据进行异构存储后,随之而来的就是数据同步的问题。 二、现有方法及问题 对于数据同步,我们目前的解决方案是建立数据中间表。把需要检索的业务数据,统一放到一张M

sqlite3 相关知识

WAL 模式 VS 回滚模式 特性WAL 模式回滚模式(Rollback Journal)定义使用写前日志来记录变更。使用回滚日志来记录事务的所有修改。特点更高的并发性和性能;支持多读者和单写者。支持安全的事务回滚,但并发性较低。性能写入性能更好,尤其是读多写少的场景。写操作会造成较大的性能开销,尤其是在事务开始时。写入流程数据首先写入 WAL 文件,然后才从 WAL 刷新到主数据库。数据在开始

系统架构师考试学习笔记第三篇——架构设计高级知识(20)通信系统架构设计理论与实践

本章知识考点:         第20课时主要学习通信系统架构设计的理论和工作中的实践。根据新版考试大纲,本课时知识点会涉及案例分析题(25分),而在历年考试中,案例题对该部分内容的考查并不多,虽在综合知识选择题目中经常考查,但分值也不高。本课时内容侧重于对知识点的记忆和理解,按照以往的出题规律,通信系统架构设计基础知识点多来源于教材内的基础网络设备、网络架构和教材外最新时事热点技术。本课时知识

Prometheus与Grafana在DevOps中的应用与最佳实践

Prometheus 与 Grafana 在 DevOps 中的应用与最佳实践 随着 DevOps 文化和实践的普及,监控和可视化工具已成为 DevOps 工具链中不可或缺的部分。Prometheus 和 Grafana 是其中最受欢迎的开源监控解决方案之一,它们的结合能够为系统和应用程序提供全面的监控、告警和可视化展示。本篇文章将详细探讨 Prometheus 和 Grafana 在 DevO

springboot整合swagger2之最佳实践

来源:https://blog.lqdev.cn/2018/07/21/springboot/chapter-ten/ Swagger是一款RESTful接口的文档在线自动生成、功能测试功能框架。 一个规范和完整的框架,用于生成、描述、调用和可视化RESTful风格的Web服务,加上swagger-ui,可以有很好的呈现。 SpringBoot集成 pom <!--swagge

【Python知识宝库】上下文管理器与with语句:资源管理的优雅方式

🎬 鸽芷咕:个人主页  🔥 个人专栏: 《C++干货基地》《粉丝福利》 ⛺️生活的理想,就是为了理想的生活! 文章目录 前言一、什么是上下文管理器?二、上下文管理器的实现三、使用内置上下文管理器四、使用`contextlib`模块五、总结 前言 在Python编程中,资源管理是一个重要的主题,尤其是在处理文件、网络连接和数据库

vue2实践:el-table实现由用户自己控制行数的动态表格

需求 项目中需要提供一个动态表单,如图: 当我点击添加时,便添加一行;点击右边的删除时,便删除这一行。 至少要有一行数据,但是没有上限。 思路 这种每一行的数据固定,但是不定行数的,很容易想到使用el-table来实现,它可以循环读取:data所绑定的数组,来生成行数据,不同的是: 1、table里面的每一个cell,需要放置一个input来支持用户编辑。 2、最后一列放置两个b

dr 航迹推算 知识介绍

DR(Dead Reckoning)航迹推算是一种在航海、航空、车辆导航等领域中广泛使用的技术,用于估算物体的位置。DR航迹推算主要通过已知的初始位置和运动参数(如速度、方向)来预测物体的当前位置。以下是 DR 航迹推算的详细知识介绍: 1. 基本概念 Dead Reckoning(DR): 定义:通过利用已知的当前位置、速度、方向和时间间隔,计算物体在下一时刻的位置。应用:用于导航和定位,

【HarmonyOS】-TaskPool和Worker的对比实践

ArkTS提供了TaskPool与Worker两种多线程并发方案,下面我们将从其工作原理、使用效果对比两种方案的差异,进而选择适用于ArkTS图片编辑场景的并发方案。 TaskPool与Worker工作原理 TaskPool与Worker两种多线程并发能力均是基于 Actor并发模型实现的。Worker主、子线程通过收发消息进行通信;TaskPool基于Worker做了更多场景化的功能封装,例