新KG视点 | 王昊奋梁磊——新一代工业级知识图谱语义框架

本文主要是介绍新KG视点 | 王昊奋梁磊——新一代工业级知识图谱语义框架,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

OpenKG

451b2de5499c88f4a669829a3b9dbe87.png

大模型专辑

导读 知识图谱和大型语言模型都是用来表示和处理知识的手段。大模型补足了理解语言的能力,知识图谱则丰富了表示知识的方式,两者的深度结合必将为人工智能提供更为全面、可靠、可控的知识处理方法。在这一背景下,OpenKG组织新KG视点系列文章——“大模型专辑”,不定期邀请业内专家对知识图谱与大模型的融合之道展开深入探讨。本期邀请到同济大学特聘研究员王昊奋和蚂蚁集团梁磊分享“新一代工业级知识图谱语义框架”,本文整理自王昊奋和梁磊两位老师发表在中国计算机学会上的《新一代工业级知识图谱语义框架》文章。原文地址请点击文章底部的【阅读原文】。

4e233085b0f4238c85059b2297535471.png

分享嘉宾 | 王昊奋(同济大学研究员)、梁磊(蚂蚁集团)

笔记整理 | 邓鸿杰

关键词 | 知识图谱、SPG语义框架


企业在数字化过程中积累了海量的数据。企业需要不断地为用户创造价值,同时实现高效的经营管理和风险控制,这对企业的数字化基建提出了很高的要求,也为知识图谱(Knowledge Graph,KG)、大语言模型(Large Language Model,LLM)等AI 技术提供了多样化的落地场景。本文以商家经营和风险防控为例,介绍了在企业数字化中的图谱应用。特别强调了因为中小商户、沉睡户等薄数据客群的画像覆盖和风险洞察而对深度上下文(deep context) 感知的要求,企业级知识管理正在实现从二元静态向多元动态的模式跃迁。结合当前产业应用和研究进展,本文梳理总结了LLM、KG 在企业数字化中的可能应用。我们指出,LLM 因存在幻觉问题而使应用受到限制,KG 则因为具有结构化知识的表达能力、可解释性和较高的计算效率,在推理挖掘、线索洞察、分析查询等方面具有广泛应用。同时,LLM 和KG 的双重驱动因两者能力的互补性,空间巨大,在语言理解和交互类应用中也被预测为LLM产业化落地的关键路径。在此基础上,本文进一步阐述知识图谱技术当前面临的挑战,并结合蚂蚁集团知识图谱平台实践,介绍OpenKG 合作共建的工业级语义增强框架SPG( Semantic-enhanced Programmable Graph)及知识图谱引擎。

01

从二元静态到多元动态:知识管理模式的跃迁

知识图谱(Knowledge Graph,KG)是一种建模和管理数据的方法,它利用图结构、知识语义和逻辑依赖,提供存储、推理和查询事实知识的能力。早期的应用主要是从公开语料中提取百科类<s, p, o> 三元组来构建静态知识图谱,以提高搜索推荐的效率和体验。自2018 年以来,企业数字化垂直领域的图谱应用越来越广泛,如金融、医疗、公安和能源等领域[1, 2]。艾瑞咨询的一份报告[3] 显示,预计到2026 年,中国图谱市场空间将达到290 亿元,其中金融和公安是主要的拉动力量。由于领域图谱需要具备全面性、正确性和可解释性等特点,图谱数据的来源也从文本语料转向了企业多源异构数据。这些数据包括非/ 半结构化的用户生产内容/ 专业生产内容(UGC/PGC)、业务经营沉淀的结构化基础画像、交易事务、日志记录等,以及各领域特有的业务专家经验。围绕经营增长和风险防控,构建完整的客户、物料、渠道等的立体画像,图1 展示了商家实体的构建过程。

b3355e8f5e694892433635ee7e58a8b4.jpeg

图1 商家实体构建的过程

当前,商家已经突破了静态门店的限制,收款码让任何人都可以成为商家,同时也增加了风险防控的难度。仅通过文本概念标签进行风险防控是没有意义的,添加交易、社交等实际事实关系也远远不够。如图2 所示,需要实体多要素的深度信息协同才能发现更多有效的关联。图谱构建的要求也从静态常识转向深度上下文动态时空。这既需要基于介质(如Wi-Fi、电话、Email 等)实现关系传导, 又需要对地理连续空间(Spatial)实现边界化的聚集关联[4],还需要跟踪中/ 宏/ 微观事件的多元传导脉络,实现实体间稀疏关系语义可解释的稠密化。

153c95154a847492eef28ed7188e16f6.png

图2 深度上下文语义扩展的基础事实图谱

在业务应用方面,知识图谱可以用于构建知识推理任务,例如(1)商品推荐:通过类目、意图、时空等语义, 连接人- 商品、人- 商户、商品- 渠道等,实现语义联想的商品召回和表征迁移;(2)eKYB(electronic Know Your Business):通过介质关联、行为事件和时空聚集,识别商户同人、同店等,实现有效的画像补全和风险洞察。此外,基于知识图谱还可以实现结构感知的可控文本生成[5],例如(1)反洗钱智能审理识别定性和报文生成:结合深度上下文预测风险行为、挖掘团伙,通过资金链、时空聚集、设备关联等还原团伙/ 异常结构,并通过知识图谱到文本的转换,输出可解释报文;(2)AI 电话唤醒受害者:将识别到的可疑设备、钓鱼域名/AppID、团伙等实时关联传导到交易用户,生成沟通话术提醒用户并拦截风险。这些应用旨在实现更加智能和精准的风险控制和业务推理,提高商业运营的效率和价值。

在商户经营与风险防控的案例中,知识管理需要具备较强的上下文感知能力。常见的常识知识图谱卸掉了可感知上下文的信息和时空关联,在实际应用中,如果论元要素出现了多元化或相互交织, 由于无法感知个体差异,仅使用概念层归纳,推理应用的效果会大打折扣[6]。类似的问题也出现在公安反诈、保险理赔、医疗问诊、企业授信等领域。因此,企业垂直领域对知识图谱的期望发生了较大变化。知识表示也从图3 所示的二元静态结构发展到时空多元动态关联,以更好地适应实际应用的要求。

486f1838593d395ecbf539cd47a5f3b8.png图3 知识表示从二元到多元的演进 

02

LLM与KG在企业数字化业务中的应用范式

2022 年底,ChatGPT 火爆全球,随后国内也掀起百“模”大战。然而,由于LLM是一种黑箱概率模型[7],难以捕获事实知识,因此存在较多幻觉和逻辑错误[8]。与此同时,知识图谱的事实性、时效性和逻辑严谨性成为了LLM 的绝佳能力补充。通过将知识图谱作为约束和复杂推理能力的来源, LLM+KG 的应用范式引起了研究者的广泛关注,并催生了许多应用探索和研究[7, 8]。

在各种应用场景中,以商户经营与风控为例,算法任务可以分为以下五个方面。(1)交互应用:包括消费端(C)产品上的商品/ 服务透出和供应端(B)产品上的服务/ 商家入驻等;(2)经营管理:企业经营、商户经营必须的经营分析、物料管理等;(3)风险防控:黑灰产对抗是企业经营永恒的话题,企业必须增强对薄数据客群的认知覆盖和对新风险模式的快速识别;(4)知识构建:将外部非/ 半结构化、结构化数据转换成领域知识;(5)知识挖掘:企业促进增长和把控风险,不断提升主体要素、跨主体关系的长尾覆盖。表1 中列举了不同分类下LLM、KG 及LLM与KG 相互增强可能的落地应用。这些应用可以帮助企业在商户经营和风控领域中获得更好的效果和成果。

e221325f2d91e007d3f1e9d43fa05184.png

表1 LLM和KG在企业数字化不同场景下的应用

总体而言,以商户经营与风控应用场景为例,LLM 和KG 应用的算法任务主要可以分为三类。(1)仅用LLM :由于领域专业性和事实性的要求,LLM 在商户经营与风控领域尚未有明确可落地的场景;(2)LLM + KG 双驱动:主要体现在知识问答、报告生成等用户交互类场景中,比如前文提到的AI 电话唤醒受害者和反洗钱智能审理报文生成等。此外,还有知识要素抽取、实体链指等知识构建类场景。文献[8] 中详细描述了LLM 与KG 的双驱动,包括KG 增强的LLM、LLM 增强的KG 以及LLM+KG 框架协同三个方面,如图4 所示。(3)仅用KG :在推理决策、分析查询、知识挖掘类等不需要复杂语言交互和意图理解的决策/ 挖掘场景中,基于图谱结构化知识直接做图表征学习、规则推理、知识查询等。通过框架的协同实现LLM与KG 双驱动,支持跨模态知识对齐、逻辑引导知识推理、自然语言知识查询等。这对KG 知识语义的统一表示和引擎框架的跨场景迁移提出了更高的要求。

c18980c2f94174157757e57929d94534.png

图4 大模型与知识图谱的相互驱动 

03

知识图谱技术体系的发展需要与时俱进

知识图谱自身技术框架的发展和人们对它在新知识数据管理范式、大模型双轮驱动的期待并不完全匹配,因此图谱技术的发展也需要与时俱进。首先,缺少统一的工业级知识建模框架。强语义、弱结构的资源描述框架/Web 本体语言(RDF/OWL)发展多年并未出现成功的企业级/ 商业化应用,而强结构、弱语义的带标签属性图(Labeled Property Graph,LPG)却是企业级应用的首选。其次,缺少统一的技术框架[2],导致跨领域迁移性差。由于工具繁多、链路复杂,每个领域图谱构建都要从零开始。除这两点外, 其他方面也存在较大技术挑战,如表2 所列。

87365b87d760c1ec345af69aa9da2421.png

表2 新范式下图谱面临的技术挑战

知识图谱的目标是构建一个机器可理解、可推理的数字世界,实现知识语义的统一表示和框架化能力分层,以支持不同领域图谱的快速构建和跨场景迁移。这是图谱产业化加速过程中必须解决的基本核心问题。

04

基于SPG的工业级知识图谱引擎

蚂蚁知识图谱平台支撑了多年的金融领域业务, 积累并打造了基于属性图的语义框架SPG。该框架创造性地融合了LPG 结构性与RDF 语义性,既克服了RDF/OWL 语义复杂无法在工业场景落地的问题, 又充分发挥了LPG 结构简单与大数据体系兼容的优势。如图5 所示,该平台通过以下三个维度来定义和表示知识。(1)领域类型约束:基于SPG DC 的领域结构类型约束,实现知识的动态到静态自动分层;(2)领域内唯一性:通过SPG Evolving 提供可编程链指/ 归一能力,实现领域内知识的唯一性;(3)知识间依赖性:通过SPG Reasoning 谓词/ 逻辑体系定义知识之间的依赖,并提供可编程的推理表示。

7672b5ff6c9774d6ccbaa4626ee47384.png图5 SPG知识语义框架 

以SPG 为基础构建的知识引擎框架,不仅可以在图谱构建阶段衔接大数据架构,实现数据到知识的转换,而且可以在存储阶段适配到属性图,充分发挥其存储和计算能力。在推理应用阶段,该框架可以形式化成知识图谱领域特定语言(Knowledge Graph Domain Specific Language,KGDSL)这种机器可理解的符号表示,支持下游规则推理、神经/ 符号融合学习、KG2Prompt 联动LLM 知识抽取/ 知识推理等。同时,通过该框架的分层架构,新的领域图谱构建只需定义Schema、准备数据、开发生产/ 推理Operator 即可。这为构建高效、灵活、可扩展的知识图谱应用提供了可编程的范式。

知识图谱技术目前仍处于快速发展时期,也是关键的技术拐点期。建立统一的技术框架能够大幅降低应用门槛,促进生态繁荣。为此,我们正在与OpenKG 合作,加速推出基于SPG 的语义表示和引擎框架。我们将于2023年8月底推出SPG 语义框架白皮书v1.0, 欢迎大家下载和交流。

《语义增强可编程知识图谱SPG》白皮书 v1.0将于2023年8月27日CCKS工业论坛发布,并开放下载链接,欢迎大家关注SPG微信公众号,也期待产研各界同仁的讨论交流和批评指正,共建新一代工业级知识语义框架与引擎!

6dccb0b6b4297b5234289bc1e5f216c2.png

05

《语义增强可编程知识图谱SPG》白皮书编写单位

牵头编写单位:

蚂蚁科技集团股份有限公司

参与编写单位:

同济大学、

天津大学、

恒生电子股份有限公司、

浙江创邻科技有限公司、

达观数据有限公司、

海乂知信息科技(南京)有限公司、

浙江大学、

之江实验室、

中国科学院计算技术研究所

06

参考文献

[1] Martin S, Szekely B, Allemang D. The Rise of the Knowledge Graph[R]. O’ Reilly, 2021. 

[2] 王昊奋, 丁军, 胡芳槐, 等. 大规模企业级知识图谱实践综述[J]. 计算机工程, 2020, 46(7): 13. 

[3] 艾瑞咨询. 中国知识图谱行业研究报告 [OL].(2022-08- 12). https://report.iresearch.cn/report/202208/4043.shtml. 

[4] 陆锋, 诸云强, 张雪英. 时空知识图谱研究进展与展望[J]. 地球信息科学学报, 2023, 25(6):1091-1105. 

[5] Anthony C, Alvandipour M, Wang D Z. GAP: A Graph-aware Language Model Framework for Knowledge Graph-to-Text Generation[OL]. (2022-04-13). https:// arxiv.org/pdf/2204.06674.pdf. 

[6] 白硕. 事理图谱六问六答 [ O L ] . 理深科技时评. (2019-07-28). h t tps://mp.weixi n.q q.com/s/ p1h4jhL0esfYi3dOlC9Iwg. 

[7] Yang L, Chen H, Li Z, et al. ChatGPT is not Enough: Enhancing Large Language Models with Knowledge Graphs for Fact-aware Language Modeling[OL]. (2023-06-20). arXiv preprint arXiv:2306.11489. 

[8] Pan S, Luo L, Wang Y, et al. Unifying Large Language Models and Knowledge Graphs: A Roadmap[OL]. (2023-06-14). arXiv preprint arXiv:2306.08302. 

[9] 王昊奋, 王萌. “神经+符号”:从知识图谱角度看认知推理的发展[J]. 中国计算机学会通讯, 2020, 16(8), 52-56.

来源:蚂蚁集团 X OpenKG

以上就是本次分享的内容,谢谢。

f8f9aebe26e94cb168814b4ec8aed900.gif

de90c7d321347437800b062df310da8f.jpeg

作者简介

INTRODUCTION

0a6d3d06a4685f10bdb787c54fb4f0f3.gif

王昊奋

b76a96274dbf0af5c08615701e100368.gif

同济大学特聘研究员、博导

dac688559d0e98b69b20300ac879f994.gif

王昊奋,CCF 高级会员,CCF 上海分部秘书长、CCF SIGKG 主席、术语工委副主任,OpenKG联合发起人。同济大学百人计划特聘研究员,博士生导师。主要研究方向为知识图谱、自然语言处理。联系方式:carter.whfcarter@gmail.com

03f6701578104858b7205342d1d28073.jpeg

作者简介

INTRODUCTION

987f1c2898f685900ed1be351333722b.gif

梁磊

f4919e85d99e4cdc5200f56cc25d6ce2.gif

蚂蚁知识引擎负责人

4eb4ecbe6c639d4c7d5786840b7f65e4.gif

梁磊,CCF 专业会员,蚂蚁知识引擎负责人。个人主要研究方向为知识图谱、图学习与推理引擎、AI工程、搜索引擎等。联系方式:leywar.liang@antgroup.com


OpenKG

OpenKG(中文开放知识图谱)旨在推动以中文为核心的知识图谱数据的开放、互联及众包,并促进知识图谱算法、工具及平台的开源开放。

b8a4864e11193c86503f91b34ed55c24.png

点击阅读原文,进入 OpenKG 网站。

这篇关于新KG视点 | 王昊奋梁磊——新一代工业级知识图谱语义框架的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/395498

相关文章

Java架构师知识体认识

源码分析 常用设计模式 Proxy代理模式Factory工厂模式Singleton单例模式Delegate委派模式Strategy策略模式Prototype原型模式Template模板模式 Spring5 beans 接口实例化代理Bean操作 Context Ioc容器设计原理及高级特性Aop设计原理Factorybean与Beanfactory Transaction 声明式事物

sqlite3 相关知识

WAL 模式 VS 回滚模式 特性WAL 模式回滚模式(Rollback Journal)定义使用写前日志来记录变更。使用回滚日志来记录事务的所有修改。特点更高的并发性和性能;支持多读者和单写者。支持安全的事务回滚,但并发性较低。性能写入性能更好,尤其是读多写少的场景。写操作会造成较大的性能开销,尤其是在事务开始时。写入流程数据首先写入 WAL 文件,然后才从 WAL 刷新到主数据库。数据在开始

系统架构师考试学习笔记第三篇——架构设计高级知识(20)通信系统架构设计理论与实践

本章知识考点:         第20课时主要学习通信系统架构设计的理论和工作中的实践。根据新版考试大纲,本课时知识点会涉及案例分析题(25分),而在历年考试中,案例题对该部分内容的考查并不多,虽在综合知识选择题目中经常考查,但分值也不高。本课时内容侧重于对知识点的记忆和理解,按照以往的出题规律,通信系统架构设计基础知识点多来源于教材内的基础网络设备、网络架构和教材外最新时事热点技术。本课时知识

cross-plateform 跨平台应用程序-03-如果只选择一个框架,应该选择哪一个?

跨平台系列 cross-plateform 跨平台应用程序-01-概览 cross-plateform 跨平台应用程序-02-有哪些主流技术栈? cross-plateform 跨平台应用程序-03-如果只选择一个框架,应该选择哪一个? cross-plateform 跨平台应用程序-04-React Native 介绍 cross-plateform 跨平台应用程序-05-Flutte

Spring框架5 - 容器的扩展功能 (ApplicationContext)

private static ApplicationContext applicationContext;static {applicationContext = new ClassPathXmlApplicationContext("bean.xml");} BeanFactory的功能扩展类ApplicationContext进行深度的分析。ApplicationConext与 BeanF

数据治理框架-ISO数据治理标准

引言 "数据治理"并不是一个新的概念,国内外有很多组织专注于数据治理理论和实践的研究。目前国际上,主要的数据治理框架有ISO数据治理标准、GDI数据治理框架、DAMA数据治理管理框架等。 ISO数据治理标准 改标准阐述了数据治理的标准、基本原则和数据治理模型,是一套完整的数据治理方法论。 ISO/IEC 38505标准的数据治理方法论的核心内容如下: 数据治理的目标:促进组织高效、合理地

ZooKeeper 中的 Curator 框架解析

Apache ZooKeeper 是一个为分布式应用提供一致性服务的软件。它提供了诸如配置管理、分布式同步、组服务等功能。在使用 ZooKeeper 时,Curator 是一个非常流行的客户端库,它简化了 ZooKeeper 的使用,提供了高级的抽象和丰富的工具。本文将详细介绍 Curator 框架,包括它的设计哲学、核心组件以及如何使用 Curator 来简化 ZooKeeper 的操作。 1

【Kubernetes】K8s 的安全框架和用户认证

K8s 的安全框架和用户认证 1.Kubernetes 的安全框架1.1 认证:Authentication1.2 鉴权:Authorization1.3 准入控制:Admission Control 2.Kubernetes 的用户认证2.1 Kubernetes 的用户认证方式2.2 配置 Kubernetes 集群使用密码认证 Kubernetes 作为一个分布式的虚拟

Spring Framework系统框架

序号表示的是学习顺序 IoC(控制反转)/DI(依赖注入): ioc:思想上是控制反转,spring提供了一个容器,称为IOC容器,用它来充当IOC思想中的外部。 我的理解就是spring把这些对象集中管理,放在容器中,这个容器就叫Ioc这些对象统称为Bean 用对象的时候不用new,直接外部提供(bean) 当外部的对象有关系的时候,IOC给它俩绑好(DI) DI和IO

Sentinel 高可用流量管理框架

Sentinel 是面向分布式服务架构的高可用流量防护组件,主要以流量为切入点,从限流、流量整形、熔断降级、系统负载保护、热点防护等多个维度来帮助开发者保障微服务的稳定性。 Sentinel 具有以下特性: 丰富的应用场景:Sentinel 承接了阿里巴巴近 10 年的双十一大促流量的核心场景,例如秒杀(即突发流量控制在系统容量可以承受的范围)、消息削峰填谷、集群流量控制、实时熔断下游不可用应