陈华钧等 | OpenKG区块链:构建可信开放的联邦知识图谱平台

本文主要是介绍陈华钧等 | OpenKG区块链:构建可信开放的联邦知识图谱平台,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

文章导读

本文介绍了OpenKG在区块链方向的一些实践和尝试。经过一年努力,OpenKG初步完成了底层区块链平台测试,以及OpenKG数据集、工具集和Openbase细粒度知识众包的上链测试工作。在这个测试平台中,已包含1033位确权的知识贡献者。上链测试两个月,累计由真实知识消费者触发的知识点亮和链上存证次数已达55万次(日均峰值一万多次),并首次测试实现了实体/三元组粒度的知识确权。目前,通过OpenKG发布的开放图谱和开源工具,以及通过Openbase众包采集的三元组,OpenKG都在链上进行存证操作,并计算和分配产生的荣誉值。OpenKG希望通过这项工作为知识图谱社区提供更加可信、可溯源的知识众包平台。

本文也梳理了在OpenKG上链实践过程中的一些思考:知识是有价值的,即使是权限可控的单一机构内部,知识来源也是多样化的,必定存在知识的价值量化、确权、溯源、隐私及可信等多方面问题。要在知识生产和消费闭环中平衡知识的责、权、利,并有效的激励众包,一种方法就是让知识上链,并构建知识的区块链系统。OpenKG作为新技术测试床,在相关方向努力做一些粗浅尝试,也希望为各企业机构建立知识图谱众包平台提供参考。在实践过程中,我们也发现很多问题和挑战,如细粒度知识确权带来的性能问题、细粒度知识众包的价值计算公平性问题、知识图谱的去中心化存储问题等,这些都需要更深入的研究和实践。

本文作者:陈华钧(浙江大学)、胡凝(Onchain)、漆桂林(东南大学)、王昊奋(同济大学)毕桢(浙江大学)、李捷(Onchain)、杨帆(浙江大学)

版权声明:本文版权归OpenKG及作者所有,转发及摘录请注明来源


目录

1. 知识图谱的价值联邦

1.1 从语义网的三个内涵说起

1.2 知识的价值链

1.3 联邦知识图谱众包

2 知识图谱与区块链

 2.1 关于区块链与分布式账本

 2.2 链上知识:知识的区块链

 2.3 开放知识图谱与区块链

3 OpenKG上链:链上的知识图谱

 3.1 OpenKG上链架构

 3.2 OpenKG的价值模型

 3.2.1 K-Point:知识价值度量

 3.2.2 OpenKG Token:荣誉值度量

 3.3. OpenKG区块链的技术实现

 3.3.1 OpenKG上链基本技术架构

 3.3.2 OpenKG中的知识确权

 3.3.3 OpenKG的知识溯源

 3.3.4 OpenKG的可信度量

 3.3.5 OpenKG区块链启动方案

 3.4 OpenKG.CN上链实践:数据集与工具集上链

 3.4.1 OpenKG.CN简介 

 3.4.2 图谱资源注册与上链

 3.4.3 图谱资源的价值点亮

 3.5 OpenBase上链实践:细粒度知识的上链

 3.5.1 OpenBase简介

 3.5.2 细粒度知识上链

 3.5.3 细粒度的知识点亮

4 总结与展望

5 致谢


1. 知识图谱的价值联邦

1.1 从语义网的三个内涵说起

知识图谱的早期理念源于Web之父 Tim Berners Lee 关于语义网(The Semantic Web) 的设想,旨在采用图的结构来建模和记录世界万物之间的关联关系,并沉淀关于万物的知识。经过近二十年的发展,知识图谱的相关技术已经在搜索引擎、智能问答、语言及视觉理解、大数据决策分析、智能设备物联等众多领域得到广泛应用,被公认为是实现认知智能和智能互联的重要基石。

尽管知识图谱技术取得飞速进步,但仍然仅实现了语义网的三分之一的愿景。根据Tim Berners Lee的早期设想,语义互联网的目标是“Using the WWW infrastructure to create a global, decentralized, weblike mesh of machine-processable knowledge”。这有三个方面的内涵:知识互联、去中心化和知识的可信。三个内涵分别对应互联网的三个核心问题。

  • 知识互联旨在设计一种统一的知识表示框架来将分散的数据相互关联起来,以便利用图的结构特点来实现体验更好的搜索、问答、分析等能力。早期的Linked Data即是这一理念的体现。而知识图谱则是目前知识互联最有影响力的体现。

  • 去中心化是对Web架构的设想。尽管Web仍然没有实现去中心化设计,但互联网数据具有分散自治的特点,知识的生产者理应拥有知识的所有权和控制权。因此,去中心化构想反映的是对知识确权的要求。

  • 知识的可信是指通过互联网发布的知识应该是可溯责的(Accountability)。由于互联网的开放性和匿名性,知识可能真假难辨,且会随着时间真假发生变化。因此,合理的知识发布机制还需要对知识进行可信度量和鉴别真假。

这三个内涵第一个与知识的表示框架有关,第二个与互联网的分布式架构有关,第三个与互联网的社会属性有关。而当前的企业级知识图谱管理架构主要考虑知识的互联,而忽视或弱化了知识的价值量化、分布式确权和可信度量等众多问题。

1.2 知识的价值链

  • 知识是有价值的

知识是有价值的。互联网中的知识之间存在相关性,这些知识相互链接,形成知识图谱。互联网作为知识保存的一个载体,同时支持知识使用的场景,也承载新知识的产生。更为具体来说互联网知识有以下几个特性:

  1. 知识图谱包含知识和知识之间的联系;

  2. 知识节点存在价值,知识的联系也有价值;

  3. 知识因为“被使用”而产生价值;

  4. 被“证伪”的知识也存在价值,甚至在某些场景中,“反知识”更加令人记忆深刻;

  5. 知识的价值可以随着知识的联系进行传递。

  • 知识的责、权、利

知识图谱技术强调将分散的碎片化数据相互关联、链接融合。即使是在单一的企业或机构内部,知识图谱的数据也通常来源于不同部门。知识图谱的构建通常需要依靠多部门协作完成。因此,一个好的知识图谱的构建平台需要有明晰的责、权、利方面的考虑,而非仅仅考虑数据清洗、算法抽取、协同编辑等功能。

如图1所示,从知识的生产者的视角,首先要考虑知识的价值量化方法。简单的价值量化模型可以依据知识的使用频率,即知识被使用的越多,知识的价值越高。合理的价值量化是知识众包激励的基本前提。

其次,要考量知识的所有权和控制权保护,即:知识确权。即便在一个权限可集中控制的企业内部,由于知识图谱中的知识粒度很细,在三元组级别考虑知识的确权问题也带来极大的技术挑战。知识的合理确权也是知识众包激励的基本保障。

再次,知识产生的结果未必总是正面的,错误、虚假甚至恶意的知识会给下游的知识使用者带来不利后果,因此不仅要考虑知识获取的正面激励,还需要提供必要的机制来追溯知识的来源,即:知识溯责(Accountability)。有效的知识溯责,可以帮助提升知识图谱的众包质量,对抗虚假和恶意的知识输入。

更进一步,知识最终需要解决知识的可信问题,即:可信度量。知识图谱中的每条三元组代表对客观世界的一条事实描述。这些事实型知识不仅有真假纬度的可信问题,也因为很多事实本身具有不确定和时效性,也带来知识不确定的可信度量问题。

             

图1. 知识图谱的价值联邦

  • 知识的价值点亮与传播

知识的消费是衡量知识价值最直接的方式。知识被用得越多,知识的价值越高。同时知识的消费触发知识的价值传播。我们将知识被消费的过程称为知识的价值点亮。知识图谱使用场景支持不同的知识使用者有限的“点亮”知识图谱中的节点,从而触发知识传播。

“搜索点亮”是指知识的使用者在搜索过程对知识进行消费,从而触发被搜索知识条目的价值点亮。知识图谱支持语义关联搜索,进一步的关联搜索将继续触发新的知识点亮。每一步点亮都对产生的价值进行记录和存证。同时由于知识来源于不同的生产者,价值也需要以合理的方式分配给价值传播链上对应的知识生产者。

“问答点亮”和“搜索点亮”比较类似,消费者和知识库进行问答交互的过程即是消费过程。被问答触及的知识条目是被问答点亮的知识,问答检索过程中从起始节点到达答案节点所遍历的中间节点也将被点亮和价值存证。

“推理点亮”是指推理过程触发的知识点亮。知识图谱中的知识通常是不完备的,对知识图谱的推理过程是基于知识图谱中的已有知识完成。同时,由于知识来源众多,推理点亮的过程可能也是以联邦的方式完成,即:联邦推理点亮。

“分析点亮”是指将来源不同的知识进行综合分析从而不断触发知识图谱中相关知识的点亮过程。同样的,由于知识来源多样,分析的过程也可能是以联邦方式完成的,比如可能通过联邦学习的方式建立分析模型。

如下图(横轴代表时间,每条曲线都经过校准,以便在同一坐标系内可见):

             

图2. 知识的价值曲线

 

这篇关于陈华钧等 | OpenKG区块链:构建可信开放的联邦知识图谱平台的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/851118

相关文章

一文详解如何从零构建Spring Boot Starter并实现整合

《一文详解如何从零构建SpringBootStarter并实现整合》SpringBoot是一个开源的Java基础框架,用于创建独立、生产级的基于Spring框架的应用程序,:本文主要介绍如何从... 目录一、Spring Boot Starter的核心价值二、Starter项目创建全流程2.1 项目初始化(

使用Java实现通用树形结构构建工具类

《使用Java实现通用树形结构构建工具类》这篇文章主要为大家详细介绍了如何使用Java实现通用树形结构构建工具类,文中的示例代码讲解详细,感兴趣的小伙伴可以跟随小编一起学习一下... 目录完整代码一、设计思想与核心功能二、核心实现原理1. 数据结构准备阶段2. 循环依赖检测算法3. 树形结构构建4. 搜索子

使用Python和python-pptx构建Markdown到PowerPoint转换器

《使用Python和python-pptx构建Markdown到PowerPoint转换器》在这篇博客中,我们将深入分析一个使用Python开发的应用程序,该程序可以将Markdown文件转换为Pow... 目录引言应用概述代码结构与分析1. 类定义与初始化2. 事件处理3. Markdown 处理4. 转

Java使用Mail构建邮件功能的完整指南

《Java使用Mail构建邮件功能的完整指南》JavaMailAPI是一个功能强大的工具,它可以帮助开发者轻松实现邮件的发送与接收功能,本文将介绍如何使用JavaMail发送和接收邮件,希望对大家有所... 目录1、简述2、主要特点3、发送样例3.1 发送纯文本邮件3.2 发送 html 邮件3.3 发送带

国内环境搭建私有知识问答库踩坑记录(ollama+deepseek+ragflow)

《国内环境搭建私有知识问答库踩坑记录(ollama+deepseek+ragflow)》本文给大家利用deepseek模型搭建私有知识问答库的详细步骤和遇到的问题及解决办法,感兴趣的朋友一起看看吧... 目录1. 第1步大家在安装完ollama后,需要到系统环境变量中添加两个变量2. 第3步 “在cmd中

Python结合Flask框架构建一个简易的远程控制系统

《Python结合Flask框架构建一个简易的远程控制系统》这篇文章主要为大家详细介绍了如何使用Python与Flask框架构建一个简易的远程控制系统,能够远程执行操作命令(如关机、重启、锁屏等),还... 目录1.概述2.功能使用系统命令执行实时屏幕监控3. BUG修复过程1. Authorization

nginx-rtmp-module构建流媒体直播服务器实战指南

《nginx-rtmp-module构建流媒体直播服务器实战指南》本文主要介绍了nginx-rtmp-module构建流媒体直播服务器实战指南,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有... 目录1. RTMP协议介绍与应用RTMP协议的原理RTMP协议的应用RTMP与现代流媒体技术的关系2

Python中构建终端应用界面利器Blessed模块的使用

《Python中构建终端应用界面利器Blessed模块的使用》Blessed库作为一个轻量级且功能强大的解决方案,开始在开发者中赢得口碑,今天,我们就一起来探索一下它是如何让终端UI开发变得轻松而高... 目录一、安装与配置:简单、快速、无障碍二、基本功能:从彩色文本到动态交互1. 显示基本内容2. 创建链

Golang使用etcd构建分布式锁的示例分享

《Golang使用etcd构建分布式锁的示例分享》在本教程中,我们将学习如何使用Go和etcd构建分布式锁系统,分布式锁系统对于管理对分布式系统中共享资源的并发访问至关重要,它有助于维护一致性,防止竞... 目录引言环境准备新建Go项目实现加锁和解锁功能测试分布式锁重构实现失败重试总结引言我们将使用Go作

Java架构师知识体认识

源码分析 常用设计模式 Proxy代理模式Factory工厂模式Singleton单例模式Delegate委派模式Strategy策略模式Prototype原型模式Template模板模式 Spring5 beans 接口实例化代理Bean操作 Context Ioc容器设计原理及高级特性Aop设计原理Factorybean与Beanfactory Transaction 声明式事物