本文主要是介绍陈华钧等 | OpenKG区块链:构建可信开放的联邦知识图谱平台,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
文章导读
本文介绍了OpenKG在区块链方向的一些实践和尝试。经过一年努力,OpenKG初步完成了底层区块链平台测试,以及OpenKG数据集、工具集和Openbase细粒度知识众包的上链测试工作。在这个测试平台中,已包含1033位确权的知识贡献者。上链测试两个月,累计由真实知识消费者触发的知识点亮和链上存证次数已达55万次(日均峰值一万多次),并首次测试实现了实体/三元组粒度的知识确权。目前,通过OpenKG发布的开放图谱和开源工具,以及通过Openbase众包采集的三元组,OpenKG都在链上进行存证操作,并计算和分配产生的荣誉值。OpenKG希望通过这项工作为知识图谱社区提供更加可信、可溯源的知识众包平台。
本文也梳理了在OpenKG上链实践过程中的一些思考:知识是有价值的,即使是权限可控的单一机构内部,知识来源也是多样化的,必定存在知识的价值量化、确权、溯源、隐私及可信等多方面问题。要在知识生产和消费闭环中平衡知识的责、权、利,并有效的激励众包,一种方法就是让知识上链,并构建知识的区块链系统。OpenKG作为新技术测试床,在相关方向努力做一些粗浅尝试,也希望为各企业机构建立知识图谱众包平台提供参考。在实践过程中,我们也发现很多问题和挑战,如细粒度知识确权带来的性能问题、细粒度知识众包的价值计算公平性问题、知识图谱的去中心化存储问题等,这些都需要更深入的研究和实践。
本文作者:陈华钧(浙江大学)、胡凝(Onchain)、漆桂林(东南大学)、王昊奋(同济大学)、毕桢(浙江大学)、李捷(Onchain)、杨帆(浙江大学)
版权声明:本文版权归OpenKG及作者所有,转发及摘录请注明来源
目录
1. 知识图谱的价值联邦
1.1 从语义网的三个内涵说起
1.2 知识的价值链
1.3 联邦知识图谱众包
2 知识图谱与区块链
2.1 关于区块链与分布式账本
2.2 链上知识:知识的区块链
2.3 开放知识图谱与区块链
3 OpenKG上链:链上的知识图谱
3.1 OpenKG上链架构
3.2 OpenKG的价值模型
3.2.1 K-Point:知识价值度量
3.2.2 OpenKG Token:荣誉值度量
3.3. OpenKG区块链的技术实现
3.3.1 OpenKG上链基本技术架构
3.3.2 OpenKG中的知识确权
3.3.3 OpenKG的知识溯源
3.3.4 OpenKG的可信度量
3.3.5 OpenKG区块链启动方案
3.4 OpenKG.CN上链实践:数据集与工具集上链
3.4.1 OpenKG.CN简介
3.4.2 图谱资源注册与上链
3.4.3 图谱资源的价值点亮
3.5 OpenBase上链实践:细粒度知识的上链
3.5.1 OpenBase简介
3.5.2 细粒度知识上链
3.5.3 细粒度的知识点亮
4 总结与展望
5 致谢
1. 知识图谱的价值联邦
1.1 从语义网的三个内涵说起
知识图谱的早期理念源于Web之父 Tim Berners Lee 关于语义网(The Semantic Web) 的设想,旨在采用图的结构来建模和记录世界万物之间的关联关系,并沉淀关于万物的知识。经过近二十年的发展,知识图谱的相关技术已经在搜索引擎、智能问答、语言及视觉理解、大数据决策分析、智能设备物联等众多领域得到广泛应用,被公认为是实现认知智能和智能互联的重要基石。
尽管知识图谱技术取得飞速进步,但仍然仅实现了语义网的三分之一的愿景。根据Tim Berners Lee的早期设想,语义互联网的目标是“Using the WWW infrastructure to create a global, decentralized, weblike mesh of machine-processable knowledge”。这有三个方面的内涵:知识互联、去中心化和知识的可信。三个内涵分别对应互联网的三个核心问题。
知识互联旨在设计一种统一的知识表示框架来将分散的数据相互关联起来,以便利用图的结构特点来实现体验更好的搜索、问答、分析等能力。早期的Linked Data即是这一理念的体现。而知识图谱则是目前知识互联最有影响力的体现。
去中心化是对Web架构的设想。尽管Web仍然没有实现去中心化设计,但互联网数据具有分散自治的特点,知识的生产者理应拥有知识的所有权和控制权。因此,去中心化构想反映的是对知识确权的要求。
知识的可信是指通过互联网发布的知识应该是可溯责的(Accountability)。由于互联网的开放性和匿名性,知识可能真假难辨,且会随着时间真假发生变化。因此,合理的知识发布机制还需要对知识进行可信度量和鉴别真假。
这三个内涵第一个与知识的表示框架有关,第二个与互联网的分布式架构有关,第三个与互联网的社会属性有关。而当前的企业级知识图谱管理架构主要考虑知识的互联,而忽视或弱化了知识的价值量化、分布式确权和可信度量等众多问题。
1.2 知识的价值链
知识是有价值的
知识是有价值的。互联网中的知识之间存在相关性,这些知识相互链接,形成知识图谱。互联网作为知识保存的一个载体,同时支持知识使用的场景,也承载新知识的产生。更为具体来说互联网知识有以下几个特性:
知识图谱包含知识和知识之间的联系;
知识节点存在价值,知识的联系也有价值;
知识因为“被使用”而产生价值;
被“证伪”的知识也存在价值,甚至在某些场景中,“反知识”更加令人记忆深刻;
知识的价值可以随着知识的联系进行传递。
知识的责、权、利
知识图谱技术强调将分散的碎片化数据相互关联、链接融合。即使是在单一的企业或机构内部,知识图谱的数据也通常来源于不同部门。知识图谱的构建通常需要依靠多部门协作完成。因此,一个好的知识图谱的构建平台需要有明晰的责、权、利方面的考虑,而非仅仅考虑数据清洗、算法抽取、协同编辑等功能。
如图1所示,从知识的生产者的视角,首先要考虑知识的价值量化方法。简单的价值量化模型可以依据知识的使用频率,即知识被使用的越多,知识的价值越高。合理的价值量化是知识众包激励的基本前提。
其次,要考量知识的所有权和控制权保护,即:知识确权。即便在一个权限可集中控制的企业内部,由于知识图谱中的知识粒度很细,在三元组级别考虑知识的确权问题也带来极大的技术挑战。知识的合理确权也是知识众包激励的基本保障。
再次,知识产生的结果未必总是正面的,错误、虚假甚至恶意的知识会给下游的知识使用者带来不利后果,因此不仅要考虑知识获取的正面激励,还需要提供必要的机制来追溯知识的来源,即:知识溯责(Accountability)。有效的知识溯责,可以帮助提升知识图谱的众包质量,对抗虚假和恶意的知识输入。
更进一步,知识最终需要解决知识的可信问题,即:可信度量。知识图谱中的每条三元组代表对客观世界的一条事实描述。这些事实型知识不仅有真假纬度的可信问题,也因为很多事实本身具有不确定和时效性,也带来知识不确定的可信度量问题。
图1. 知识图谱的价值联邦
知识的价值点亮与传播
知识的消费是衡量知识价值最直接的方式。知识被用得越多,知识的价值越高。同时知识的消费触发知识的价值传播。我们将知识被消费的过程称为知识的价值点亮。知识图谱使用场景支持不同的知识使用者有限的“点亮”知识图谱中的节点,从而触发知识传播。
“搜索点亮”是指知识的使用者在搜索过程对知识进行消费,从而触发被搜索知识条目的价值点亮。知识图谱支持语义关联搜索,进一步的关联搜索将继续触发新的知识点亮。每一步点亮都对产生的价值进行记录和存证。同时由于知识来源于不同的生产者,价值也需要以合理的方式分配给价值传播链上对应的知识生产者。
“问答点亮”和“搜索点亮”比较类似,消费者和知识库进行问答交互的过程即是消费过程。被问答触及的知识条目是被问答点亮的知识,问答检索过程中从起始节点到达答案节点所遍历的中间节点也将被点亮和价值存证。
“推理点亮”是指推理过程触发的知识点亮。知识图谱中的知识通常是不完备的,对知识图谱的推理过程是基于知识图谱中的已有知识完成。同时,由于知识来源众多,推理点亮的过程可能也是以联邦的方式完成,即:联邦推理点亮。
“分析点亮”是指将来源不同的知识进行综合分析从而不断触发知识图谱中相关知识的点亮过程。同样的,由于知识来源多样,分析的过程也可能是以联邦方式完成的,比如可能通过联邦学习的方式建立分析模型。
如下图(横轴代表时间,每条曲线都经过校准,以便在同一坐标系内可见):
图2. 知识的价值曲线
这篇关于陈华钧等 | OpenKG区块链:构建可信开放的联邦知识图谱平台的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!