知识图谱里的知识表示:RDF

2023-11-10 12:40
文章标签 图谱 知识 表示 rdf

本文主要是介绍知识图谱里的知识表示:RDF,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

大部分知识图谱使用RDF描述世界上的各种资源,并以三元组的形式保存到知识库中。RDF( Resource Description Framework, 资源描述框架)是一种资源描述语言,它受到元数据标准、框架系统、面向对象语言等多方面的影响,被用来描述各种网络资源,其出现为人们在Web上发布结构化数据提供一个标准的数据描述框架。

使用RDF语言,有利于在网络上形成人机可读,并可由机器自动处理的文件。
 

1. 由来

RDF的出现最初来源于元数据的概念。所谓元数据,即“描述数据的数据”或者“描述信息的信息”。举个例子,电脑里保存的数码照片都包含一些关于尺寸、创建时间、感光度等额外属性信息,它们就是一种用来描述二进制图片数据的元数据。元数据是一种结构化形式的数据,机器处理起来十分方便。

640?wx_fmt=png

EXIF_information

90年代有个叫Guha的人,在苹果公司研究各种各样的元数据格式来管理图片音频等数据,RSS就是他在那个时候发明的,随后在1997年他又发明了RDF。接着人们发现RDF这种形式非常适合用于在万维网上对知识的结构化表示,于是在1999年,RDF被W3C推为行业推荐标准
 

2. 模型定义

RDF提出了一个简单的二元关系模型来表示事物之间的语义关系,即使用三元组集合的方式来描述事物和关系。三元组是知识图谱中知识表示的基本单位,简称SPO,三元组被用来表示实体与实体之间的关系,或者实体的某个属性的属性值是什么

从内容上看三元组的结构为 “资源-属性-属性值” ,资源实体由URI表示,属性值可以是另一个资源实体的URI,也可以是某种数据类型的值,也称为literals(字面量)。

主语和宾语也可以由第三种结点类型空节点(blank nodes)表示。blank node简单来说就是没有IRI和literal的资源,或者说匿名资源。

由于RDF规定资源的命名必须使用URI,所以也直接解决了命名空间的问题。这里我们具体说一下IRI,URI,URL和URN这几个术语的区别

  • URI:统一资源标识符,字符集被限制为US-ASCII(英文字符),通过指定唯一名称来标识资源;

  • IRI:国际化资源标识符(Internationalized Resource Identifier),定义与URI相同,URI,只是将字符集扩展到通用字符集(包含了非英文字符),所以它是URI的超集,同样唯一标识了一个资源;

  • URN: 统一资源名称(Uniform Resource Name),由命名空间标识符(NID)和命名空间特定字符串(NSS)组成;

  • URL:统一资源定位符,即我们通常提到的网址,通常指的是不包含URN的URI子集

以及它们的集合包涵关系

  • IRI ⊃ URI

  • URI ⊃ URL

  • URI ⊃ URN

  • URL ∩ URN = ∅
     

3.RDF与XML的比较

RDF最初的灵感一部分也来源于xml,可以看成xml的扩展和简化。xml最初被设计用于网络之间数据的传输,语法类似于html,但是可以自行定义标签的名字。这个特点非常适合定义符合各自要求的数据格式,也使得xml具有更强大的表达能力,不过因此也导致XML数据的结构过于松散随意,其统一性和通用性受到了严重限制。读者通常需要对xml Schema文件(xmls)有足够的详细了解之后才可以完全理解xml文件背后的语义信息。

RDF和xml相比还是有很大的差别,下面通过两者比较来更好地了解RDF的优点。

  • 模型更灵活。XML是被设定为固定的、树状的文本,其描述元数据的能力缺乏一定的灵活性。相比而言,RDF采用简单明了的三元组形式,以及互联形成的图结构,具备足够的灵活性来描述网络上许多主观的、分布式的、不同形式表达的资源对象。

  • RDF最初是被作为元数据语言设计的,其表达形式天然具备保存数据对象的描述型元数据的能力,自带语义解释。而XML最初的语义解释包含在另一个schema文件中,获取并解析相对麻烦很多,导致XML语言进行元数据建模,描述数据的灵活性非常差。

让我们看看下面这个RDF三元组的例子,比如“这个网页的作者是Ora”这句话,转化为三元组就是 (网页,作者,Ora),用图形表示就是:

640?wx_fmt=png

Page_hasAuthor

但是如果用xml表示,形式就可能非常多样和复杂,导致语义不清的问题,比如下面这些结构的xml都可能出现:

 

在不了解xml文档的schema的前提下,除非标签的命名非常清晰易懂,否则你很难分辨推断出,到底哪个标签里的内容是另一个标签里内容的属性或者什么(语义不清)。
 

3.1 用xml格式表示RDF数据

640?wx_fmt=png

Yangtze

不过w3c还是给出了一套如何用xml表示RDF数据的XML schema词汇,下图所示是 中国长江(Yangtze)作为一个RDF实体用xml表示的形式:

640?wx_fmt=png

rdf xml

Description说明这是rdf里一条三元组陈述,about是主语资源的URI,s:Creator是属性名,后面跟着宾语属性值。

不过XML的形式太过冗长,且可读性差,后面会介绍更好的RDF序列化方式。
 

4. RDF解决的语义问题

RDF的最大意义在于,它不仅是字符串构成的符号,还包含了语义信息。

语义通常指的是符号与所指对象之间的关系。人可以根据自己的知识储备理解符号与符号之间的语义关系,比如你在新闻里读到“任正非”三个字,或者别人向你说起“任正非”,你都会将这些符号和你脑海中的一个对象或者影像联系,再综合过往收集到的和这个对象相关的信息,从而理解符号背后的含义。

那么计算机是否也可以为世界上的每一个实体,定义一个唯一的锚(也就是URI),所有与这个实体相关的信息(文字、图像等等),都会被这个锚钩住。

这正是RDF可以表达语义信息的一个原因。在三元组模型中,主体、客体可以是通过URI引用的资源,这些URI是独立于RDF文档中的符号存在的,唯一表示了存在于这个世界的某个资源,也即代表了对象本身而不仅仅是符号,如此RDF就表达出了符号和对象之间的关系,这是一种可以被计算机理解的语义。

比如还是上面那个中国长江的例子,我们有两份关于描述中国长江(Yangtze)的RDF文档,它们虽然分布在不同位置,但是却共用同一个URI,因此计算机可以把他们联系起一起处理。当用户搜索长江的时候,搜索引擎可以通过知识融合工具,把两份RDF描述整合一起返回。这也是RDF的分布式存储功能。

640?wx_fmt=png

分布式rdf的聚合

 

5. 序列化方式

RDF是以一种建模的方式来描述数据语义,不受具体语法表示的限制,序列化的方式有多种。数据序列化就是将对象或者转化成特定的格式,使其可在网络中传输,或者存储在文件中。

序列化RDF数据的方法主要有这几种:RDF/XML,N-Triples,Turtle,RDFa,JSON-LD。

其中Turtle 是使用最广泛的RDF序列化方式,其格式紧凑,易于阅读。下面是w3c上RDF定义文档中的一部分内容,定义文档本身就采用了三元组来描述RDF中的专用词汇,因此可以用Turtle的形式展示出来:

 

上述片段是对RDF中的rdf:type这个词汇的描述。因为URI很长,一般我们都会使用缩写。Turtle使用 @prefix 对RDF的URI前缀进行缩写,rdf:表示URI前缀 http://www.w3.org/1999/02/22-rdf-syntax-ns#,因此rdf:type就是http://www.w3.org/1999/02/22-rdf-syntax-ns#type的简写。

文档中出现的谓词 a 是rdf:type的简写,这是Turtle语法中的一种常用简写,用于说明实体的类型是什么。

同一个subject实体拥有多种关系的时候,Turtle语法允许只出现一次subject来表示,通过分号分隔不同的关系,最后英文句号“.”说明与主语实体的所有关系已经说明完毕。这样就避免了subject主体像下面这样的重复出现。

 

关于RDF的介绍就先说到这里,后续会给大家在说一说一些关于RDFs和OWL的基本知识。

 

 

欢迎关注磐创博客资源汇总站:
http://docs.panchuang.net/

欢迎关注PyTorch官方中文教程站:
http://pytorch.panchuang.net/

这篇关于知识图谱里的知识表示:RDF的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/382696

相关文章

Java架构师知识体认识

源码分析 常用设计模式 Proxy代理模式Factory工厂模式Singleton单例模式Delegate委派模式Strategy策略模式Prototype原型模式Template模板模式 Spring5 beans 接口实例化代理Bean操作 Context Ioc容器设计原理及高级特性Aop设计原理Factorybean与Beanfactory Transaction 声明式事物

sqlite3 相关知识

WAL 模式 VS 回滚模式 特性WAL 模式回滚模式(Rollback Journal)定义使用写前日志来记录变更。使用回滚日志来记录事务的所有修改。特点更高的并发性和性能;支持多读者和单写者。支持安全的事务回滚,但并发性较低。性能写入性能更好,尤其是读多写少的场景。写操作会造成较大的性能开销,尤其是在事务开始时。写入流程数据首先写入 WAL 文件,然后才从 WAL 刷新到主数据库。数据在开始

系统架构师考试学习笔记第三篇——架构设计高级知识(20)通信系统架构设计理论与实践

本章知识考点:         第20课时主要学习通信系统架构设计的理论和工作中的实践。根据新版考试大纲,本课时知识点会涉及案例分析题(25分),而在历年考试中,案例题对该部分内容的考查并不多,虽在综合知识选择题目中经常考查,但分值也不高。本课时内容侧重于对知识点的记忆和理解,按照以往的出题规律,通信系统架构设计基础知识点多来源于教材内的基础网络设备、网络架构和教材外最新时事热点技术。本课时知识

【Python知识宝库】上下文管理器与with语句:资源管理的优雅方式

🎬 鸽芷咕:个人主页  🔥 个人专栏: 《C++干货基地》《粉丝福利》 ⛺️生活的理想,就是为了理想的生活! 文章目录 前言一、什么是上下文管理器?二、上下文管理器的实现三、使用内置上下文管理器四、使用`contextlib`模块五、总结 前言 在Python编程中,资源管理是一个重要的主题,尤其是在处理文件、网络连接和数据库

dr 航迹推算 知识介绍

DR(Dead Reckoning)航迹推算是一种在航海、航空、车辆导航等领域中广泛使用的技术,用于估算物体的位置。DR航迹推算主要通过已知的初始位置和运动参数(如速度、方向)来预测物体的当前位置。以下是 DR 航迹推算的详细知识介绍: 1. 基本概念 Dead Reckoning(DR): 定义:通过利用已知的当前位置、速度、方向和时间间隔,计算物体在下一时刻的位置。应用:用于导航和定位,

【H2O2|全栈】Markdown | Md 笔记到底如何使用?【前端 · HTML前置知识】

Markdown的一些杂谈 目录 Markdown的一些杂谈 前言 准备工作 认识.Md文件 为什么使用Md? 怎么使用Md? ​编辑 怎么看别人给我的Md文件? Md文件命令 切换模式 粗体、倾斜、下划线、删除线和荧光标记 分级标题 水平线 引用 无序和有序列表 ​编辑 任务清单 插入链接和图片 内嵌代码和代码块 表格 公式 其他 源代码 预

从计组中从重温C中浮点数表示及C程序翻译过程

目录 移码​编辑  传统浮点表示格式 浮点数的存储(ieee 754)->修炼内功 例子:   ​编辑 浮点数取的过程   C程序翻译过程 移码  传统浮点表示格式 浮点数的存储(ieee 754)->修炼内功 根据国际标准IEEE(电⽓和电⼦⼯程协会)  32位 例子:    64位    IEEE754对有效数字M和

图神经网络(2)预备知识

1. 图的基本概念         对于接触过数据结构和算法的读者来说,图并不是一个陌生的概念。一个图由一些顶点也称为节点和连接这些顶点的边组成。给定一个图G=(V,E),  其 中V={V1,V2,…,Vn}  是一个具有 n 个顶点的集合。 1.1邻接矩阵         我们用邻接矩阵A∈Rn×n表示顶点之间的连接关系。 如果顶点 vi和vj之间有连接,就表示(vi,vj)  组成了

JAVA初级掌握的J2SE知识(二)和Java核心的API

/** 这篇文章送给所有学习java的同学,请大家检验一下自己,不要自满,你们正在学习java的路上,你们要加油,蜕变是个痛苦的过程,忍受过后,才会蜕变! */ Java的核心API是非常庞大的,这给开发者来说带来了很大的方便,经常人有评论,java让程序员变傻。 但是一些内容我认为是必须掌握的,否则不可以熟练运用java,也不会使用就很难办了。 1、java.lang包下的80%以上的类

JAVA初级掌握的J2SE知识(一)

时常看到一些人说掌握了Java,但是让他们用Java做一个实际的项目可能又困难重重,在这里,笔者根据自己的一点理解斗胆提出自己的一些对掌握Java这个说法的标准,当然对于新手,也可以提供一个需要学习哪些内容的参考。另外这个标准仅限于J2SE部分,J2EE部分的内容有时间再另说。 1、语法:必须比较熟悉,在写代码的时候IDE的编辑器对某一行报错应该能够根据报错信息知道是什么样的语法错误并且知道