知识图谱(knowledge graph)——概述

2024-09-04 18:38

本文主要是介绍知识图谱(knowledge graph)——概述,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

知识图谱总结

  • 概念
    • 技术链概括
    • 通用知识图谱和垂直领域知识图谱
    • 国内外开放知识图谱
  • 技术链详解
    • 知识获取
    • 知识融合
    • 知识表示
    • 知识推理
    • 知识存储
  • 知识图谱构建流程
  • 其他挑战
    • 跨语言知识抽取
    • 跨语言知识链接
  • 思考
  • 参考

概念

知识图谱(Knowledge Graph)以结构化的形式描述客观世界中概念、实体及其关系。是融合了认知计算、知识表示与推理、信息检索与抽取、自然语言处理、Web技术、机器学习与大数据挖掘等等方向的交叉学科。

技术链概括

  • 知识获取
  • 知识融合
  • 知识表示
  • 知识推理
  • 知识赋能
  • 知识图谱技术图示
    在这里插入图片描述

通用知识图谱和垂直领域知识图谱

在这里插入图片描述
领域知识图谱介绍:复旦肖仰华:领域知识图谱落地实践中的问题与对策

国内外开放知识图谱

  • 国外:早期的常识知识库Cyc、WordNet、ConceptNet等;互联网知识图谱,主要有FreeBase、DBpedia、Schema、Wikidata 、BableNet、Microsofot ConceptGraph,医疗领域Linked Life Data等
  • 国内:中文知识图谱OpenKG,CN-DBpedia,中医药知识图谱,阿里电商知识图谱、美团知识图谱、XLore(清华大学)、Belief-Eigen(中科院)、PKUPie(北京大学),开放类的中文百科知识图谱(zhishi.me)

技术链详解

知识获取

KG中知识抽取主要从结构化、半结构化、非结构化数据中转为三元组表示的标准知识形态。
在这里插入图片描述

  • 知识获取主要流程
    首先需要数据清洗(正则表达式!)
    在这里插入图片描述在这里插入图片描述

  • 实体抽取(NER)
    目的是识别文本中指定类别的实体,主要包括人 名、 地名、 机构名、 专有名词等的任务“ 姚明(Yao Ming),1980年9月12日出生于上海市徐汇区,祖籍江苏省苏州市吴江区震泽镇,前中国职业篮球运动员,司职中锋,现任中职联公司董事长兼总经理“。如下图所示,命名实体识别主要包含两个部分:实体边界识别与实体分类。

  • 实体关系抽取
    实体关系抽取是知识图谱构建与信息提取的关键环节,主要提取两个或者多个实体之间的某种联系。格式,三元组(实体1,关系,实体2),"北京是中国的首都、政治中心和文化中心 "中实体关系可以表示为(中国、首都、北京)(中国 政治中心 北京)(中国 文化中心 北京)。

    • 限定关系抽取:采用弱监督/监督机器学习进行预定义的实体关系知识抽取,一般为多分类问题,可以直接抽取三元组关系。
    • 开发域关系抽取:预先不进行预定义,系统本身自动抽取实体之间的关系,一般采用无监督学习方法进行自动提取实体之间的关系(三元组)。缺点是抽取的知识缺乏语义化、很难做归一化处理,弱监督学习可以自动生成大规模的训练医疗库,但是会产生噪音数据。
      实体关系抽取和实体链接介绍
  • 事件抽取
    识别文本中关于事件的信息,并以结构化的形式呈现,核心概念包括:事件描述、事件触发词(动词或者名词)、事件元素(实体、时间和属性等表达语义的细粒度单位组成)、元素角色(角色在某件事情上面的语义关系)、事件类型(事件元素和触发词决定事件的类别),如下图所示:
    在这里插入图片描述

知识融合

通过知识获取,实现了从非结构化和半结构化数据中获取实体,关系以及实体属性信息的目标。但是,这些结果中可能包含大量的冗余和错误信息,数据之间的关系也是扁平化的,缺乏层次性和逻辑性,因此有必要对其进行清理和整合,知识融合包括2部分内容:实体链接和知识合并。
本体:知识图谱中本体有点类似于我们学生物时的界门纲目科属种的分类概念,是知识图谱中的概念层,或者说模式层。本体可以用来规定我们的知识图谱中包含哪些领域的知识,知识的类别体系:一共有哪些类别,每种类别下面可以有哪些属性。另外,还能规定例如类别的上下位关系(父类和子类),属性的约束(例如一个人的出生日期的属性只能有1个)等等。本体是关于数据的描述和定义(元数据)。如下图所示,一个知识图谱本体的列表:
在这里插入图片描述
本体知识界定了每个实体应该存在于哪种类别,我们获取到的三元组会被本体匹配算法分类在不同的本体类型下。例如,如果本体是“机场”,那么,一些属于这一类的实体像“大连周子水机场 ”,“ 戴高乐机场 ”,“广州白云机场 ”就会被包括进来。该过程也会涉及到自然语言处理技术的应用。如,我们抽取出的三元组为‘卢浮宫——位于——巴黎’,这是知识库中的单个三元组。在实践中,知识库包括数百万这样的三元组,我们也称之为事实。这些事实都会被归入知识库中对应的本体。
这个过程我们还需要解决一些实体消歧以及共指消解问题。

  • 实体消歧
    给定一段文本:在旧金山的2019春季发布会上,苹果推出新耳机产品Airpods2,文本中的提及“苹果”可能指向的目标实体包括 {苹果(水果),苹果公司,苹果(电影),苹果(银行), …},系统需要根据“苹果”的上下文词语识别出该段文本中“苹果”指的是苹果公司,而不是苹果(水果)或者苹果(电影)。

  • 共指消解
    例如,在一遍文章的开头可能提及到“哈尔滨工业大学”,后面则称为“哈工大”、“工大”等,可能还会提到“这所大学”、“她”这些指代词等,这里所有的词语指向的都是哈工大这同一个实体,我们在提取知识时必须可以辨别出来。

  • 实体链接(Entity Linking)
    实体链接是指对于从文本中抽取得到的实体对象,将其链接到知识库中对应的正确实体对象的操作。实体链接的基本思想是首先根据给定的实体指称项,从知识库中选出一组候选实体对象,然后通过相似度计算将指称项链接到正确的实体对象。
    实体链接的一般流程是:1)从文本中通过实体抽取得到实体指称项;2)进行实体消歧和共指消解,判断知识库中的同名实体与之是否代表不同的含义以及知识库中是否存在其他命名实体与之表示相同的含义;3)在确认知识库中对应的正确实体对象之后,将该实体指称项链接到知识库中对应实体。
    实体链接Entity Linking开源工具:dexter2

  • 实体对齐
    实体(Entity)是指客观存在并可相互区别的事物,包括具体的人、事、物、抽象的概念或联系,知识库中包含多种类别的实体。实体对齐(Entity Alignment)也被称作实体匹配(Entity Matching),是指对于异构数据源知识库中的各个实体,找出属于现实世界中的同一实体。随着中文网络百科的不断完善,可以从网络百科页面抽取出实体,并对不同来源的实体进行对齐,构建高质量的中文异构百科RDF知识库。实体对齐常用的方法是利用实体的属性信息判定不同源实体是否可进行对齐。

  • 知识合并
    1)合并外部知识库
    即将外部知识库融合到本地知识库
    2)合并关系数据库
    将高质量的结构化的关系数据库数据合并到本地知识库

  • 本体构建
    通过知识获取,可以从原始语料中提取出实体,关系和属性等知识要素。再经过知识融合,可以消除实体指称项与实体对象之间的歧义,得到一系列基本的事实表达,然而,事实本身并不等于知识,要想最终获得结构化,网络化的知识体系,还需要经历本体构建,知识推理,质量评估。
    在这里插入图片描述

知识表示

如何利用计算符号运算来表示人脑中的知识和推理过程,知识表示主要有两种,基于离散符号的知识表示法和基于连续向量的知识表示。

  • 基于离散符号的知识表示法
    • RDF(Resource Description Framework) 三元组模型,构建方式主要是主-谓-宾有向标记图和RDFS(simple Vocabularty and schema)。更多RDF的知识详见:RDF
      在这里插入图片描述
    • OWL(Web Ontology language):是一种W3C开发的网路本体语言,用于对本体进行语义描述。
      在这里插入图片描述
    • SPARQL(Protocol and RDF Query Language) :RDF的查询语言,支持主流图形数据库。下图URI/IRI为主要网络协议,主要数据存储格式是RDF与XML。
      在这里插入图片描述
  • 基于连续向量的知识表示
    • KG embedding 主要是KG中实体与关系映射到一个低维的向量空间,主要的方法有张量分解、NN、距离模型(现有的词向量模型基于连续向量空间来表示)(Embedding projector)
      在这里插入图片描述
  • 两种方法对比
    在这里插入图片描述

知识推理

根据已有的知识图谱中的事实或者关系推断出新的事实与关系,一般是考察实体、关系和图谱结构三个方面的信息特征。

  • 基于演绎的知识图谱推理
  • 基于归纳的知识图谱推理

知识存储

知识图谱的知识存储一般是采用图形数据库进行存储,主要有两种图数据模型:RDF图和属性图(Property Graph)

  • RDF图
    RDF图是W3C的官方标准,得到了政府和大公司的支持,但最终表现平平。
  • 属性图
    属性图是草根自发的,但最终得到了市场的认可,现在主要是中小企业在用。
  • 查询语言:RDF图:SPARQL; 属性图:Cypher 和 Gremlin
  • 常见图形数据库
    • 基于关系数据库的存储方案
      主要是三元组表(3store)、水平表(DLDB)、属 性表(JENA)、垂直划分(SW-Store)、DB2RDF和六重索引(RDFX-3X、Hexastore)
    • 面向RDF的三元组数据库
      • Jena RDF4J RDF-3X gStore
    • 原生图数据库
      • Neo4j
      • 分布式图形数据库 JanusGraph
      • OrientDB
      • Cayley
    • 图形数据库对比
      在这里插入图片描述

知识图谱构建流程

实体图谱的构建主要有自底向上、自顶向下和二则混合的方法,如下图所示,分别为自底向上和自顶向下:

  • 自底向上
    在这里插入图片描述

  • 自顶向下
    在这里插入图片描述

  • 详细流程图
    在这里插入图片描述

其他挑战

跨语言知识抽取

跨语言知识链接

思考

人工智能的两大学派:连接主义和符号主义。
在这里插入图片描述

  • 连接主义学派受到神经科学的启发,认为"智能"是无数"非智能"的神经细胞互相作用的结果,人与机器之间其实没有本质的差别。如果我们能模拟神经细胞的行为,进而构造组织一张人工的"神经网络",那么理论上就能模拟出人的大脑,创造所谓的"智能"。
  • 符号主义认为认为人的智能可以用数理逻辑表达。数理逻辑在20世纪30年代开始被用于描述智能行为,模拟人类智能活动。计算机出现后,该理论又被应用到计算机上,实现了逻辑演绎系统,从而又发展出后来的专家系统和知识工程理论等。
    那么为什么不把符号主义和连接主义相结合呢?即知识图谱+深度学习。相信未来的人工智能只有知识+学习才能走的更远。

参考

[1] 本文大部分内容来自知识图谱入门系列
[2] 精益知识图谱方法论
[3] 知乎问题:知识图谱怎样入门
[4] 知乎专栏:知识图谱概论(二):概念具象化描述
[5] 刘峤,李杨,段宏,刘瑶,秦志光. 知识图谱构建技术综述[J]. 计算机研究与发展, 2016, 53(3): 582-600.
LiuQiao,LiYang,DuanHong,LiuYao,QinZhiguang. Knowledge Graph Construction Techniques. Journal of Computer Research and Development, 2016, 53(3): 582-600.

这篇关于知识图谱(knowledge graph)——概述的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1136716

相关文章

Java架构师知识体认识

源码分析 常用设计模式 Proxy代理模式Factory工厂模式Singleton单例模式Delegate委派模式Strategy策略模式Prototype原型模式Template模板模式 Spring5 beans 接口实例化代理Bean操作 Context Ioc容器设计原理及高级特性Aop设计原理Factorybean与Beanfactory Transaction 声明式事物

水位雨量在线监测系统概述及应用介绍

在当今社会,随着科技的飞速发展,各种智能监测系统已成为保障公共安全、促进资源管理和环境保护的重要工具。其中,水位雨量在线监测系统作为自然灾害预警、水资源管理及水利工程运行的关键技术,其重要性不言而喻。 一、水位雨量在线监测系统的基本原理 水位雨量在线监测系统主要由数据采集单元、数据传输网络、数据处理中心及用户终端四大部分构成,形成了一个完整的闭环系统。 数据采集单元:这是系统的“眼睛”,

sqlite3 相关知识

WAL 模式 VS 回滚模式 特性WAL 模式回滚模式(Rollback Journal)定义使用写前日志来记录变更。使用回滚日志来记录事务的所有修改。特点更高的并发性和性能;支持多读者和单写者。支持安全的事务回滚,但并发性较低。性能写入性能更好,尤其是读多写少的场景。写操作会造成较大的性能开销,尤其是在事务开始时。写入流程数据首先写入 WAL 文件,然后才从 WAL 刷新到主数据库。数据在开始

Java 创建图形用户界面(GUI)入门指南(Swing库 JFrame 类)概述

概述 基本概念 Java Swing 的架构 Java Swing 是一个为 Java 设计的 GUI 工具包,是 JAVA 基础类的一部分,基于 Java AWT 构建,提供了一系列轻量级、可定制的图形用户界面(GUI)组件。 与 AWT 相比,Swing 提供了许多比 AWT 更好的屏幕显示元素,更加灵活和可定制,具有更好的跨平台性能。 组件和容器 Java Swing 提供了许多

系统架构师考试学习笔记第三篇——架构设计高级知识(20)通信系统架构设计理论与实践

本章知识考点:         第20课时主要学习通信系统架构设计的理论和工作中的实践。根据新版考试大纲,本课时知识点会涉及案例分析题(25分),而在历年考试中,案例题对该部分内容的考查并不多,虽在综合知识选择题目中经常考查,但分值也不高。本课时内容侧重于对知识点的记忆和理解,按照以往的出题规律,通信系统架构设计基础知识点多来源于教材内的基础网络设备、网络架构和教材外最新时事热点技术。本课时知识

【编程底层思考】垃圾收集机制,GC算法,垃圾收集器类型概述

Java的垃圾收集(Garbage Collection,GC)机制是Java语言的一大特色,它负责自动管理内存的回收,释放不再使用的对象所占用的内存。以下是对Java垃圾收集机制的详细介绍: 一、垃圾收集机制概述: 对象存活判断:垃圾收集器定期检查堆内存中的对象,判断哪些对象是“垃圾”,即不再被任何引用链直接或间接引用的对象。内存回收:将判断为垃圾的对象占用的内存进行回收,以便重新使用。

Java 多线程概述

多线程技术概述   1.线程与进程 进程:内存中运行的应用程序,每个进程都拥有一个独立的内存空间。线程:是进程中的一个执行路径,共享一个内存空间,线程之间可以自由切换、并发执行,一个进程最少有一个线程,线程实际数是在进程基础之上的进一步划分,一个进程启动之后,进程之中的若干执行路径又可以划分成若干个线程 2.线程的调度 分时调度:所有线程轮流使用CPU的使用权,平均分配时间抢占式调度

【Python知识宝库】上下文管理器与with语句:资源管理的优雅方式

🎬 鸽芷咕:个人主页  🔥 个人专栏: 《C++干货基地》《粉丝福利》 ⛺️生活的理想,就是为了理想的生活! 文章目录 前言一、什么是上下文管理器?二、上下文管理器的实现三、使用内置上下文管理器四、使用`contextlib`模块五、总结 前言 在Python编程中,资源管理是一个重要的主题,尤其是在处理文件、网络连接和数据库

dr 航迹推算 知识介绍

DR(Dead Reckoning)航迹推算是一种在航海、航空、车辆导航等领域中广泛使用的技术,用于估算物体的位置。DR航迹推算主要通过已知的初始位置和运动参数(如速度、方向)来预测物体的当前位置。以下是 DR 航迹推算的详细知识介绍: 1. 基本概念 Dead Reckoning(DR): 定义:通过利用已知的当前位置、速度、方向和时间间隔,计算物体在下一时刻的位置。应用:用于导航和定位,

java集合的概述

集合就是一个容器,我们可以把多个对象放入的容器中。就像水杯(假设容量可以不断扩大)一样,你可以往水杯中不断地添加水,既然是水杯,你就不能往里添加沙子,也就是说集合中添加的对象必须是同一个类型的(引用类型,而不能是基本类型)。 看到集合的介绍会让我们的想起数组,那么集合和数组有什么区别呢? 首先,数组的大小是固定的,而集合理论上大小是不限的。 其次,数组既可以存储基本数据类型的数据,也可以存储