知识挖掘

2024-08-20 21:32
文章标签 知识 挖掘

本文主要是介绍知识挖掘,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

本节介绍了知识挖掘的相关技术,包含实体链接与消歧,知识规则挖掘,知识图谱表示学习。

  • 知识挖掘
    • 实体消歧与链接
      • 示例一: 基于生成模型的 entity-mention 模型
      • 示例二: 构建实体关联图
        • 顶点的初始化
        • 边的初始化 : 深度语义关系模型
        • 基于图的标签传播算法
      • 示例三:基于知识库
        • 基于向量相似度的实体关联图的构建
        • 基于PageRank得分
    • 知识图谱表示学习(TranSE)
    • PRA 与 TranSE的结合
  • Ref

知识挖掘

知识挖掘是指从数据中获取实体及新的实体链接和新的关联规则等信息。主要的技术包含实体的链接与消歧、知识规则挖掘、知识图谱表示学习等。其中实体链接与消歧为知识的内容挖掘,知识规则挖掘属于结构挖掘,表示学习则是将知识图谱映射到向量空间而后进行挖掘。

实体消歧与链接

实体链接的流程如上图所示,这张图在前一章出现过,那里对流程进行了简要说明。此处对该技术做进一步的说明。

示例一: 基于生成模型的 entity-mention 模型

该模型的流程如上图所示,文字表述为: 我们有两个句子,其中的实体分别为 Jordan(左)和 Michael Jordan(右),我们称之为Mention。我们想要判断这两个Jordan指的到底是篮球大神还是ML大神? 这个问题可以用公式表述为:

e=argmaxeP(m,e)P(m)e=arg⁡maxeP(m,e)P(m)

等价于:

e=argmaxeP(m,e)=argmaxeP(e)P(s|e)P(c|e)e=arg⁡maxeP(m,e)=arg⁡maxeP(e)P(s|e)P(c|e)
其中P(e)表示该实体的活跃度,P(se) 来自前面流程图中的实体引用表,它表示s作为实体的毛文本出现的概率,s表示名字。P(ce )表示的是翻译概率(?)。

简单来说就是根据mention所处的句子和上下文来判断该mention是某一实体的概率。

示例二: 构建实体关联图

实体关联图由3个部分组成:

  • 每个顶点 Vi=<mi,ei>Vi=<mi,ei> 由mention-entity构成。
  • 每个顶点得分:代表实体指称mi的目标实体为ei概率可能性大小。
  • 每条边的权重:代表语义关系计算值,表明顶点Vi和Vj的关联程度。

其示例如上图所示,其流程包括:顶点的得分初始化方法、边权初始化方法和基于图的标签传播算法。

顶点的初始化
  • 若顶点V实体不存在歧义,则顶点得分设置为1;
  • 若顶点中mention和entity 满足 p(e|m)0.95p(e|m)≤0.95, 则顶点得分也设置为1.
  • 其余顶点的得分设置为 p(e|m)p(e|m);
边的初始化 : 深度语义关系模型

其大体流程如下图所示:

其中E 表示实体, R表示关系, ET表示实体类型,D表示词。它做的是将这些东西映射到非常稀疏的空间内,而后通过深度学习进行特征提取和标注,最终给出每对实体见的分值。

基于图的标签传播算法

初始时,数据中的标签如左侧表格所示:

其中标签数据为无歧义的entity-mention,基于此数据,我们采用基于图的标签传播算法,先构造一个相似度矩阵,而后采用图的regulartion,直到最终标签确定。有点类似于协同消歧的作用。

示例三:基于知识库

其流程图如上图所示,

  • 首先我们有一个知识库,我们经由深度学习算法,将RDF三元组转化为实体向量。
  • 有了向量之后,我们就可以计算实体向量间的相似度。
  • 基于相似度构建实体关联图。
  • 基于PageRank算法更新实体关联图。

下面对其中重要的部分做讲解。

基于向量相似度的实体关联图的构建

上图给出RDF三元组如何生成实体向量并计算实体向量间的相似度。对于相似度的度量可以采用cos函数等方式。即:

SM(eia,ejb)=cos(v(eia),v(ejb))SM(eai,ebj)=cos(v(eai),v(ebj))

由此我们定义候选实体间的转化概率:

ETP(eia,ejb)=SM(eia,ejb)Σkη(v,vi)SM(eia,k)ETP(eai,ebj)=SM(eai,ebj)Σkη(v,vi)SM(eai,k)

其中分母为该顶点的出度向量相似度求和。

基于PageRank得分

首先根据PageRank算法计算未消歧实体指称实体的得分,取得分最高的未消歧实体。而后删除其他候选实体及相关的边,更新图中的边权值。

其流程如下图所示:

知识图谱表示学习(TranSE)

表示学习即将三元组即各种关系映射成向量进行处理。

一个典型的系统如上图所示,它将结构知识、文本知识和视觉知识结合进行输入得到一个综合的向量,而后将其与用户的行为向量进行匹配来完成推荐功能。

PRA 与 TranSE的结合

表示学习无法处理一对多、多对一和多对多问题,同事可解释性不强。PRA难以处理稀疏关系、路径特征提取效率不高。因此两类方法之间存在互补性。因此提出了路径的表示学习等方法。

Ref

王昊奋知识图谱教程

这篇关于知识挖掘的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1091229

相关文章

Java架构师知识体认识

源码分析 常用设计模式 Proxy代理模式Factory工厂模式Singleton单例模式Delegate委派模式Strategy策略模式Prototype原型模式Template模板模式 Spring5 beans 接口实例化代理Bean操作 Context Ioc容器设计原理及高级特性Aop设计原理Factorybean与Beanfactory Transaction 声明式事物

sqlite3 相关知识

WAL 模式 VS 回滚模式 特性WAL 模式回滚模式(Rollback Journal)定义使用写前日志来记录变更。使用回滚日志来记录事务的所有修改。特点更高的并发性和性能;支持多读者和单写者。支持安全的事务回滚,但并发性较低。性能写入性能更好,尤其是读多写少的场景。写操作会造成较大的性能开销,尤其是在事务开始时。写入流程数据首先写入 WAL 文件,然后才从 WAL 刷新到主数据库。数据在开始

系统架构师考试学习笔记第三篇——架构设计高级知识(20)通信系统架构设计理论与实践

本章知识考点:         第20课时主要学习通信系统架构设计的理论和工作中的实践。根据新版考试大纲,本课时知识点会涉及案例分析题(25分),而在历年考试中,案例题对该部分内容的考查并不多,虽在综合知识选择题目中经常考查,但分值也不高。本课时内容侧重于对知识点的记忆和理解,按照以往的出题规律,通信系统架构设计基础知识点多来源于教材内的基础网络设备、网络架构和教材外最新时事热点技术。本课时知识

【Python知识宝库】上下文管理器与with语句:资源管理的优雅方式

🎬 鸽芷咕:个人主页  🔥 个人专栏: 《C++干货基地》《粉丝福利》 ⛺️生活的理想,就是为了理想的生活! 文章目录 前言一、什么是上下文管理器?二、上下文管理器的实现三、使用内置上下文管理器四、使用`contextlib`模块五、总结 前言 在Python编程中,资源管理是一个重要的主题,尤其是在处理文件、网络连接和数据库

dr 航迹推算 知识介绍

DR(Dead Reckoning)航迹推算是一种在航海、航空、车辆导航等领域中广泛使用的技术,用于估算物体的位置。DR航迹推算主要通过已知的初始位置和运动参数(如速度、方向)来预测物体的当前位置。以下是 DR 航迹推算的详细知识介绍: 1. 基本概念 Dead Reckoning(DR): 定义:通过利用已知的当前位置、速度、方向和时间间隔,计算物体在下一时刻的位置。应用:用于导航和定位,

【H2O2|全栈】Markdown | Md 笔记到底如何使用?【前端 · HTML前置知识】

Markdown的一些杂谈 目录 Markdown的一些杂谈 前言 准备工作 认识.Md文件 为什么使用Md? 怎么使用Md? ​编辑 怎么看别人给我的Md文件? Md文件命令 切换模式 粗体、倾斜、下划线、删除线和荧光标记 分级标题 水平线 引用 无序和有序列表 ​编辑 任务清单 插入链接和图片 内嵌代码和代码块 表格 公式 其他 源代码 预

图神经网络(2)预备知识

1. 图的基本概念         对于接触过数据结构和算法的读者来说,图并不是一个陌生的概念。一个图由一些顶点也称为节点和连接这些顶点的边组成。给定一个图G=(V,E),  其 中V={V1,V2,…,Vn}  是一个具有 n 个顶点的集合。 1.1邻接矩阵         我们用邻接矩阵A∈Rn×n表示顶点之间的连接关系。 如果顶点 vi和vj之间有连接,就表示(vi,vj)  组成了

JAVA初级掌握的J2SE知识(二)和Java核心的API

/** 这篇文章送给所有学习java的同学,请大家检验一下自己,不要自满,你们正在学习java的路上,你们要加油,蜕变是个痛苦的过程,忍受过后,才会蜕变! */ Java的核心API是非常庞大的,这给开发者来说带来了很大的方便,经常人有评论,java让程序员变傻。 但是一些内容我认为是必须掌握的,否则不可以熟练运用java,也不会使用就很难办了。 1、java.lang包下的80%以上的类

JAVA初级掌握的J2SE知识(一)

时常看到一些人说掌握了Java,但是让他们用Java做一个实际的项目可能又困难重重,在这里,笔者根据自己的一点理解斗胆提出自己的一些对掌握Java这个说法的标准,当然对于新手,也可以提供一个需要学习哪些内容的参考。另外这个标准仅限于J2SE部分,J2EE部分的内容有时间再另说。 1、语法:必须比较熟悉,在写代码的时候IDE的编辑器对某一行报错应该能够根据报错信息知道是什么样的语法错误并且知道

Java预备知识 - day2

1.IDEA的简单使用与介绍 1.1 IDEA的项目工程介绍 Day2_0904:项目名称 E:\0_code\Day2_0904:表示当前项目所在路径 .idea:idea软件自动生成的文件夹,最好不要动 src:src==sourse→源,我们的源代码就放在这个文件夹之内 Day2_0904.iml:也是自动生成的文件,不要动 External Libraries:外部库 我这