知识抽取方法

本文主要是介绍知识抽取方法，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

http://pelhans.com/2018/03/16/xiaoxiangkg-note2/

本节介绍了针对结构化数据、非结构化数据、半结构化数据的知识抽取方法。

知识抽取的概念
- 知识抽取的子任务
面向非结构化数据的知识抽取
- 实体抽取
- 实体识别与链接
- 关系抽取
  - 基于模板的方法
    - 基于触发词的Pattern
    - 基于依存分析的Pattern
  - 监督学习
    - Pipeline训练
    - 联合模型
  - 半监督学习方法
    - 远程监督
- 事件抽取
  - 事件抽取的pipeline方法
  - 联合训练
  - 基于深度学习的事件抽取方法
面向结构化数据的知识抽取
面向半结构化数据的知识抽取
- 百科类知识抽取
- Web网页数据抽取：包装器生成
  - 包装器归纳
  - 自动抽取
Ref

知识抽取的概念

知识抽取，即从不同来源、不同结构的数据中进行知识提取，形成知识(结构化数据)存入到知识图谱。大体的任务分类与对应技术如下图所示：

知识抽取的子任务

命名实体识别
- 检测: 北京是忙碌的城市。 [北京]：实体
- 分类：北京是忙碌的城市。 [北京]: 地名
术语抽取
从语料中发现多个单词组成的相关术语。
关系抽取
王思聪是万达集团董事长王健林的独子。→ [王健林] <父子关系> [王思聪]
事件抽取
例如从一篇新闻报道中抽取出事件发生是触发词、时间、地点等信息，如图二所示。
共指消解
弄清楚在一句话中的代词的指代对象。例子如图三所示。

面向非结构化数据的知识抽取

实体抽取

实体抽取抽取文本中的原子信息元素，通常包含任命、组织/机构名、地理位置、时间/日期、字符值等标签，具体的标签定义可根据任务不同而调整。如：

单纯的实体抽取可作为一个序列标注问题，因此可以使用机器学习中的HMM、CRF、神经网络等方法解决。

实体识别与链接

实体识别即识别出句子或文本中的实体，链接就是将该实体与知识库中的对应实体进行链接。其中涉及到了实体的识别与消岐技术。实体识别技术刚刚介绍过，下面把重点放在实体链接部分。

实体链接的流程如下图所示：

文字表述为，首先输入的是非结构化的文本数据，经由命名实体识别或词典匹配技术进行实体的指称识别。由于刚刚识别出来的实体可能是实体的部分表示或另类表示，因此需要结束表层名字扩展、搜索引擎、构建查询实体引用表等技术来对候选实体进行生成。经过该步骤生成的实体可能有多个候选项，因此需要对候选实体进行消岐，此处可使用基于图的方法、基于概率生成模型、基于主题模型或基于深度学习的方法。经过实体消岐后得到的唯一实体候选后就可以与知识库中的实体进行连接了。

举个例子：

关系抽取

关系抽取是从文本中抽取出两个或多个实体之间的语义关系。它是信息抽取研究领域的任务之一。如:

王健林谈儿子王思聪:我期望他稳重一点。
- 父子 (王健林, 王思聪)

根据关系抽取方法的不同，可以将其分为:基于模板的方法(触发词的Pattern, 依存句法分析的Pattern)、基于监督学习的方法(机器学习方法)、弱监督学习的方法(远程监督、Bootstrapping)。

基于模板的方法

基于模板的方法在小规模数据集上容易实现且构建简单，缺点为难以维护、可移植性差、模板有可能需要专家构建。

基于触发词的Pattern

首先定义一套种子模板，如：

其中的触发词为老婆、妻子、配偶等。根据这些触发词找出夫妻关系这种关系，同时通过命名实体识别给出关系的参与方。

基于依存分析的Pattern

以动词为起点，构建规则，对节点上的词性和边上的依存关系进行限定。一般情况下是形容词+名字或动宾短语等情况，因此相当于以动词为中心结构做的Pattern。其执行流程为:

监督学习

在给定实体对的情况下，根据句子上下文对实体关系进行预测，执行流程为：

预先定义好关系的类别。
人工标注一些数据。
设计特征表示。
选择一个分类方法。(SVM、NN、朴素贝叶斯)
评估方法。

其优点为准确率高，标注的数据越多越准确。缺点为标注数据的成本太高，不能扩展新的关系。

Pipeline训练

即识别实体和关系分类是完全分离的两个过程,不会相互影响,关系的识别依赖于实体识别的效果，这样的好处的各模型相互独立，设计上较为容易，但误差会逐层传递，步骤太多有可能导致后续不可用。

联合模型

将实体识别和关系分类一起做，在一个模型中完成。

半监督学习方法

前面的监督学习效果虽好，但有标注数据集的获取困难。因此可以借助半监督学习的方法，此处又分为远程监督学习和Bootstrapping方法两种。

所谓远程监督方法就是知识库与非结构化文本对齐来自动构建大量训练数据,减少模型对人工标注数据的依赖,增强模型跨领域适应能力。Bootstrapping是通过在文本中匹配实体对和表达关系短语模式,寻找和发现新的潜在关系三元组。

远程监督

该方法认为若两个实体如果在知识库中存在某种关系,则包含该两个实体的非结构化句子均能表示出这种关系。如在某知识库中存在“创始人(乔布斯，苹果公司)”。那么就认为出现乔布斯和苹果公司的句子就是表述创始人这项关系。因此可构建训练正例：乔布斯是苹果公司的联合创始人和CEO。

远程监督流程为：

从知识库中抽取存在关系的实体对。
从非结构化文本中抽取含有实体对的句子作为训练样例。

远程监督可以利用丰富的知识库信息，减少一定的人工标注，但它的假设过于肯定，如乔布斯被赶出苹果公司。这句话表达的就不是创始人的例子，因此会引入大量的噪声，存在语义漂移现象。同时由于是在知识库中抽取存在的实体关系对，因此很难发现新的关系。

####　Bootstrapping

这个方法在很多任务中都有提到，其执行流程为：

1.从文档中抽取出包含种子实体的新闻，如：
- 姚明老婆叶莉简历身高曝光
  X 老婆 Y 简历身高曝光
- 姚明与妻子叶莉外出赴约
  X 与妻子 Y 外出赴约
1. 将抽取出的Pattern去文档集中匹配
  - 小猪与妻子伊万外出赴约
1. 根据Pattern抽取出的新文档如种子库,迭代多轮直到不符合条件

该方法的优点为构建成本低，适合大规模的构建，同时还可以发现新的(隐含的)关系。缺点为对初始给定的种子集敏感，存在语义漂移现象，结果的准确率较低等。