读论文机翻 Knowledge Graph Identification(知识图谱识别)

本文主要是介绍读论文机翻 Knowledge Graph Identification(知识图谱识别)，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

读论文 Knowledge Graph Identification(知识图谱识别)

在这里插入图片描述

摘要

大规模信息处理系统能够提取大量相关的事实，将这些候选事实转化为知识是挑战。在本文中，我们展示了关于实体及其关系（的不确定的抽取）如何转化为知识图。我们用这些提取形成了一个提取图，我们把去除噪声、推断缺失信息和确定哪些候选事实（应该包含在知识图中的任务）称为知识图识别。为了完成这项任务，我们必须共同推理候选事实及其关联的提取置信度，识别共同参照实体，并合并本体约束(类似于类的属性)。我们提出的方法使用了概率软逻辑(PSL)，这是一种最近引入的概率建模框架，可以轻松地扩展到数百万个事实。我们在一个合成的链接数据语料库(来自MusicBrainz音乐社区)和一组来自NELL项目的真实世界的提取集(包含超过1M的提取和70K的本体关系)上展示了我们的方法的力量。我们表明，与现有的方法相比，我们的方法能够以较低的运行时间实现改进的AUC和F1。

1.简介

网络是一个巨大的知识库，但自动大规模提取这些知识已被证明是一个艰巨的挑战。最近的使用工作集中在基于人工的自动知识库，并且存在许多知名的广泛领域和开放信息提取系统，包括无休止的语言学习(NELL)项目[3]、OpenIE[4]和谷歌[5]，它们使用各种技术从网络中以事实的形式提取新知识。这些事实是相互关联的，因此，最近这种提取的知识被称为知识图。｛介绍几个信息提取系统｝

产生知识图的一个关键挑战是以一致的方式合并来自不同来源的噪声信息。信息提取系统在许多源文档(如网页)上运行，并使用一系列策略从文档中生成候选事实，涵盖文本的句法、词汇和结构特征。最终，这些提取系统产生的候选事实包括一组实体、这些实体的属性，以及这些实体之间的关系，我们称之为提取图。然而，由于提取过程中的错误，导致提取图不一致，可能包含重复的实体，并违反了包含、互斥、逆、域和范围等关键的本体*（本体是共享的，规范化的概念模型，是对某一领域知识的结构的系统描述。）*约束。这些噪音掩盖了真正的知识图。

我们的工作是从信息抽取系统生成的抽取图推断出知识图。我们证明，信息抽取系统遇到的错误需要联合推理的候选事实，以构建一致的知识图。我们的方法执行实体解析（定义判断两条记录是否指向同一实体的过程。）、集体分类（1.旨在对网络数据中相互连接的实体进行集体分类，如电影网络中的流派识别、社交圈学习等。2.把标签传递给所有节点的想法，也就是集体分类）和链接预测（链接预测就是预测网络中的两个节点是否有可能存在链接，例如好友推荐、电影推荐、知识图谱补全。），同时对知识图实施全局约束，这个过程我们称之为知识图识别。｛知识图识别｝

为了实现知识图识别，我们使用了概率软逻辑(PSL)[7]，这是一个最近引入的框架，用于在连续值随机变量上进行概率推理。PSL提供了许多优势:使用具有一阶逻辑语法的声明性规则很容易定义模型，连续值变量提供了不确定性的方便表示，加权规则和加权学习捕捉了模型规则的重要性，并支持基于集合的聚合和硬约束等高级特性。此外，PSL中的推断是一种高度可扩展的凸优化，允许我们在几分钟内处理数百万个事实。｛介绍psl以及优势｝

我们开发了一个用于**知识图识别的PSL模型，该模型既捕获事实之间的概率相关性，又在实体和关系之间强制全局约束。**通过这个模型，我们定义了解释的概率分布——或对事实的真值赋值——每个解释对应一个可能的知识图。通过使用抽取图和本体进行推理，我们能够找到最可能的知识图。我们在两个大型数据集上验证了我们的方法的好处。

我们在这项工作中的*贡献是:1)制定了支持在存在本体论约束的情况下（本体类似于类，约束类似于类的属性）对多个不确定提取源进行推理的知识图识别问题;2)利用PSL实现凸优化的知识图识别;3)展示了知识图识别的能力，*展示了在基准数据集上的结果，这些结果优于最先进的方法，并生成了在竞争系统中无法计算的分钟量级的大量知识图。

2.相关工作

Cohen等人[8]研究了从一组嘈杂事实中联合识别最佳潜在知识库的问题，但他们只考虑了知识库错误的一小部分。最近，Jiang等人[9]在更广泛的范围内进行了知识库细化*使用本体来关联候选提取，并利用马尔可夫逻辑网络(mln)[10]*探索许多不同的建模选择。Jiang等人将在知识库中发现的本体论约束和候选事实清晰地汇编为一阶逻辑中的规则，为我们在建模中采用的知识库提供了一个有吸引力的抽象。然而，选择mln作为建模框架有一定的局限性。在mln中，所有逻辑谓词都必须采用布尔真值，这使得合并置信度值变得困难。此外，布尔赋值给随机变量的组合爆炸，使推理和学习难以解决的优化问题。江等人，用一些近似的方法克服这些障碍，并证明联合推理与独立考虑每个事实的基线相比的效用。通过使用PSL，我们可以避免这些具象和可伸缩性的限制，我们在Jiang等人的模型上建立和改进了模型，在我们的模型中包括多个提取器，并对共同参照实体进行推理。

其他研究使用了相关技术来解决与知识图识别相关的问题。Namata等人[11]引入了图识别问题，通过实体解析、集体分类和链接预测从噪声观测中发现真实的图。然而，Namata的方法是迭代地考虑这些任务，不能轻易地支持像在本体中发现的那些逻辑约束。Memory等人也使用PSL来解决混淆证据。他们的模型执行跨多个本体的图摘要，并且只使用推断来推断缺失的链接。Yao等人的工作[13]在提取器层面采用联合推理，利用条件随机场学习关系的选择偏好。