读论文 机翻 Knowledge Graph Identification(知识图谱识别)

2023-10-10 21:59

本文主要是介绍读论文 机翻 Knowledge Graph Identification(知识图谱识别),希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

读论文 Knowledge Graph Identification(知识图谱识别)

在这里插入图片描述

摘要

大规模信息处理系统能够提取大量相关的事实,将这些候选事实转化为知识是挑战。在本文中,我们展示了关于实体及其关系(的不确定的抽取)如何转化为知识图。我们用这些提取形成了一个提取图,我们把去除噪声、推断缺失信息和确定哪些候选事实(应该包含在知识图中的任务)称为知识图识别。为了完成这项任务,我们必须 共同推理候选事实及其关联的提取置信度,识别共同参照实体,并合并本体约束(类似于类的属性)。我们提出的方法使用了概率软逻辑(PSL),这是一种最近引入的概率建模框架,可以轻松地扩展到数百万个事实。我们在一个合成的链接数据语料库(来自MusicBrainz音乐社区)和一组来自NELL项目的真实世界的提取集(包含超过1M的提取和70K的本体关系)上展示了我们的方法的力量。我们表明,与现有的方法相比,我们的方法能够以较低的运行时间实现改进的AUC和F1。

1.简介

网络是一个巨大的知识库,但自动大规模提取这些知识已被证明是一个艰巨的挑战。最近的使用工作集中在基于人工的自动知识库,并且存在许多知名的广泛领域和开放信息提取系统,包括无休止的语言学习(NELL)项目[3]、OpenIE[4]和谷歌[5],它们使用各种技术从网络中以事实的形式提取新知识。这些事实是相互关联的,因此,最近这种提取的知识被称为知识图。{介绍几个信息提取系统}

产生知识图的一个关键挑战是以一致的方式合并来自不同来源的噪声信息。信息提取系统在许多源文档(如网页)上运行,并使用一系列策略从文档中生成候选事实,涵盖文本的句法、词汇和结构特征。最终,这些提取系统产生的候选事实包括一组实体、这些实体的属性,以及这些实体之间的关系,我们称之为提取图。然而,由于提取过程中的错误,导致提取图不一致,可能包含重复的实体,并违反了包含、互斥、逆、域和范围等关键的本体*(本体是共享的,规范化的概念模型,是对某一领域知识的结构的系统描述。)*约束。这些噪音掩盖了真正的知识图。

我们的工作是从信息抽取系统生成的抽取图推断出知识图。我们证明,信息抽取系统遇到的错误需要联合推理的候选事实,以构建一致的知识图。我们的方法执行实体解析(定义判断两条记录是否指向同一实体的过程。)、集体分类(1.旨在对网络数据中相互连接的实体进行集体分类,如电影网络中的流派识别、社交圈学习等。2.把标签传递给所有节点的想法,也就是集体分类)和链接预测(链接预测就是预测网络中的两个节点是否有可能存在链接,例如好友推荐、电影推荐、知识图谱补全。),同时对知识图实施全局约束,这个过程我们称之为知识图识别。{知识图识别}

为了实现知识图识别,我们使用了概率软逻辑(PSL)[7],这是一个最近引入的框架,用于在连续值随机变量上进行概率推理。PSL提供了许多优势:使用具有一阶逻辑语法的声明性规则很容易定义模型连续值变量提供了不确定性的方便表示,加权规则和加权学习捕捉了模型规则的重要性,并支持基于集合的聚合和硬约束等高级特性。此外,PSL中的推断是一种高度可扩展的凸优化,允许我们在几分钟内处理数百万个事实。{介绍psl以及优势}

我们开发了一个用于**知识图识别的PSL模型,该模型既捕获事实之间的概率相关性,又在实体和关系之间强制全局约束。**通过这个模型,我们定义了解释的概率分布——或对事实的真值赋值——每个解释对应一个可能的知识图。通过使用抽取图和本体进行推理,我们能够找到最可能的知识图。我们在两个大型数据集上验证了我们的方法的好处。

我们在这项工作中的*贡献是:1)制定了支持在存在本体论约束的情况下(本体类似于类,约束类似于类的属性)对多个不确定提取源进行推理的知识图识别问题;2)利用PSL实现凸优化的知识图识别;3)展示了知识图识别的能力,*展示了在基准数据集上的结果,这些结果优于最先进的方法,并生成了在竞争系统中无法计算的分钟量级的大量知识图。

2.相关工作

Cohen等人[8]研究了从一组嘈杂事实中联合识别最佳潜在知识库的问题,但他们只考虑了知识库错误的一小部分。最近,Jiang等人[9]在更广泛的范围内进行了知识库细化*使用本体来关联候选提取,并利用马尔可夫逻辑网络(mln)[10]*探索许多不同的建模选择。Jiang等人将在知识库中发现的本体论约束和候选事实清晰地汇编为一阶逻辑中的规则,为我们在建模中采用的知识库提供了一个有吸引力的抽象。然而,选择mln作为建模框架有一定的局限性。在mln中,所有逻辑谓词都必须采用布尔真值,这使得合并置信度值变得困难。此外,布尔赋值给随机变量的组合爆炸,使推理和学习难以解决的优化问题。江等人,用一些近似的方法克服这些障碍,并证明联合推理与独立考虑每个事实的基线相比的效用。通过使用PSL,我们可以避免这些具象和可伸缩性的限制,我们在Jiang等人的模型上建立和改进了模型,在我们的模型中包括多个提取器,并对共同参照实体进行推理。

其他研究使用了相关技术来解决与知识图识别相关的问题。Namata等人[11]引入了图识别问题,通过实体解析、集体分类和链接预测从噪声观测中发现真实的图。然而,Namata的方法是迭代地考虑这些任务,不能轻易地支持像在本体中发现的那些逻辑约束。Memory等人也使用PSL来解决混淆证据。他们的模型执行跨多个本体的图摘要,并且只使用推断来推断缺失的链接。Yao等人的工作[13]在提取器层面采用联合推理,利用条件随机场学习关系的选择偏好。

3.动机:知识图谱识别

在这项工作中,我们将来自信息抽取系统的候选事实表示为一个知识图d,其中实体是节点,类别是与每个节点相关的标签,关系是节点之间的有向边。

信息提取系统可以提取这些候选事实,这些提取可以用来构建一个提取图。不幸的是,提取图通常是不正确的,包括虚假和缺失节点和边,以及缺失或不准确的节点标签。我们提出的知识图识别(KGI)方法结合了基于本体信息的规则的实体解析、集体分类和链接预测等任务。我们从信息提取系统(NELL)中选取

这篇关于读论文 机翻 Knowledge Graph Identification(知识图谱识别)的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/183364

相关文章

使用PyTorch实现手写数字识别功能

《使用PyTorch实现手写数字识别功能》在人工智能的世界里,计算机视觉是最具魅力的领域之一,通过PyTorch这一强大的深度学习框架,我们将在经典的MNIST数据集上,见证一个神经网络从零开始学会识... 目录当计算机学会“看”数字搭建开发环境MNIST数据集解析1. 认识手写数字数据库2. 数据预处理的

Pytorch微调BERT实现命名实体识别

《Pytorch微调BERT实现命名实体识别》命名实体识别(NER)是自然语言处理(NLP)中的一项关键任务,它涉及识别和分类文本中的关键实体,BERT是一种强大的语言表示模型,在各种NLP任务中显著... 目录环境准备加载预训练BERT模型准备数据集标记与对齐微调 BERT最后总结环境准备在继续之前,确

讯飞webapi语音识别接口调用示例代码(python)

《讯飞webapi语音识别接口调用示例代码(python)》:本文主要介绍如何使用Python3调用讯飞WebAPI语音识别接口,重点解决了在处理语音识别结果时判断是否为最后一帧的问题,通过运行代... 目录前言一、环境二、引入库三、代码实例四、运行结果五、总结前言基于python3 讯飞webAPI语音

国内环境搭建私有知识问答库踩坑记录(ollama+deepseek+ragflow)

《国内环境搭建私有知识问答库踩坑记录(ollama+deepseek+ragflow)》本文给大家利用deepseek模型搭建私有知识问答库的详细步骤和遇到的问题及解决办法,感兴趣的朋友一起看看吧... 目录1. 第1步大家在安装完ollama后,需要到系统环境变量中添加两个变量2. 第3步 “在cmd中

使用Python开发一个图像标注与OCR识别工具

《使用Python开发一个图像标注与OCR识别工具》:本文主要介绍一个使用Python开发的工具,允许用户在图像上进行矩形标注,使用OCR对标注区域进行文本识别,并将结果保存为Excel文件,感兴... 目录项目简介1. 图像加载与显示2. 矩形标注3. OCR识别4. 标注的保存与加载5. 裁剪与重置图像

Python爬虫selenium验证之中文识别点选+图片验证码案例(最新推荐)

《Python爬虫selenium验证之中文识别点选+图片验证码案例(最新推荐)》本文介绍了如何使用Python和Selenium结合ddddocr库实现图片验证码的识别和点击功能,感兴趣的朋友一起看... 目录1.获取图片2.目标识别3.背景坐标识别3.1 ddddocr3.2 打码平台4.坐标点击5.图

如何通过海康威视设备网络SDK进行Java二次开发摄像头车牌识别详解

《如何通过海康威视设备网络SDK进行Java二次开发摄像头车牌识别详解》:本文主要介绍如何通过海康威视设备网络SDK进行Java二次开发摄像头车牌识别的相关资料,描述了如何使用海康威视设备网络SD... 目录前言开发流程问题和解决方案dll库加载不到的问题老旧版本sdk不兼容的问题关键实现流程总结前言作为

Java架构师知识体认识

源码分析 常用设计模式 Proxy代理模式Factory工厂模式Singleton单例模式Delegate委派模式Strategy策略模式Prototype原型模式Template模板模式 Spring5 beans 接口实例化代理Bean操作 Context Ioc容器设计原理及高级特性Aop设计原理Factorybean与Beanfactory Transaction 声明式事物

sqlite3 相关知识

WAL 模式 VS 回滚模式 特性WAL 模式回滚模式(Rollback Journal)定义使用写前日志来记录变更。使用回滚日志来记录事务的所有修改。特点更高的并发性和性能;支持多读者和单写者。支持安全的事务回滚,但并发性较低。性能写入性能更好,尤其是读多写少的场景。写操作会造成较大的性能开销,尤其是在事务开始时。写入流程数据首先写入 WAL 文件,然后才从 WAL 刷新到主数据库。数据在开始

阿里开源语音识别SenseVoiceWindows环境部署

SenseVoice介绍 SenseVoice 专注于高精度多语言语音识别、情感辨识和音频事件检测多语言识别: 采用超过 40 万小时数据训练,支持超过 50 种语言,识别效果上优于 Whisper 模型。富文本识别:具备优秀的情感识别,能够在测试数据上达到和超过目前最佳情感识别模型的效果。支持声音事件检测能力,支持音乐、掌声、笑声、哭声、咳嗽、喷嚏等多种常见人机交互事件进行检测。高效推