读论文 机翻 Knowledge Graph Identification(知识图谱识别)

2023-10-10 21:59

本文主要是介绍读论文 机翻 Knowledge Graph Identification(知识图谱识别),希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

读论文 Knowledge Graph Identification(知识图谱识别)

在这里插入图片描述

摘要

大规模信息处理系统能够提取大量相关的事实,将这些候选事实转化为知识是挑战。在本文中,我们展示了关于实体及其关系(的不确定的抽取)如何转化为知识图。我们用这些提取形成了一个提取图,我们把去除噪声、推断缺失信息和确定哪些候选事实(应该包含在知识图中的任务)称为知识图识别。为了完成这项任务,我们必须 共同推理候选事实及其关联的提取置信度,识别共同参照实体,并合并本体约束(类似于类的属性)。我们提出的方法使用了概率软逻辑(PSL),这是一种最近引入的概率建模框架,可以轻松地扩展到数百万个事实。我们在一个合成的链接数据语料库(来自MusicBrainz音乐社区)和一组来自NELL项目的真实世界的提取集(包含超过1M的提取和70K的本体关系)上展示了我们的方法的力量。我们表明,与现有的方法相比,我们的方法能够以较低的运行时间实现改进的AUC和F1。

1.简介

网络是一个巨大的知识库,但自动大规模提取这些知识已被证明是一个艰巨的挑战。最近的使用工作集中在基于人工的自动知识库,并且存在许多知名的广泛领域和开放信息提取系统,包括无休止的语言学习(NELL)项目[3]、OpenIE[4]和谷歌[5],它们使用各种技术从网络中以事实的形式提取新知识。这些事实是相互关联的,因此,最近这种提取的知识被称为知识图。{介绍几个信息提取系统}

产生知识图的一个关键挑战是以一致的方式合并来自不同来源的噪声信息。信息提取系统在许多源文档(如网页)上运行,并使用一系列策略从文档中生成候选事实,涵盖文本的句法、词汇和结构特征。最终,这些提取系统产生的候选事实包括一组实体、这些实体的属性,以及这些实体之间的关系,我们称之为提取图。然而,由于提取过程中的错误,导致提取图不一致,可能包含重复的实体,并违反了包含、互斥、逆、域和范围等关键的本体*(本体是共享的,规范化的概念模型,是对某一领域知识的结构的系统描述。)*约束。这些噪音掩盖了真正的知识图。

我们的工作是从信息抽取系统生成的抽取图推断出知识图。我们证明,信息抽取系统遇到的错误需要联合推理的候选事实,以构建一致的知识图。我们的方法执行实体解析(定义判断两条记录是否指向同一实体的过程。)、集体分类(1.旨在对网络数据中相互连接的实体进行集体分类,如电影网络中的流派识别、社交圈学习等。2.把标签传递给所有节点的想法,也就是集体分类)和链接预测(链接预测就是预测网络中的两个节点是否有可能存在链接,例如好友推荐、电影推荐、知识图谱补全。),同时对知识图实施全局约束,这个过程我们称之为知识图识别。{知识图识别}

为了实现知识图识别,我们使用了概率软逻辑(PSL)[7],这是一个最近引入的框架,用于在连续值随机变量上进行概率推理。PSL提供了许多优势:使用具有一阶逻辑语法的声明性规则很容易定义模型连续值变量提供了不确定性的方便表示,加权规则和加权学习捕捉了模型规则的重要性,并支持基于集合的聚合和硬约束等高级特性。此外,PSL中的推断是一种高度可扩展的凸优化,允许我们在几分钟内处理数百万个事实。{介绍psl以及优势}

我们开发了一个用于**知识图识别的PSL模型,该模型既捕获事实之间的概率相关性,又在实体和关系之间强制全局约束。**通过这个模型,我们定义了解释的概率分布——或对事实的真值赋值——每个解释对应一个可能的知识图。通过使用抽取图和本体进行推理,我们能够找到最可能的知识图。我们在两个大型数据集上验证了我们的方法的好处。

我们在这项工作中的*贡献是:1)制定了支持在存在本体论约束的情况下(本体类似于类,约束类似于类的属性)对多个不确定提取源进行推理的知识图识别问题;2)利用PSL实现凸优化的知识图识别;3)展示了知识图识别的能力,*展示了在基准数据集上的结果,这些结果优于最先进的方法,并生成了在竞争系统中无法计算的分钟量级的大量知识图。

2.相关工作

Cohen等人[8]研究了从一组嘈杂事实中联合识别最佳潜在知识库的问题,但他们只考虑了知识库错误的一小部分。最近,Jiang等人[9]在更广泛的范围内进行了知识库细化*使用本体来关联候选提取,并利用马尔可夫逻辑网络(mln)[10]*探索许多不同的建模选择。Jiang等人将在知识库中发现的本体论约束和候选事实清晰地汇编为一阶逻辑中的规则,为我们在建模中采用的知识库提供了一个有吸引力的抽象。然而,选择mln作为建模框架有一定的局限性。在mln中,所有逻辑谓词都必须采用布尔真值,这使得合并置信度值变得困难。此外,布尔赋值给随机变量的组合爆炸,使推理和学习难以解决的优化问题。江等人,用一些近似的方法克服这些障碍,并证明联合推理与独立考虑每个事实的基线相比的效用。通过使用PSL,我们可以避免这些具象和可伸缩性的限制,我们在Jiang等人的模型上建立和改进了模型,在我们的模型中包括多个提取器,并对共同参照实体进行推理。

其他研究使用了相关技术来解决与知识图识别相关的问题。Namata等人[11]引入了图识别问题,通过实体解析、集体分类和链接预测从噪声观测中发现真实的图。然而,Namata的方法是迭代地考虑这些任务,不能轻易地支持像在本体中发现的那些逻辑约束。Memory等人也使用PSL来解决混淆证据。他们的模型执行跨多个本体的图摘要,并且只使用推断来推断缺失的链接。Yao等人的工作[13]在提取器层面采用联合推理,利用条件随机场学习关系的选择偏好。

3.动机:知识图谱识别

在这项工作中,我们将来自信息抽取系统的候选事实表示为一个知识图d,其中实体是节点,类别是与每个节点相关的标签,关系是节点之间的有向边。

信息提取系统可以提取这些候选事实,这些提取可以用来构建一个提取图。不幸的是,提取图通常是不正确的,包括虚假和缺失节点和边,以及缺失或不准确的节点标签。我们提出的知识图识别(KGI)方法结合了基于本体信息的规则的实体解析、集体分类和链接预测等任务。我们从信息提取系统(NELL)中选取

这篇关于读论文 机翻 Knowledge Graph Identification(知识图谱识别)的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/183364

相关文章

Java架构师知识体认识

源码分析 常用设计模式 Proxy代理模式Factory工厂模式Singleton单例模式Delegate委派模式Strategy策略模式Prototype原型模式Template模板模式 Spring5 beans 接口实例化代理Bean操作 Context Ioc容器设计原理及高级特性Aop设计原理Factorybean与Beanfactory Transaction 声明式事物

sqlite3 相关知识

WAL 模式 VS 回滚模式 特性WAL 模式回滚模式(Rollback Journal)定义使用写前日志来记录变更。使用回滚日志来记录事务的所有修改。特点更高的并发性和性能;支持多读者和单写者。支持安全的事务回滚,但并发性较低。性能写入性能更好,尤其是读多写少的场景。写操作会造成较大的性能开销,尤其是在事务开始时。写入流程数据首先写入 WAL 文件,然后才从 WAL 刷新到主数据库。数据在开始

阿里开源语音识别SenseVoiceWindows环境部署

SenseVoice介绍 SenseVoice 专注于高精度多语言语音识别、情感辨识和音频事件检测多语言识别: 采用超过 40 万小时数据训练,支持超过 50 种语言,识别效果上优于 Whisper 模型。富文本识别:具备优秀的情感识别,能够在测试数据上达到和超过目前最佳情感识别模型的效果。支持声音事件检测能力,支持音乐、掌声、笑声、哭声、咳嗽、喷嚏等多种常见人机交互事件进行检测。高效推

AI hospital 论文Idea

一、Benchmarking Large Language Models on Communicative Medical Coaching: A Dataset and a Novel System论文地址含代码 大多数现有模型和工具主要迎合以患者为中心的服务。这项工作深入探讨了LLMs在提高医疗专业人员的沟通能力。目标是构建一个模拟实践环境,人类医生(即医学学习者)可以在其中与患者代理进行医学

系统架构师考试学习笔记第三篇——架构设计高级知识(20)通信系统架构设计理论与实践

本章知识考点:         第20课时主要学习通信系统架构设计的理论和工作中的实践。根据新版考试大纲,本课时知识点会涉及案例分析题(25分),而在历年考试中,案例题对该部分内容的考查并不多,虽在综合知识选择题目中经常考查,但分值也不高。本课时内容侧重于对知识点的记忆和理解,按照以往的出题规律,通信系统架构设计基础知识点多来源于教材内的基础网络设备、网络架构和教材外最新时事热点技术。本课时知识

论文翻译:arxiv-2024 Benchmark Data Contamination of Large Language Models: A Survey

Benchmark Data Contamination of Large Language Models: A Survey https://arxiv.org/abs/2406.04244 大规模语言模型的基准数据污染:一项综述 文章目录 大规模语言模型的基准数据污染:一项综述摘要1 引言 摘要 大规模语言模型(LLMs),如GPT-4、Claude-3和Gemini的快

论文阅读笔记: Segment Anything

文章目录 Segment Anything摘要引言任务模型数据引擎数据集负责任的人工智能 Segment Anything Model图像编码器提示编码器mask解码器解决歧义损失和训练 Segment Anything 论文地址: https://arxiv.org/abs/2304.02643 代码地址:https://github.com/facebookresear

论文翻译:ICLR-2024 PROVING TEST SET CONTAMINATION IN BLACK BOX LANGUAGE MODELS

PROVING TEST SET CONTAMINATION IN BLACK BOX LANGUAGE MODELS https://openreview.net/forum?id=KS8mIvetg2 验证测试集污染在黑盒语言模型中 文章目录 验证测试集污染在黑盒语言模型中摘要1 引言 摘要 大型语言模型是在大量互联网数据上训练的,这引发了人们的担忧和猜测,即它们可能已

OmniGlue论文详解(特征匹配)

OmniGlue论文详解(特征匹配) 摘要1. 引言2. 相关工作2.1. 广义局部特征匹配2.2. 稀疏可学习匹配2.3. 半稠密可学习匹配2.4. 与其他图像表示匹配 3. OmniGlue3.1. 模型概述3.2. OmniGlue 细节3.2.1. 特征提取3.2.2. 利用DINOv2构建图形。3.2.3. 信息传播与新的指导3.2.4. 匹配层和损失函数3.2.5. 与Super

BERT 论文逐段精读【论文精读】

BERT: 近 3 年 NLP 最火 CV: 大数据集上的训练好的 NN 模型,提升 CV 任务的性能 —— ImageNet 的 CNN 模型 NLP: BERT 简化了 NLP 任务的训练,提升了 NLP 任务的性能 BERT 如何站在巨人的肩膀上的?使用了哪些 NLP 已有的技术和思想?哪些是 BERT 的创新? 1标题 + 作者 BERT: Pre-trainin