Paper小计:AUTOREGRESSIVE ENTITY RETRIEVAL

2023-10-20 21:50

本文主要是介绍Paper小计:AUTOREGRESSIVE ENTITY RETRIEVAL,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

1.A BSTRACT :
实体是我们如何表示和聚合知识的中心。(entity很重要。)
检索给定查询的这些实体的能力是知识密集型任务的基础,如实体链接和开放领域的问题回答。(检索给定查询的实体的能力很重要,以及其实际运用。)
该方法导致三个缺点:
1.上下文和实体亲和性主要通过 向量点积捕获,可能 缺少两者之间的 细粒度交互
2.在考虑 大型实体集时,需 要较大的内存占用来存储密集的表示。
3.在训练时必须对适当的 硬负数据集进行 下采样
propose:GENRE:通过生成实体的唯一名称,从左到右,以自回归的方式逐个标记,并以上下文为条件。
减轻上述缺点:
1.自回归公式允许我们 直接捕获上下文和实体名称之间的关系,有效地 交叉编码两者。
2. 内存占用大大 减少,因为我们的编解码器架构的 参数与词汇大小,而不是 实体数量
3. 确切的soft最大损失可以有效地计算,而不需要对负数据进行子采样。
验证展示:实验了 20多个实体消歧数据集端到端实体链接文档检索任务,在使用竞争系统的 少量内存占用的同时,实现了新的最先进的或非常有竞争力的结果。最后,我们演示了可以通过 简单地指定它们的明确名称来添加新的实体。
I NTRODUCTION:
从给定文本输入的大型知识库(kb)中 检索正确实体的能力是多个应用程序的基本构建块。
目前大多数解决方案都有一个共同的设计选择: 实体与独特的原子标签相关联,检索问题可以解释为跨这些标签的 多类分类。输入和标签之间的匹配是通过 双编码器计算的:输入的密集向量编码与实体的元信息之间的点积。(对实体检测目前已有工作的总结和分析。)
将实体标识符作为分类器中的原子标签进行处理,忽略了这样一个事实,即我们通常具有明确的、高度结构化的和组合的实体名称。例如,维基百科将独特的标题与文章联系起来,1可能是主题的名称或主题的描述,以及潜在的独特信息来消除歧义2(一些例子见图1)。这些实体名称通常以一种可预测的和有规律的方式与被提及的上下文进行交互。例如,实体名称通常与引用它们的提及字符串完全相同(例如,图1f)。当这是不可能的时,它们可能由上下文中的标记组成(例如,图1b),包括可以推断的类型规范(例如,图1a),是字符串提及的翻译(例如,图1c),需要“规范化”,例如引用提及的正确别名(例如,图1d),或者需要可能存储在模型参数中的事实知识(例如,图1e)。这些观察结果表明,输入可以被逐字转换为唯一的实体名称,而不是被归入一系列大型选项之中。
实体检索的分类器方法的缺点:除非使用昂贵的交叉编码器进行重新排序,否则点产品可能会错过输入和实体元信息之间的 细粒度交互;其次,为整个KB存储密集的向量需要 很大的内存占用
对所有实体计算精确的softmax非常昂贵,因此当前的解决方案需要 对负数据进行子样本采样;现有系统可能会遇到 冷启动问题,因为它们不能表示尚未收集到足够信息的实体。
Generative ENtity REtrieval:
利用 序列到序列的体系结构,以 上下文为条件自回归方式生成实体名称的 实体检索器。具体地说,类型使用了基于transformer的架构,使用 语言建模目标进行 预训练,并进行微调以生成实体名称。除了其它的信息,在某种程度上该架构被证明保留了 事实知识语言翻译技巧。生成的输出可能并不总是一个有效的实体名,为了解决这个问题,类型采用了一种 约束解码策略,迫使每个生成的名称都在一个 预定义的候选集中
自回归公式允许我们 直接捕获上述上下文和实体名称之间的关系,有效地 交叉编码两者。此外,所需的 内存占用比当前系统 一个数量级,因为 序列到序列模型参数与词汇表大小成线性比例,而 不是实体计数。此外,可以对每个输出标记有效地计算出精确的softmax(即,所有非黄金标记都被认为是负的),从而 消除了对 负数据降采样的需要。最后,我们的模型 从不访问除其标题之外的任何关于实体的显式元信息,因此可以通过 简单地将其明确的名称添加到候选集来添加新的实体。
2.E NTITY R ETRIEVAL
我们假设有一个实体E的集合(例如,维基百科的文章),其中每个实体都是一个知识库(KB)中的一个条目,比如维基百科。我们希望处理以下检索问题:给定一个文本输入源x(例如,问题),一个模型必须从E中返回关于x的最相关的实体。我们假设每个 e ∈ E i都被唯一地分配给一个文本表示(即它的名称):一个标记y序列(例如,维基百科页面由它们的标题标识)。           
这个问题的一个特殊实例是实体消歧(ED)(参见图1的示例),其中输入x被注释,系统必须从E中选择相应的实体,或者预测知识库中没有相应的条目。另一个实例是页标文档检索(DR),其中输入x作为查询,E作为由其唯一标题(如维基百科文章)标识的文档的集合。
3.M ETHOD:
自回归公式:score( e | x ) = p θ ( y | x ) = 连乘符号i从1取到N p θ ( y i | y <i , x)         
其中,y为e的标识符中N个标记的集合,θ为模型的参数。
利用BART微调、标准seq2seq、teacher forcing最大化输出序列可能性、dropout、标签平滑。

 

图2:使用“1503年,达芬奇开始画蒙娜丽莎”的动态约束标记解码的例子。作为输入。有3种情况:当我们在提到/实体(a)之外,在提到生成步骤(b)内,以及在实体链接生成步骤(c).内部该模型应该输出输入源,注释并指向各自的实体:“1503年,达芬奇)开始画《蒙娜丽莎》(蒙娜丽莎)。
3.1 I NFERENCE WITH C ONSTRAINED B EAM S EARCH
使用BS(使用带有k个光束的BS从我们的模型中搜索E解码中的前k个实体。使用BS意味着我们的检索器的时间成本并不依赖于E的大小,而是只依赖于光束的大小和实体表示的平均长度,就像我们做自回归生成一样。)
受约束的BS (BS在解码过程中只考虑提前一步,所以我们只能限制基于前一个条件的下一个令牌的生成。)
我们使用的约束掩盖了无效标记的对数概率,而不是它们的对数概率。(也就是说,我们不在词汇表上重新规范化该概率。)
3.2 A UTOREGRESSIVE E ND - TO -E ND E NTITY L INKING:
扩展了自回归框架来解决端到端实体链接(EL) (我们训练模型再次预测源输入,但使用带注释的跨度。我们使用标记注释,其中跨边界用特殊标记标记,并伴随着它们相应的实体标识符。)
与输出空间相对较小的设置不同(例如,一个预定义的集合E),带注释的输出的空间呈指数级大。因此,很难预先计算解码,我们动态计算它。(在每个生成步骤中,解码器要么生成提及跨度,生成到提及的链接,要么从输入源继续。当在提到/实体步骤之外时,解码器只有两个选项:(i)继续从输入源复制下一个令牌,或者(ii)生成提及令牌的开始(即“[”),这使得解码器进入提及生成阶段。生成提及时,解码器必须继续使用输入源中的下一个令牌,或者生成提及令牌的结束(即“]”),这使解码器进入实体生成阶段。最后,当生成一个实体时,解码器使用实体测试,这样它只能输出一个有效的实体标识符,如上述约束光束搜索中所述。)
4 EXPERIMENTS:
我们对跨3个任务的20多个数据集进行了广泛的类型评估:实体消除歧义、端到端实体链接(EL)和页面级文档检索。       
4.1 S ETTINGS
Entity Disambiguation (ED)
使用相同的候选集、域内和域外数据集重现了Le&Titov的设置,使用InKBmicro-f1进行评估;训练类型输入每个文档,其中一个提到被标记为两个特殊的开始和结束标记,而目标输出是相应实体的文本表示;测试时,约束bs解码,用提供的候选集解码;GENRE在BLINK上预训练;对于域内场景,使用AIDA-CoNLL数据集进行微调;域外场景,对五个测试集进行评估: MSNBC, AQUAINT,ACE2004, WNED-CWEB (CWEB) and WNED-WIKI (WIKI) (Gabrilovich et al., 2013; Guo & Barbosa, 2018).         
End-to-End Entity Linking (EL)
使用相同的域内和域外数据集重现了Kolitsas等人的设置,并在 the GERBIL benchmark platform上评估了InKBmicro-f1;在维基百科4的所有抽象部分上通过字符串匹配启发式来解决共引用;域内场景,我们使用AIDACoNLL数据集进行微调。我们评估7个域外测试集: MSNBC, Derczynski (Der) (Derczynski et al., 2015), KORE 50 (K50) (Hoffart et al., 2012), N3-Reuters-128 (R128), N3-RSS-500 (R500) (R oder et al., 2014), and OKE challenge 2015 and 2016 (OKE15 and OKE16) (Nuzzolese et al., 2015).
Page-level Document Retrieval (DR)
在所有的KILT基准测试任务上测试类型;使用整个维基百科作为候选集,我们使用r-精度进行评估;KILT包括五个使用相同的维基百科转储作为知识来源的任务:略; We train GENRE on
BLINK and all KILT data simultaneously with a single model. 5
4.2 RESULTS       
5 R ELATED WORKS        
6 CONCLUSIONS:在这项工作中,我们提出了GENRE,一个新的范式来解决实体检索:生成实体名称自动回归。实体名有几个属性,可以帮助(甚至是人类)检索它们,包括一个组合结构和与上下文的可预测的交互。自回归公式允许我们直接捕获这些属性,导致几个优势对当前的解决方案,包括一个有效的方式交叉编码提到上下文和实体候选人,一个小得多的内存占用,能够计算一个精确的softmax不需要子样本负数据。我们的经验表明,这些特征,结合约束解码策略,导致最先进的性能过多的实体检索数据集,跨越实体消除歧义,端到端实体链接,和页面级文档检索,同时导致系统显著包含内存占用,一个平均空间减少了20倍。此外,我们还证明了通过简单地向候选集添加它们明确的名称,可以在我们的系统中有效地考虑新的实体。

这篇关于Paper小计:AUTOREGRESSIVE ENTITY RETRIEVAL的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/249934

相关文章

Retrieval-based-Voice-Conversion-WebUI模型构建指南

一、模型介绍 Retrieval-based-Voice-Conversion-WebUI(简称 RVC)模型是一个基于 VITS(Variational Inference with adversarial learning for end-to-end Text-to-Speech)的简单易用的语音转换框架。 具有以下特点 简单易用:RVC 模型通过简单易用的网页界面,使得用户无需深入了

DBeaver 连接 MySQL 报错 Public Key Retrieval is not allowed

DBeaver 连接 MySQL 报错 Public Key Retrieval is not allowed 文章目录 DBeaver 连接 MySQL 报错 Public Key Retrieval is not allowed问题解决办法 问题 使用 DBeaver 连接 MySQL 数据库的时候, 一直报错下面的错误 Public Key Retrieval is

[论文笔记]Making Large Language Models A Better Foundation For Dense Retrieval

引言 今天带来北京智源研究院(BAAI)团队带来的一篇关于如何微调LLM变成密集检索器的论文笔记——Making Large Language Models A Better Foundation For Dense Retrieval。 为了简单,下文中以翻译的口吻记录,比如替换"作者"为"我们"。 密集检索需要学习具有区分性的文本嵌入,以表示查询和文档之间的语义关系。考虑到大语言模

【TJU】2944 Mussy Paper 最大权闭合子图

传送门:【TJU】2944 Mussy Paper 题目分析:最大权闭合子图模板题。。没啥好说的。。。 PS:置换群的轨道长度的证明迟迟没看懂。。TUT。。十分不开心就来写水题了 代码如下: #include <cstdio>#include <cstring>#include <algorithm>using namespace std ;#define R

RAG Paper List - 检索增强生成论文汇总(2)

RAG Paper List - 检索增强生成论文汇总(2) 论文参考:Retrieval-Augmented Generation for AI-Generated Content: A Survey 摘要:模型算法的进步、基础模型的增长以及对高质量数据集的访问推动了人工智能生成内容 (AIGC) 的发展。尽管取得了显著的成功,但 AIGC 仍然面临诸如更新知识、处理长尾数据、减少数据泄漏

Behavior Retrieval: Few-Shot Imitation Learning by Querying Unlabeled Datasets

发表时间:13 May 2023 论文链接:https://readpaper.com/pdf-annotate/note?pdfId=1900983943467731200&noteId=2446646993511259136 作者单位:Stanford University Motivation:使机器人能够以数据有效的方式学习新的视觉运动技能仍然是一个未解决的问题,有无数的挑战。解决这

VS报错:无法将类型“System.Data.EntityState“隐式转换为“System.Data.Entity.EntityState“

常规处理方式: 1. 检查引用的 EF 类库版本是否一致; 2. 清理项目缓存:清理&重新生成; 常规处理方式之外:(如果用的是EF6.0) 报错代码: db.Entry<UserInfo>(userInfo).State = System.Data.EntityState.Deleted; 解决方法:加一个Entity db.Entry<UserInfo>(userInfo)

Entity Framework 了解(一)

必备概念了解 (在看这篇文章之前,希望大家对于下面这三个对象的概念有些基本的理解,对象名字上有链接) EF:Entity Framework 利用了抽象化数据结构的方式,将每个数据库对象都转换成应用程序对象 (entity),而数据字段都转换为属性 (property),关系则转换为结合属性 (association),让数据库的 E/R 模型完全的转成对象模型,如此让程序设计师能用最熟悉的编

【知识积累】Entity Framework学习:POCO延迟加载

背景: 之前在公司做一个石化项目的时候,用到了POCO。以往都是直接用Entity, 通过Mapping映射进行Entity到POCO的转换,转换的POCO实体支持延迟加载,它主要是配合code first使用(Code first则是指我们先定义POCO这样的实体class,然后生成数据库),现在也可以使用 EF Power tools将已经存在的数据库反向生成poco的class。 是什么:

Paper Note-MAD-GAN:基于生成对抗网络的时间序列多变量异常检测

原文标题:MAD-GAN: Multivariate Anomaly Detection for Time Series Data with Generative Adversarial Networks 原文作者:Dan Li , Dacheng Chen , Lei Shi , Baihong Jin , Jonathan Goh , and See-Kiong Ng 原文来源:2019I