信息检索(52):From doc2query to docTTTTTquery

2024-06-24 10:36

本文主要是介绍信息检索(52):From doc2query to docTTTTTquery,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

From doc2query to docTTTTTquery

  • 摘要


发布时间(2019)


摘要

Nogueira 等人 [7] 使用简单的序列到序列转换器 [9] 进行文档扩展。我们用 T5 [8] 替换转换器,并观察到效率大幅提升。

doc2query [7] 是一种文档扩展形式,其理念是训练一个模型,当给定一个输入文档时,该模型会生成该文档可能回答的问题。然后,这些预测的问题会附加到原始文档中,然后像以前一样对原始文档进行索引。

本研究中的设置遵循 doc2query,但使用 T5 [8] 作为扩展模型。T5 是一个序列到序列模型,它使用与 BERT [3] 类似的预训练目标来预训练其编码器-解码器架构。在这个模型中,所有目标任务都被转换为序列到序列任务。在我们的例子中,我们将段落作为输入,并训练模型来生成问题。我们以 10−4 的恒定学习率训练模型,进行 4k 次迭代,批次为 256,这对应于 MS MARCO 训练集的 2 个时期。我们最多使用 512 个输入标记和 64 个输出标记。在 MS MARCO 数据集中,使用这些长度时,无需截断任何输入或输出。 与 Nogueira 等人 [7] 类似,我们发现 top-k 采样解码器 [4] 比集束搜索产生更有效的查询。我们使用 k = 10。在所有实验中,我们都使用 T5-base,因为我们没有注意到大型模型在检索效果方面有任何改进。由于计算成本较高,我们没有对 T5-3B 和 T5-11B 进行实验。

然后,所有扩展文档都使用 Anserini IR 工具包 [10](v0.6.0 之后)进行索引;扩展查询将附加到原始文档中,但没有特别分隔。为了进行评估,开发/测试问题将针对索引作为“词袋”查询发出,使用 BM25 排名函数和 Anserini 的默认参数。

表 1 还提供了比较点:BM25(Anserini)基线;
doc2query 和基于 BERT 的重新排名(分数高但速度很慢),
均来自 Nogueira 等人 [7];Hofstätter 等人 [5],据我们所知,这是排行榜上最好的非集成、非 BERT 方法,并有一篇相关论文;以及 DeepCT [2],一种最近推出的基于 BERT 的文档扩展方法。

我们还根据 BLEU 值评估了模型生成的查询与真实开发查询的对比情况:docTTTTTquery 得分为 0.21 BLEU,远高于 doc2query 的 0.088 BLEU。 我们将输出质量的巨大差异归因于预训练,而不是模型本身的大小,因为即使是参数数量与 doc2query 模型相似的 T5-small 模型也达到了 0.18 BLEU。

有趣的是,doc2query 和 docTTTTTquery 产生的复制词(67%)和新词(33%)的比例与原始文档相似。对这两个模型的分析都是使用从 top-k 采样解码器中抽取的 10 个样本进行的;计算这些统计数据时不考虑停用词。正如 Nogueira 等人 [7] 所指出的,复制术语具有术语重新加权的效果,而使用新术语进行扩展可以缓解词汇不匹配问题,从而提高召回率。

这篇关于信息检索(52):From doc2query to docTTTTTquery的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1089909

相关文章

52、U-boot2023的移植教程

uboot:https://ftp.denx.de/pub/u-boot/ nxp-uboot:https://github.com/nxp-imx/uboot-imx 1、顶层Makefile  文件加入编译的两种方式:以xxx/xxx.c文件为例         1、使用menuconfig:               先编辑.c所在目录下的Kconfig,加入配置项xxx

LSA潜在语义分析与信息检索

1 LSA Introduction LSA(latent semantic analysis)潜在语义分析,也被称为LSI(latent semantic index),是Scott Deerwester, Susan T. Dumais等人在1990年提出来的一种新的索引和检索方法。该方法和传统向量空间模型(vector space model)一样使用向量来表示词(terms)和文档(

【代码随想录算法训练营第四十三天|卡码网52.携带研究材料、18.零钱兑换II、377.组合总和Ⅳ、卡码网57.爬楼梯】

文章目录 卡码网52.携带研究材料518.零钱兑换II377.组合总和Ⅳ卡码网57.爬楼梯 卡码网52.携带研究材料 这题是完全背包问题,完全背包问题在01背包问题的基础上其实主要是三个不同,第一个是初始化的时候不能再和01背包一样对第一个物品让背包大小大于物品重量的时候全部初始化为物品价值,因为现在的物品可以无限放。第二个就是动态规划内部的循环推导的时候不用倒序而是正序了,因为

一个简单的多线程的大数据信息检索程序

下面我要展示的是一个简单的大数据库的多线程检索程序。 2015年网络上频繁爆出很多互联网大公司数据库泄漏事件,作为一个程序员遇到这种事情当然要down些裤子来黑衣黑朋友啦,比如说某社交平台帐号,或者电商的交易记录(物流信息),再或者快捷酒店的开房记录(你可别想歪了,谁还没出过差)等等。 然而,面对下载下来动不动一个文件就几个G的裤子,我们程序员当然要开外挂喽---多线程! 我的程序很简单,但

TF-IDF算法详解:信息检索与文本挖掘中的关键技术

介绍 TF-IDF算法是文本处理和信息检索领域中的一项基础技术,它通过量化词汇对于一个文档集或一个语料库中的其中一份文档的重要性,来评估词汇的相关性。本书《TF-IDF算法详解:信息检索与文本挖掘中的关键技术》将深入探讨TF-IDF算法的工作原理、计算方法、应用场景以及其在现代文本分析中的重要作用。 本书适合自然语言处理、数据科学、信息检索和文本分析等领域的研究人员和从业者,以及对这些领域感兴

Spring (52)Spring Cloud Sleuth

Spring Cloud Sleuth是一个分布式跟踪解决方案,它可以帮助我们追踪在微服务架构中发起的请求的路径。通过给服务间调用的请求自动添加跟踪ID和跨度ID,Spring Cloud Sleuth让我们能够轻松地识别和定位服务间调用的延时问题,了解整个分布式系统的行为和性能瓶颈。接下来,我将结合源码解析、代码演示和细节,深入了解Spring Cloud Sleuth。 核心概念 Trac

leetcode-52. N-Queens II

leetcode-52. N-Queens II 题目: > Follow up for N-Queens problem. Now, instead outputting board configurations, return the total number of distinct solutions. 跟上一题一样,比上一题简单。51-N-Queens I public c

52.Fork Join线程池

介绍 jdk1.7之后加入的新的线程池的实现。 实现一种分治的思想。 适用于能够进行任务拆分的cpu密集型运算。 任务拆分 将一个大任务拆分为算法上相同的小任务,直至不能拆分可以直接求解。例如跟递归相关的一些计算,如归并排序、斐波那契数列都可以利用分治的思想。 Fork/Join是在分治的思想上加了多线程。可以把每个任务的分解和合并交给不同的线程来完成。进一步提升了运算效率。 For

JimuReport 积木报表 v1.7.52 版本发布,免费的低代码报表

项目介绍 一款免费的数据可视化报表工具,含报表和大屏设计,像搭建积木一样在线设计报表!功能涵盖,数据报表、打印设计、图表报表、大屏设计等! Web 版报表设计器,类似于excel操作风格,通过拖拽完成报表设计。秉承“简单、易用、专业”的产品理念,极大的降低报表开发难度、缩短开发周期、节省成本、解决各类报表难题。领先的企业级Web报表,采用纯Web在线技术,专注于解决企业报表快速制作难题。

Errors running builder Android Package Builder on project ***minvor version 52

Adding the below line in project.properties and setting Java to 1.7 solved the issue to me. sdk.buildtools=23.0.3