信息检索(52):From doc2query to docTTTTTquery

2024-06-24 10:36

本文主要是介绍信息检索(52):From doc2query to docTTTTTquery,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

From doc2query to docTTTTTquery

  • 摘要


发布时间(2019)


摘要

Nogueira 等人 [7] 使用简单的序列到序列转换器 [9] 进行文档扩展。我们用 T5 [8] 替换转换器,并观察到效率大幅提升。

doc2query [7] 是一种文档扩展形式,其理念是训练一个模型,当给定一个输入文档时,该模型会生成该文档可能回答的问题。然后,这些预测的问题会附加到原始文档中,然后像以前一样对原始文档进行索引。

本研究中的设置遵循 doc2query,但使用 T5 [8] 作为扩展模型。T5 是一个序列到序列模型,它使用与 BERT [3] 类似的预训练目标来预训练其编码器-解码器架构。在这个模型中,所有目标任务都被转换为序列到序列任务。在我们的例子中,我们将段落作为输入,并训练模型来生成问题。我们以 10−4 的恒定学习率训练模型,进行 4k 次迭代,批次为 256,这对应于 MS MARCO 训练集的 2 个时期。我们最多使用 512 个输入标记和 64 个输出标记。在 MS MARCO 数据集中,使用这些长度时,无需截断任何输入或输出。 与 Nogueira 等人 [7] 类似,我们发现 top-k 采样解码器 [4] 比集束搜索产生更有效的查询。我们使用 k = 10。在所有实验中,我们都使用 T5-base,因为我们没有注意到大型模型在检索效果方面有任何改进。由于计算成本较高,我们没有对 T5-3B 和 T5-11B 进行实验。

然后,所有扩展文档都使用 Anserini IR 工具包 [10](v0.6.0 之后)进行索引;扩展查询将附加到原始文档中,但没有特别分隔。为了进行评估,开发/测试问题将针对索引作为“词袋”查询发出,使用 BM25 排名函数和 Anserini 的默认参数。

表 1 还提供了比较点:BM25(Anserini)基线;
doc2query 和基于 BERT 的重新排名(分数高但速度很慢),
均来自 Nogueira 等人 [7];Hofstätter 等人 [5],据我们所知,这是排行榜上最好的非集成、非 BERT 方法,并有一篇相关论文;以及 DeepCT [2],一种最近推出的基于 BERT 的文档扩展方法。

我们还根据 BLEU 值评估了模型生成的查询与真实开发查询的对比情况:docTTTTTquery 得分为 0.21 BLEU,远高于 doc2query 的 0.088 BLEU。 我们将输出质量的巨大差异归因于预训练,而不是模型本身的大小,因为即使是参数数量与 doc2query 模型相似的 T5-small 模型也达到了 0.18 BLEU。

有趣的是,doc2query 和 docTTTTTquery 产生的复制词(67%)和新词(33%)的比例与原始文档相似。对这两个模型的分析都是使用从 top-k 采样解码器中抽取的 10 个样本进行的;计算这些统计数据时不考虑停用词。正如 Nogueira 等人 [7] 所指出的,复制术语具有术语重新加权的效果,而使用新术语进行扩展可以缓解词汇不匹配问题,从而提高召回率。

这篇关于信息检索(52):From doc2query to docTTTTTquery的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1089909

相关文章

认知杂谈52

今天分享 有人说的一段争议性的话 I I 1拓展人脉很重要** 咱们活在这世上啊,得明白一件事儿,知识、逻辑能力和实战经验虽然重要,但确实都不是最关键的。真正关键的是要懂得怎么和那些手里有资源的人打交道。人脉那可真是一笔无形的大财富呢。你想想看,有时候一个有影响力的人帮你一把,那效果可比你累死累活干一年都强得多。 I I 就比如说,你要是认识个行业里的大牛,他可能给你介绍个特别好的工

代码随想录训练营day37|52. 携带研究材料,518.零钱兑换II,377. 组合总和 Ⅳ,70. 爬楼梯

52. 携带研究材料 这是一个完全背包问题,就是每个物品可以无限放。 在一维滚动数组的时候规定了遍历顺序是要从后往前的,就是因为不能多次放物体。 所以这里能多次放物体只需要把遍历顺序改改就好了 # include<iostream># include<vector>using namespace std;int main(){int n,m;cin>>n>>m;std::vector<i

【教学类-52-08】20240905动物数独(6宫格)一页2张任务卡,一页一个动物贴图卡,有答案

背景需求: 前文提到6宫格数独的图片6*6=36图,如果将6张任务卡放在一个A4上,看上去6种动物很小,所以我换了一个word模板,变成了2张任务卡放在一个A4上。 【教学类-52-07】20240903动物数独(6宫格)一页2张任务卡,无答案-CSDN博客文章浏览阅读846次,点赞25次,收藏6次。【教学类-52-07】20240903动物数独(6宫格)一页2张任务卡,无答案https:

字节内部培训的《大模型落地应用案例集》,52个大模型落地精选案例!

《2023大模型落地应用案例集》是一本极具价值的书籍,它提供了对大模型在各个领域应用的详细解析,从金融到医疗,再到教育和制造等多个行业,都有深入的案例研究。这些案例展示了大模型技术的广泛应用前景,不仅反映了各行业对该技术的认可,也为技术的进一步推广提供了动力 特别值得关注的是医疗健康领域的案例,如MiniMax大模型医疗咨询解决方案。这个案例展示了大模型在医疗领域中的潜力,通过智能化的咨询服

对话系统概述:问答型(直接根据用户的问题给出精准的答案,更接近一个信息检索的过程;单轮;上下文无关)、任务型(多轮对话、针对特定场景)、闲聊型(不解决问题;自然交互;多轮对话)、图谱型(基于图谱推理)

参考资料: 【笔记1-1】基于对话的问答系统CoQA (Conversational Question Answering) 了解人机对话—聊天、问答、多轮对话和推荐 幽澜资讯:如何区分智能机器人对话系统的单轮和多轮对话? NLP领域中对话系统(Dialogue)和问答系统(question answer)做法有哪些异同点? GitHub:基

52基于SpringBoot+Vue+uniapp的旅游管理系统的的详细设计和实现(源码+lw+部署文档+讲解等)

文章目录 前言详细视频演示具体实现截图技术栈后端框架SpringBoot前端框架Vue持久层框架MyBaitsPlus 系统测试系统测试目的系统功能测试系统测试结论 为什么选择我代码参考数据库参考源码获取源码获取 前言 🌞博主介绍 :✌全网粉丝15W+,CSDN特邀作者、211毕业、高级全栈开发程序员、大厂多年工作经验、码云/掘金/华为云/阿里云/InfoQ/StackOver

52.x86游戏实战-XXX获取房间坐标

免责声明:内容仅供学习参考,请合法利用知识,禁止进行违法犯罪活动! 本次游戏没法给 内容参考于:微尘网络安全 工具下载: 链接:https://pan.baidu.com/s/1rEEJnt85npn7N38Ai0_F2Q?pwd=6tw3 提取码:6tw3 复制这段内容后打开百度网盘手机App,操作更方便哦 上一个内容:51.x86游戏实战-XXX返回城镇的实现 上一个内容里把

HarmonyOS(52) 使用安全控件SaveButton保存图片

SaveButton使用简介 前言SaveButton简介约束与限制 实现点击事件全部源码 参考资料: 前言 在HarmonyOS(50) 截图保存功能实现一文中简单介绍了截图保存功能,本篇博文介绍一个更简单的保存图片控件SaveButton. SaveButton简介 SaveButton允许用户通过点击按钮临时获取存储权限,无需额外的编写权限申请代码。当用户点击该控件时,

风投报告:2017下半年VR/AR娱乐领域投资额同比上升79% 【52翻译】

(52VR优质原创翻译) 众所周知好莱坞正比以往更多地拥抱AR、VR和MR。一家叫作 The Venture Reality Fund 的风险投资基金会查找了这个领域里的投资情况,据报称2017年下半年,在娱乐行业的投资额比去年同期上升了79%。 The VR Fund 的最新报告重点关注了在基础建设、工具、平台设备和应用方面服务VR/AR生态的超过450家公司。今年迄今

三级_网络技术_52_应用题

一、 请根据下图所示网络结构回答下列问题。 1.填写路由器RG的路由表项。 目的网络/掩码长度输出端口__________S0(直接连接)__________S1(直接连接)__________S0__________S1__________S0__________S1 2.如果在不改变路由表项的前提下,请写出在路由器RF上最多可再连接的路由器数量__________。 3.如果图中