Evaluating Open-Domain Question Answering in the Era of Large Language Models

2023-10-17 05:04

本文主要是介绍Evaluating Open-Domain Question Answering in the Era of Large Language Models,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

本文是LLM系列文章,针对《Evaluating Open-Domain Question Answering in the Era of Large Language Models》的翻译。

大语言模型时代的开放域问答评价

  • 摘要
  • 1 引言
  • 2 相关工作
  • 3 开放域QA评估
  • 4 评估开放域QA模型的策略
  • 5 正确答案的语言分析
  • 6 CuratedTREC上的正则表达式匹配
  • 7 结论

摘要

词汇匹配仍然是开放域问答(QA)事实上的评价方法。不幸的是,当一个可信的候选答案没有出现在黄金答案列表中,词汇匹配就会完全失败,随着我们从抽取模型转向生成模型,这种情况越来越多。最近大型语言模型(llm)在QA方面的成功加剧了词汇匹配失败,因为候选答案变得更长,从而使与黄金答案的匹配更具挑战性。没有准确的评估,开放领域QA的真正进展仍然是未知的。在本文中,我们通过在NQ-OPEN(一个流行的基准)的子集上手动评估它们的答案,对各种开放域QA模型(包括llm)进行了彻底的分析。我们的评估显示,虽然所有模型的真实性能都被严重低估了,但InstructGPT(零样本)LLM的性能提高了近60%,使其与现有的顶级模型相当,而InstructGPT(小样本)模型实际上在NQ-OPEN上达到了新的水平。我们还发现,超过50%的词汇匹配失败归因于语义等价的答案。我们进一步证明了regex匹配排序QA模型与人类判断一致,尽管仍然遭受不必要的严格。最后,我们证明了在某些情况下,自动评估模型是词汇匹配的合理替代品,但对于llm生成的长格式答案则不是。自动模型很难检测到LLM答案中的幻觉,因此无法评估LLM。在这个时候,似乎没有什么可以代替人的评价。

1 引言

2 相关工作

3 开放域QA评估

4 评估开放域QA模型的策略

5 正确答案的语言分析

6 CuratedTREC上的正则表达式匹配

7 结论

尽管在开放领域的QA中,词汇匹配作为一种评估指标是简单而普遍的,但它是不必要的僵化,因为合理的候选答案可能不会出现在黄金答案列表中。这个缺陷早已为人所知,但规避它的努力大多是手工的。在本文中,我们报告了一个系统的词汇匹配研究,通过人工判断几个著名的开放域QA模型生成的答案。我们发现llm在NQ-OPEN上达到了最先进的水平。模型的准确性被严重低估,大多数EM失败案例源于答案的语法变化。此外,零提示方法可以作为人类评估的合理替代品,尽管它不能检测长格式答案中的不可归因性。我们在本文中的见解和分析将有望为开放领域QA中可靠的评估技术的发展奠定基础。

这篇关于Evaluating Open-Domain Question Answering in the Era of Large Language Models的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/223116

相关文章

论文翻译:arxiv-2024 Benchmark Data Contamination of Large Language Models: A Survey

Benchmark Data Contamination of Large Language Models: A Survey https://arxiv.org/abs/2406.04244 大规模语言模型的基准数据污染:一项综述 文章目录 大规模语言模型的基准数据污染:一项综述摘要1 引言 摘要 大规模语言模型(LLMs),如GPT-4、Claude-3和Gemini的快

论文翻译:ICLR-2024 PROVING TEST SET CONTAMINATION IN BLACK BOX LANGUAGE MODELS

PROVING TEST SET CONTAMINATION IN BLACK BOX LANGUAGE MODELS https://openreview.net/forum?id=KS8mIvetg2 验证测试集污染在黑盒语言模型中 文章目录 验证测试集污染在黑盒语言模型中摘要1 引言 摘要 大型语言模型是在大量互联网数据上训练的,这引发了人们的担忧和猜测,即它们可能已

UML- 统一建模语言(Unified Modeling Language)创建项目的序列图及类图

陈科肇 ============= 1.主要模型 在UML系统开发中有三个主要的模型: 功能模型:从用户的角度展示系统的功能,包括用例图。 对象模型:采用对象、属性、操作、关联等概念展示系统的结构和基础,包括类图、对象图、包图。 动态模型:展现系统的内部行为。 包括序列图、活动图、状态图。 因为要创建个人空间项目并不是一个很大的项目,我这里只须关注两种图的创建就可以了,而在开始创建UML图

Open a folder or workspace... (File -> Open Folder)

问题:vscode Open with Live Server 时 显示Open a folder or workspace... (File -> Open Folder)报错 解决:不可以单独打开文件1.html ; 需要在文件夹里打开 像这样

android java.io.IOException: open failed: ENOENT (No such file or directory)-api23+权限受权

问题描述 在安卓上,清单明明已经受权了读写文件权限,但偏偏就是创建不了目录和文件 调用mkdirs()总是返回false. <uses-permission android:name="android.permission.WRITE_EXTERNAL_STORAGE"/><uses-permission android:name="android.permission.READ_E

速通GPT-3:Language Models are Few-Shot Learners全文解读

文章目录 论文实验总览1. 任务设置与测试策略2. 任务类别3. 关键实验结果4. 数据污染与实验局限性5. 总结与贡献 Abstract1. 概括2. 具体分析3. 摘要全文翻译4. 为什么不需要梯度更新或微调⭐ Introduction1. 概括2. 具体分析3. 进一步分析 Approach1. 概括2. 具体分析3. 进一步分析 Results1. 概括2. 具体分析2.1 语言模型

Open-Sora代码详细解读(1):解读DiT结构

Diffusion Models专栏文章汇总:入门与实战 前言:目前开源的DiT视频生成模型不是很多,Open-Sora是开发者生态最好的一个,涵盖了DiT、时空DiT、3D VAE、Rectified Flow、因果卷积等Diffusion视频生成的经典知识点。本篇博客从Open-Sora的代码出发,深入解读背后的原理。 目录 DiT相比于Unet的关键改进点 Token化方

error while loading shared libraries: libnuma.so.1: cannot open shared object file:

腾讯云CentOS,安装Mysql时: 1.yum remove libnuma.so.1 2.yum install numactl.x86_64

高精度打表-Factoring Large Numbers

求斐波那契数,不打表的话会超时,打表的话普通的高精度开不出来那么大的数组,不如一个int存8位,特殊处理一下,具体看代码 #include<stdio.h>#include<string.h>#define MAX_SIZE 5005#define LEN 150#define to 100000000/*一个int存8位*/int num[MAX_SIZE][LEN];void

Open Source, Open Life 第九届中国开源年会论坛征集正式启动

中国开源年会 COSCon 是业界最具影响力的开源盛会之一,由开源社在2015年首次发起,而今年我们将迎来第九届 COSCon! 以其独特定位及日益增加的影响力,COSCon 吸引了越来越多的国内外企业、高校、开源组织/社区的大力支持。与一般企业、IT 媒体、行业协会举办的行业大会不同,COSCon 具有跨组织、跨项目、跨社区的广泛覆盖面,也吸引了众多国内外开源开发者和开源爱好者的关注及参与