Evaluating Open-Domain Question Answering in the Era of Large Language Models

本文主要是介绍Evaluating Open-Domain Question Answering in the Era of Large Language Models，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

本文是LLM系列文章，针对《Evaluating Open-Domain Question Answering in the Era of Large Language Models》的翻译。

大语言模型时代的开放域问答评价

摘要
1 引言
2 相关工作
3 开放域QA评估
4 评估开放域QA模型的策略
5 正确答案的语言分析
6 CuratedTREC上的正则表达式匹配
7 结论

摘要

词汇匹配仍然是开放域问答(QA)事实上的评价方法。不幸的是，当一个可信的候选答案没有出现在黄金答案列表中，词汇匹配就会完全失败，随着我们从抽取模型转向生成模型，这种情况越来越多。最近大型语言模型(llm)在QA方面的成功加剧了词汇匹配失败，因为候选答案变得更长，从而使与黄金答案的匹配更具挑战性。没有准确的评估，开放领域QA的真正进展仍然是未知的。在本文中，我们通过在NQ-OPEN(一个流行的基准)的子集上手动评估它们的答案，对各种开放域QA模型(包括llm)进行了彻底的分析。我们的评估显示，虽然所有模型的真实性能都被严重低估了，但InstructGPT(零样本)LLM的性能提高了近60%，使其与现有的顶级模型相当，而InstructGPT(小样本)模型实际上在NQ-OPEN上达到了新的水平。我们还发现，超过50%的词汇匹配失败归因于语义等价的答案。我们进一步证明了regex匹配排序QA模型与人类判断一致，尽管仍然遭受不必要的严格。最后，我们证明了在某些情况下，自动评估模型是词汇匹配的合理替代品，但对于llm生成的长格式答案则不是。自动模型很难检测到LLM答案中的幻觉，因此无法评估LLM。在这个时候，似乎没有什么可以代替人的评价。

1 引言

2 相关工作

3 开放域QA评估

4 评估开放域QA模型的策略

5 正确答案的语言分析

6 CuratedTREC上的正则表达式匹配

7 结论

尽管在开放领域的QA中，词汇匹配作为一种评估指标是简单而普遍的，但它是不必要的僵化，因为合理的候选答案可能不会出现在黄金答案列表中。这个缺陷早已为人所知，但规避它的努力大多是手工的。在本文中，我们报告了一个系统的词汇匹配研究，通过人工判断几个著名的开放域QA模型生成的答案。我们发现llm在NQ-OPEN上达到了最先进的水平。模型的准确性被严重低估，大多数EM失败案例源于答案的语法变化。此外，零提示方法可以作为人类评估的合理替代品，尽管它不能检测长格式答案中的不可归因性。我们在本文中的见解和分析将有望为开放领域QA中可靠的评估技术的发展奠定基础。

这篇关于Evaluating Open-Domain Question Answering in the Era of Large Language Models的文章就介绍到这儿，希望我们推荐的文章对编程师们有所帮助！