论文翻译：Benchmarking Large Language Models in Retrieval-Augmented Generation

本文主要是介绍论文翻译：Benchmarking Large Language Models in Retrieval-Augmented Generation，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

https://ojs.aaai.org/index.php/AAAI/article/view/29728

检索增强型生成中的大型语言模型基准测试

文章目录

检索增强型生成中的大型语言模型基准测试
摘要
1 引言
2 相关工作
3 检索增强型生成基准
- RAG所需能力
- 数据构建
- 评估指标
4实验
- 设置
- 噪声鲁棒性结果
- 负面拒绝测试平台结果
- 信息整合测试平台结果
- 反事实鲁棒性测试平台结果
5 结论

摘要

检索增强型生成（RAG）是缓解大型语言模型（LLMs）幻觉现象的一种有希望的方法。然而，现有研究缺乏对检索增强型生成对不同大型语言模型影响的严格评估，这使得识别RAG在不同LLMs能力方面的潜在瓶颈变得具有挑战性。在本文中，我们系统地研究了检索增强型生成对大型语言模型的影响。我们分析了不同大型语言模型在RAG所需的4种基本能力中的性能，包括噪声鲁棒性、负面拒绝、信息整合和反事实鲁棒性。为此，我们建立了检索增强型生成基准（RGB），这是一个新的RAG评估语料库，涵盖英语和中文。RGB根据上述基本能力将基准中的实例分为4个单独的测试平台，以解决案例。然后，我们在RGB上评估了6个代表性的LLMs，以诊断当前LLMs在应用RAG时的挑战。评估揭示了尽管LLMs表现出一定程度的噪声鲁棒性，但在负面拒绝、信息整合以及处理虚假信息方面仍然面临重大挑战。上述评估结果表明，有效应用RAG到LLMs还有相当长的路要走。

1 引言

在这里插入图片描述
图1：LLMs检索增强型生成所需的4种能力的示意图。

最近，像ChatGPT（OpenAI 2022）和ChatGLM（THUDM 2023a）这样的大型语言模型取得了令人印象深刻的进步。尽管这些模型展示了显著的通用能力（Bang等人2023年；Guo等人2023年），它们仍然面临严重的挑战，包括事实幻觉（Cao等人2020年；Raunak，Menezes和Junczys-Dowmunt 2021年；Ji等人2023年）、知识过时（He，Zhang和Roth 2022年）以及缺乏特定领域的专业知识（Li等人2023c；Shen等人2023年）。通过信息检索整合外部知识，即检索增强型生成（RAG），被视为解决上述挑战的有希望的方式（Guu等人2020年；Lewis等人2020年；Borgeaud等人2022年；Izacard等人2022年）。借助外部知识，LLMs可以生成更准确和可靠的响应。最常见的方法是使用搜索引擎作为检索器，例如新的Bing。由于互联网上有大量的信息，使用搜索引擎可以提供更多实时信息。

然而，检索增强型生成不仅给LLMs带来了积极的效果（Liu，Zhang和Liang 2023年；Maynez等人2020年）。一方面，即使在互联网上可获取的内容中，也存在大量的噪声信息，甚至是假新闻，这对搜索引擎准确检索所需知识构成了挑战。另一方面，LLMs面临不可靠的生成挑战。LLMs可能被上下文中包含的错误信息误导（Bian等人2023年），并且在生成过程中也遭受幻觉的困扰（Adlakha等人2023年），导致生成超出外部信息的内容。这些挑战导致LLMs无法始终如一地生成可靠和准确的响应。不幸的是，目前缺乏对这些因素如何影响RAG的全面理解，以及每个模型如何克服这些缺陷并通过信息检索提高性能。因此，迫切需要对LLMs进行全面评估，评估它们有效利用检索信息的能力，以及它们抵御信息检索中存在的各种缺陷的能力。

为此，本文对当前LLMs的RAG进行了全面评估。具体来说，我们创建了一个新的检索增强型生成基准，即RGB，涵盖英语和中文。为了确保LLMs的内部知识不会引入评估结果的偏差，RGB选择聚合最新的新闻信息，并基于新闻信息构建查询。然后，基于这些查询，我们使用搜索API获取相关文档，并从内容中选择最相关的片段作为外部检索文档。最后，基于不同组合的查询和文档集对，我们扩展了语料库，并将其分为4个测试平台，根据RAG中的常见挑战评估LLMs的基本能力，如图1所示：

• 噪声鲁棒性，意味着LLM可以从嘈杂的文档中提取有用信息。在本文中，我们将嘈杂的文档定义为与问题相关但不包含任何答案信息的文档。图1中的实例关于“谁获得了2022年诺贝尔文学奖”的问题，包括有关2021年诺贝尔文学奖的报道。为此，噪声鲁棒性的测试平台包含实例，其外部文档包含一定数量的嘈杂文档，基于所需的噪声比率。

• 负面拒绝，意味着当检索到的文档中没有任何所需的知识时，LLM应该拒绝回答问题。负面拒绝的测试平台包含实例，其外部文档仅包含嘈杂的文档。LLMs应该表示“信息不足”或其他拒绝信号。

• 信息整合，评估LLMs是否能够回答需要从多个文档中整合信息的复杂问题。图1中的实例，对于问题“ChatGPT iOS应用程序和ChatGPT API何时发布？”，LLMs应该提供ChatGPT iOS应用程序和ChatGPT API的发布日期信息。信息整合的测试平台包含实例，只能使用多个文档来回答。

• 反事实鲁棒性，评估LLMs在通过指令给出关于检索信息潜在风险的警告时，是否能够识别检索文档中已知事实错误的风向。反事实鲁棒性的测试平台包括实例，可以直接由LLMs回答，但外部文档包含事实错误。

基于RGB，我们对6个最先进的大型语言模型进行了评估，包括ChatGPT（OpenAI 2022）、ChatGLM-6B（THUDM 2023a）、ChatGLM2-6B（THUDM 2023b）、Vicuna-7b（Chiang等人2023年）、Qwen-7B-Chat（Bai等人2023年）、BELLE-7B（BELLEGroup 2023年）。我们发现，尽管RAG可以提高LLMs的响应准确性，但它们仍然显著地面临上述挑战。具体来说，我们发现尽管LLMs表现出一定程度的噪声鲁棒性，但它们倾向于混淆类似信息，并且在存在相关信息时频繁生成不准确的答案。例如，当面临有关2022年诺贝尔文学奖的问题时，如果外部文档中有关2021年诺贝尔文学奖的嘈杂文档，LLMs可能会混淆并提供不准确的答案。此外，当没有任何外部文档包含相关信息时，LLMs经常未能拒绝回答并生成错误答案。此外，LLMs缺乏从多个文档中总结的能力，因此如果需要多个文档来回答一个问题，LLMs通常无法提供准确的答案。最后，我们发现即使LLMs包含所需的知识，并且通过指令给出关于检索信息潜在风险的警告，它们仍然倾向于信任并优先考虑检索到的信息而不是自己的现有知识。上述实验结果突出了现有RAG方法中需要进一步解决的重要问题。因此，必须谨慎行事并仔细设计其使用。

总的来说，本文的贡献是：
• 我们提出了评估LLMs检索增强型生成的四种能力，并创建了英语和中文的检索增强型生成基准。据我们所知，这是第一个为评估LLMs检索增强型生成的这四种能力而设计的基准。
• 我们使用RGB评估了现有的LLMs，并发现了它们在四种不同能力方面的局限性。
• 我们分析了LLMs在RGB中的响应，并确定了它们目前的不足之处以及改进的方向。

2 相关工作

检索增强型模型 大型语言模型中存储的知识通常已经过时（He, Zhang, 和 Roth 2022），并且它们有时还会生成幻觉（Cao 等人 2020；Raunak, Menezes, 和 Junczys-Dowmunt 2021；Ji 等人 2023），即，它们可能会生成不相关或事实上不正确的内容。通过使用外部知识作为指导，检索增强型模型可以生成更准确和可靠的响应（Guu 等人 2020；Lewis 等人 2020；Borgeaud 等人 2022；Izacard 等人 2022；Shi 等人 2023；Ren 等人 2023）。检索增强型模型在各种任务中取得了显著的成果，例如开放域问答（Izacard 和 Grave 2021；Trivedi 等人 2023；Li 等人 2023a）、对话（Cai 等人 2019a,b；Peng 等人 2023）、特定领域问题回答（Cui 等人 2023）和代码生成（Zhou 等人 2023b）。最近，随着大型模型的发展，一系列检索增强型工具和产品获得了广泛关注，例如ChatGPT检索插件、Langchain、New Bing等。然而，在现实世界场景中，检索到的文本不可避免地包含噪声。因此，本文我们对LLMs中的检索增强型生成进行了系统的评估和分析。

LLMs的评估 由于LLMs的显著通用能力（Chang 等人 2023），评估LLMs受到了显著关注。它使我们能够更深入地了解LLMs的特定能力和局限性，同时也为未来的研究提供了宝贵的指导。
在过去，像GLUE（Wang 等人 2019b）和SuperCLUE（Wang 等人 2019a）这样的基准主要关注评估自然语言处理任务，特别是在自然语言理解方面。然而，这些评估通常无法完全捕捉到LLMs的能力。MMLU（Hendrycks 等人 2021）随后被提出，以衡量语言模型在预训练时获得的知识。最近，随着LLMs的发展，一系列通用评估基准出现了，例如AGIEval（Zhong 等人 2023）、C-Eval（Huang 等人 2023）、AlpacaEval（Li 等人 2023b）、OpenLLM排行榜（Edward Beeching 2023）等。除了通用能力外，还有一些特定的基准专注于评估模型的能力。例如，CValues（Xu 等人 2023a）专注于LLMs的安全性和责任，M3Exam（Zhang 等人 2023）专注于人类考试，ToolBench（Qin 等人 2023）评估LLMs使用外部工具的能力。最近，Adlakha 等人（2023）评估了LLMs在现有问答数据集中的RAG。与他们的工作不同，我们专注于RAG所需的4种能力，并创建了检索增强型生成基准来评估LLMs。

在这里插入图片描述

图2：数据生成过程。首先，我们使用模型从新闻文章中提取（事件、问题、答案）。接下来，我们使用搜索引擎检索相关网页。最后，密集检索模型被用来重新排列这些网页的内容。

3 检索增强型生成基准

在本节中，我们首先介绍我们旨在评估的特定检索增强型生成能力。接下来，我们概述了构建RAG基准的评估过程。最后，我们展示了评估指标。

RAG所需能力

外部知识是解决LLMs问题的关键，例如幻觉和过时的知识，这可以通过检索增强型生成（RAG）使LLMs生成更准确和可靠的响应。然而，LLMs并不总是能够如预期地使用RAG进行响应。一方面，互联网上有许多不相关的文档和虚假信息。将这些外部文档整合到LLMs中可能会产生不利影响。另一方面，LLMs遭受不可靠的生成挑战。LLMs的生成通常是不可预测的，我们不能保证它们会利用外部文档中包含的有用信息。此外，LLMs很容易被文档中的不正确信息误导。为此，我们构建了检索增强型生成基准（RGB）来评估LLMs的检索增强型生成，我们关注4种特定能力：
噪声鲁棒性是LLMs在嘈杂文档中的鲁棒性。由于检索器并不完美，它们检索到的外部知识通常包含大量的噪声，即与问题相关但不含任何答案信息的文档。为了有效回答用户问题，LLMs必须能够在存在噪声文档的情况下从文档中提取必要信息。
负面拒绝是衡量LLMs是否能够在没有任何上下文提供有用信息时拒绝回答问题的指标。在现实世界情况下，搜索引擎经常无法检索到包含答案的文档。在这些情况下，模型具有拒绝识别的能力和避免生成误导内容是很重要的。
信息整合是整合多个文档答案的能力。在许多情况下，问题的答案可能包含在多个文档中。例如，对于问题“谁是2022年美国公开赛男子和女子单打的冠军？”，两位冠军可能在不同的文档中被提及。为了提供更好的复杂问题答案，LLMs必须具备整合信息的能力。
反事实鲁棒性指的是处理外部知识错误的能力。在现实世界中，互联网上充斥着大量虚假信息。请注意，我们只评估LLMs通过指令给出关于检索信息潜在风险警告的情况。
在现实世界场景中，不可能获得包含所有必要外部知识的完美文档。因此，评估模型的这四种能力变得至关重要，以衡量LLMs的RAG。

数据构建

受到以往LLMs基准的启发，RGB采用问答格式进行评估。我们通过评判LLMs对问题进行检索增强型响应来评估它们。为了模拟现实世界的场景，我们使用真实的新闻文章构建问题和答案数据。
由于LLMs内部包含的丰富知识，测量前三种能力时存在潜在的偏见。为了减轻这种偏见，RGB的实例是通过最新的新闻文章构建的。此外，我们还通过搜索引擎从互联网检索外部文档。
最后，我们扩展语料库并将其分为4个测试平台，以评估上述LLMs的基本能力。我们数据构建的整体流程如图2所示。
问答实例生成。我们首先收集最新的新闻文章，并使用提示使ChatGPT为每篇文章生成事件、问题和答案。例如，如图2所示，对于一篇关于“2022年诺贝尔奖”的报道，ChatGPT将生成相应的事件、问题并提供关键信息以回答它。通过生成事件，模型能够初步过滤出不包含任何事件的新闻文章。生成后，我们手动检查答案并过滤掉通过搜索引擎难以检索到的数据。
使用搜索引擎检索。对于每个查询，我们使用Google的API获取10个相关网页，并从中提取相应的文本片段。同时，我们阅读这些网页，并将它们的文本内容转换为最大长度为300个token的文本块。使用开源的密集检索器，我们选择最匹配查询的前30个文本块。这些检索到的文本块，以及搜索API提供的片段，将作为我们的外部文档。这些文档将根据是否包含答案被分为正面文档和负面文档。
每种能力的测试平台构建。我们扩展语料库并将其分为4个测试平台，以评估上述LLMs的基本能力。为了评估噪声鲁棒性，我们根据所需的噪声比例抽取不同数量的负面文档。对于负面拒绝，所有的外部文档都是从负面文档中抽取的。对于信息整合能力，我们进一步基于上述生成的问题构建数据。这涉及到扩展或重写这些问题，使它们的答案包含多个方面。例如，问题“谁赢得了2023年超级碗的MVP？”可以改写为“谁赢得了2022年和2023年超级碗的MVP？”。因此，回答这些问题需要利用各个文档中的信息。与前三种能力不同，反事实鲁棒性的数据处理完全基于模型的内部知识。根据上述生成的问题，我们采用ChatGPT自动生成其已知的知识。具体来说，我们使用提示让模型生成已知的问题和答案。例如，基于问题“谁获得了2022年诺贝尔生理学或医学奖？”，模型将生成已知的问题“谁获得了2021年诺贝尔文学奖？”并回答“Abdulrazak Gurnah”。然后我们手动验证生成的答案，并按上述描述检索相关文档。为了使文档包含事实错误，我们手动修改答案并替换文档中的相应部分。
最后，我们在RGB中总共收集了600个基础问题，并为信息整合能力增加了200个问题，为反事实鲁棒性能力增加了200个问题。一半的实例是英文的，另一半是中文的。

评估指标

这个基准的核心是评估LLMs是否能够利用提供的外部文档获取知识并生成合理的答案。我们评估LLMs的响应以衡量上述四种能力。
准确性用于衡量噪声鲁棒性和信息整合。我们采用完全匹配的方法，如果生成的文本包含与答案完全匹配的内容，则被视为正确答案。
拒绝率用于衡量负面拒绝。当只提供噪声文档时，LLMs应该输出特定内容——“我无法回答问题，因为文档中的信息不足。”（我们使用指令告知模型）。如果模型生成了这个内容，它表示成功的拒绝。
错误检测率衡量模型是否能够检测文档中的事实错误以评估反事实鲁棒性。当提供的文档包含事实错误时，模型应该输出特定内容——“提供的文档中存在事实错误。”（我们使用指令告知模型）。如果模型生成了这个内容，它表示模型已经检测到文档中的错误信息。
错误纠正率衡量模型在识别错误后是否能够提供正确的答案以评估反事实鲁棒性。模型被要求在识别事实错误后生成正确的答案。如果模型生成了正确的答案，它表示模型能够纠正文档中的错误。
考虑到LLMs可能不会完全遵循指令，对于拒绝率和错误检测率，我们还使用ChatGPT进行响应的额外评估。
具体来说，我们提示ChatGPT确定响应是否能够反映文档中不存在的信息或识别任何事实错误。

4实验

在这一部分，我们评估了各种LLMs的性能，分析并讨论了结果，总结了现有LLMs在使用外部知识时遇到的主要挑战。

设置

任务格式。我们为每个问题提供5个外部文档。在我们对噪声鲁棒性的实验中，我们评估了从0到0.8的不同噪声比例的场景。
模型我们评估了6个最先进的LLMs，包括ChatGPT（OpenAI 2022）(gpt-3.5-turbo)、ChatGLM6B（THUDM 2023a）、ChatGLM2-6B（THUDM 2023b）、Vicuna-7b-v1.3（Chiang等人2023）、Qwen-7B-Chat（Bai等人2023）、BELLE-7B-2M（BELLEGroup 2023）。
在这里插入图片描述
表1：不同噪声比例下，通过准确性（%）测量的噪声鲁棒性实验结果。我们可以看到，噪声率的增加对LLMs中的RAG构成挑战。

表2：噪声鲁棒性的错误案例，仅显示一个正面文档和一个负面文档。响应由ChatGLM2-6B生成。粗体文本表示文档和问题或答案之间的匹配部分，而斜体文本突出显示了不匹配的部分。

噪声鲁棒性结果

我们根据外部文档中的不同噪声比例评估了准确性，结果如表1所示。我们可以看到：
(1) RAG可以有效提升LLMs的响应质量。
即使存在噪声，LLMs也表现出强大的性能，表明RAG是LLMs生成准确可靠响应的有希望的方式。
(2) 噪声率的增加对LLMs中的RAG构成挑战。具体来说，当噪声比例超过80%时，准确性显著下降，显著性水平为0.05。例如，ChatGPT的性能从96.33%下降到76.00%，而ChatGLM2-6B的性能从91.33%下降到57.33%。

错误分析 为了更好地理解噪声对模型生成的负面影响，我们检查了错误答案，并发现这些错误通常源于三个原因，如表2所示。
(1) 长距离信息。当问题相关信息与答案相关信息距离较远时，LLMs通常难以从外部文档中识别正确答案。这种情况在网上经常遇到，因为经常遇到更长的文本。在这种情况下，问题的信息通常在文档开头首次提出，然后使用代词引用。在表2中，问题信息（“卡塔尔公开赛2022”）仅在开头提到一次，并且远离答案文本“Anett Kontaveit”出现的地方。这种情况可能导致LLMs依赖其他文档中的信息，产生错误印象，即幻觉。
(2) 证据不确定性。在备受期待的事件之前，如苹果新产品的发布或奥斯卡的宣布，互联网上经常有大量的猜测信息在流传。尽管相关文档明确指出这是不确定或猜测的内容，但它们仍可能影响LLMs的检索增强型生成。在表2中，当噪声比例增加时，错误文档的内容都是关于一些人对耳机名称（“Apple Reality Pro”）的预测。即使在相关文档中有正确答案（“Vision Pro”），LLMs仍可能被不确定的证据误导。
(3) 概念混淆。外部文档中的概念可能与问题中的概念相似，但有所不同。这可能会对LLMs造成混淆，使LLMs生成错误答案。在表2中，模型答案关注的是文档中的“汽车收入”概念，而不是问题中的“收入”。

基于以上分析，我们确定了LLMs在检索增强型生成方面的某些限制。为了有效处理互联网上大量的噪声，模型需要进一步的详细增强，如长文档建模和精确概念理解。

负面拒绝测试平台结果

我们评估了仅提供噪声文档时的拒绝率。结果如表3所示。除了通过完全匹配评估拒绝率（表3中的Rej）外，我们还利用ChatGPT确定LLMs的响应是否包含任何拒绝信息（表3中的Rej*）。我们可以看到：负面拒绝对LLMs中的RAG构成挑战。LLMs在英语和中文中的最高拒绝率分别为45%和43.33%。这表明LLMs容易被噪声文档误导，导致错误答案。
此外，通过比较Rej和Rej*，我们发现LLMs未能严格遵循指令，它们经常生成不可预测的响应，这使得它们难以用作状态触发器（例如，用于识别拒绝）。
我们在表4中进行了案例研究。第一个错误是因为证据不确定性。尽管文档只提到与“Adam McKay”的接触，并没有明确说明他是电影的导演，但模型仍然得出他担任此角色的结论。第一个错误是因为概念混淆。答案中提供的信息涉及的是“2018年冬奥会”，而不是问题中提到的“2022年奥运会”。

与直接回答问题相比，检索增强型生成在负面拒绝方面面临更大的挑战，因为它呈现了可能误导LLMs的相关文档，导致错误响应。在未来的发展中，提高LLMs准确匹配问题与适当文档的能力至关重要。
在这里插入图片描述

表3：负面拒绝的结果。Rej表示拒绝率（%），Rej*表示由ChatGPT评估的拒绝率。我们可以看到，负面拒绝对LLMs中的RAG构成挑战。
在这里插入图片描述

表4：由ChatGLM2-6B生成的负面拒绝错误案例。粗体文本突出显示了错误答案。

信息整合测试平台结果

我们根据外部文档中的不同噪声比例评估了准确性，结果如表5所示。与表1中的模型相比，我们观察到它在信息整合能力上表现较弱，这反过来又影响了其噪声鲁棒性。我们可以看到：
(1) 信息整合对LLMs中的RAG构成挑战。即使没有噪声，LLMs的最高准确性也只能分别达到英语60%和中文67%。添加噪声后，最高准确性下降到43%和55%。这些结果表明LLMs在有效整合信息方面存在困难，不擅长直接回答复杂问题。
(2) 噪声文档中的复杂问题对RAG更具挑战性。当噪声比例为0.4时，性能下降变得显著，但对简单问题来说，只有在噪声比例为0.8时，性能才会在0.05的显著性水平下显著下降。这表明复杂问题更容易受到噪声的干扰。我们推测，这是因为解决复杂问题需要从多个文档中整合信息，而这些信息可能相互之间被视为噪声，使得模型更难从文档中提取相关信息。

错误分析 我们对ChatGLM2-6B（噪声比例为0）进行了错误分析。除了在噪声鲁棒性实验中发现的类似错误（占总数的38%）外，还有三种独特的错误类型。我们在表6中展示了这些案例。
(1) 合并错误（占总数的28%）。模型有时会合并两个子问题的答案，导致错误。它错误地使用一个问题的答案来回答两个问题。在这一点上，模型将忽略与一个子问题的任何相关文档。例如，在表6中，它错误地声明D组是法国和德国的世界杯小组，而实际上德国实际上被分配到E组。
(2) 忽略错误（占总数的28%）。有时，模型可能会忽略其中一个子问题，只回答另一个。当模型缺乏对问题的完整理解并且未能认识到它包含多个子问题时，就会发生这种错误。结果，模型只考虑一个子问题的相关问题的相关文档来生成答案，忽略了另一个子问题所提出的问题。例如，在表6中，模型只提供了2022年超级碗的MVP的答案，并没有考虑2023年。
(3) 错位错误（占总数的6%）。有时，模型错误地将一个子问题的文档识别为另一个子问题的文档，导致答案错位。例如，在表6中，第三个答案有两个错误：一个忽略错误和一个错位错误。首先，模型只提到了2023年（第95届）奥斯卡最佳影片，完全忽略了2022年的颁奖典礼。此外，它错误地声明“CODA”是2023年的最佳影片，而实际上它是在2022年获得最佳影片奖。

上述错误主要是由于对复杂问题的有限理解造成的，这阻碍了有效利用不同子问题信息的能力。关键在于提高模型的推理能力。一种可能的解决方案是使用思维链方法来分解复杂问题。然而，这些方法减慢了推理速度，无法提供及时的响应。

反事实鲁棒性测试平台结果

为确保LLMs拥有相关知识，我们通过直接提问来评估它们的表现。然而，我们发现大多数LLMs难以正确回答这些问题。为确保评估更加合理，我们只考虑准确率超过70%的LLMs，因为这个阈值相对较高，涵盖了更多的LLMs。结果如表7所示。我们展示了以下指标：没有任何文档的准确性、具有反事实文档的准确性、错误检测率和错误纠正率。我们可以看到，LLMs很难识别和纠正文档中的事实错误。这表明模型容易被包含错误事实的文档误导。

需要注意的是，检索增强型生成并不是为了自动解决给定上下文中的事实错误而设计的，因为这与模型缺乏知识并依赖检索文档以获取额外信息的假设相矛盾。然而，由于互联网上假新闻的泛滥，这个问题在实际应用中至关重要。现有的LLMs没有防范措施来处理由错误信息引起的不准确回答。实际上，它们严重依赖于检索到的信息。即使LLMs包含了有关问题内部知识，它们也经常信任检索到的错误信息。

这对于LLMs中RAG的未来发展构成了重大挑战。
在这里插入图片描述

表5：不同噪声比例下，通过准确性（%）测量的信息整合实验结果。
在这里插入图片描述

表7：反事实鲁棒性的结果。ACC是LLMs没有外部文档时的准确性（%）。ACCdoc是LLMs具有反事实文档时的准确性（%）。ED和ED*分别是通过完全匹配和ChatGPT评估的错误检测率。CR是错误纠正率。

5 结论

在本文中，我们评估了LLMs在检索增强型生成中的四种能力：噪声鲁棒性、负面拒绝、信息整合和反事实鲁棒性。为了进行评估，我们构建了检索增强型生成基准（RGB）。RGB的实例来自最新的新闻文章和搜索引擎获取的外部文档。实验结果表明，当前LLMs在这四种能力上存在局限性。这表明，要有效地将RAG应用于LLMs，仍然需要大量的工作。为确保LLMs提供准确可靠的响应，至关重要的是要小心行事，并为RAG进行精心设计。

这篇关于论文翻译：Benchmarking Large Language Models in Retrieval-Augmented Generation的文章就介绍到这儿，希望我们推荐的文章对编程师们有所帮助！