优化数据以提升大模型RAG性能思路：Meta Knowledge for RAG的一个实现思路

本文主要是介绍优化数据以提升大模型RAG性能思路：Meta Knowledge for RAG的一个实现思路，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

传统的RAG系统通过检索然后阅读框架来增强LLMs，但存在一些挑战，如知识库文档的噪声、缺乏人工标注信息、长文档的编码问题以及用户查询的模糊性。

因此可以采用数据为中心的增强方法，我们可以看看最近的一个工作。

一、Meta Knowledge for RAG

最近的工作，《Meta Knowledge for Retrieval Augmented Large Language Models》（https://arxiv.org/abs/2408.09017），利用元数据信息来进行优化，本文来看看这个工作，讨论了一种新的数据为中心的检索增强型生成工作流程，旨在提高大模型对知识库的理解。

从实现思路上看，该工作介绍了一种新的RAG工作流程，称为准备-重写-检索-阅读（Prepare-Then-Rewrite-Then-Retrieve-Then-Read, PR3），通过为每个文档生成元数据和合成问题与答案（QA）对，以及引入元知识摘要（Meta Knowledge Summary, MK Summary）的概念，以改善用户查询增强和知识库中的信息检索。

一句话说明步骤，就是使用LLMs生成每个文档的元数据和合成QA对；利用MK Summary来指导查询增强步骤，使用聚类信息；通过个性化的用户查询增强和深入的知识库信息检索，提高了检索的精度和召回率。

其本身做的是数据为中心的工作流程，常见的流程如Figure1所示，它通过使用先进的语言模型和元数据驱动的方法来优化信息检索过程，旨在提供更加精准和个性化的结果。

文档增强：在推理之前，文档首先使用名为 Claude 3 的工具进行增强。这意味着文档会被处理，以便于更好地与系统进行交互，并提高检索的相关性。
聚类：增强后的文档根据元数据被聚类成集合，每个集合包含合成的问题和答案（QA）。这些合成的QA对是为了个性化的下游检索而设计的，即根据不同用户的需求定制化检索结果。
元知识摘要（Meta Knowledge Summaries, MK Summary）：MK Summary 是从文档集合中提取的关键概念摘要，用于指导查询增强步骤。这意味着系统会根据文档中的关键信息来优化和扩展用户的查询，以便更精确地匹配用户的需求。
个性化检索：整个工作流程的目标是实现个性化的检索，即系统能够根据用户的具体需求提供定制化的信息检索服务。
查询增强：在用户提出查询后，系统会利用MK Summary中的信息来增强原始查询，生成更具体、更有针对性的查询，以期提高检索的准确性和相关性。
检索与阅读：经过增强的查询随后用于检索知识库中相关的文档或信息片段，然后系统会阅读这些检索到的内容，以生成回答或提供进一步的信息。