REPLUG:检索增强的黑盒语言模型

2024-04-01 02:20

本文主要是介绍REPLUG:检索增强的黑盒语言模型,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

在这里插入图片描述

  论文题目:REPLUG: Retrieval-Augmented Black-Box Language Models
  论文日期:2023/05/24
  论文地址:https://arxiv.org/abs/2301.12652

文章目录

    • Abstract
    • 1. Introduction
    • 2. Background and Related Work
      • 2.1 Black-box Language Models
      • 2.2 Retrieval-augmented Models
    • 3. REPLUG
      • 3.1 Document Retrieval
      • 3.2 Input Reformulation
    • 4. REPLUG LSR: Training the Dense Retriever
      • 4.1 Computing Retrieval Likelihood
      • 4.2 Computing LM likelihood
      • 4.3 Loss Function
      • 4.4 Asynchronous Update of the Datastore Index
    • 5. Training Setup
      • 5.1 REPLUG
      • 5.2 REPLUG LSR
        • 5.2.1 Training data
        • 5.2.2 Training data

Abstract

  这篇论文提出REPLUG,一种检索增强的语言建模框架,将语言模型(LM)视为黑盒,并用可调的检索模型对其进行增强。与之前使用特殊交叉注意力机制训练语言模型以编码检索文本的检索增强语言模型不同,REPLUG只是将检索文档放在冻结(frozen)的黑盒语言模型的输入前面。这种简单的设计可以很容易地应用于任何现有的检索和语言模型。此外,语言模型可以用来监督检索模型,然后可以找到帮助语言模型做出更好预测的文档。
  作者的实验表明带有微调检索器的REPLUGGPT-3(175B)在语言建模上的性能提高了6.3%,将Codexfive-shot MMLU上的性能提高了5.1%

1. Introduction

  大型语言模型(LLM),如GPT-3Codex,在广泛的语言任务中表现出令人印象深刻的表现。这些模型通常在非常大的数据集上训练,并在其参数中隐式地存储了大量的世界或领域知识。然而,它们也容易产生幻觉,不能代表训练语料库中知识的完整长尾。相比之下,检索增强语言模型可以在需要时从外部数据存储中检索知识,可能会减少幻觉并增加覆盖率。以前的检索增强语言模型方法需要访问内部语言模型表示(例如,训练模型或索引数据存储),因此很难应用于非常大的语言模型。此外,许多同类中最好的LLM只能通过API访问。这些模型的内部表示没有暴露出来,也不支持微调。
  这篇论文提出REPLUG(Retrieve and Plug),一种新的检索增强的语言模型框架,其中语言模型被视为黑盒,检索组件被添加为可调的即插即用模块。给定一个输入上下文,REPLUG首先使用现成的检索模型从外部语料库检索相关文档。检索到的文档被添加到输入上下文并输入到黑盒LLM中以做出最终预测。由于语言模型上下文长度限制了可以前缀的文档数量,这里还引入了一个新的集成方案,该方案与相同的黑盒语言模型并行编码检索的文档,允许我们轻松地以计算换取准确性。REPLUG非常灵活,可以与任何现有的黑盒语言模型和检索模型一起使用,如下图所示:

在这里插入图片描述

  这篇论文还提出了REPLUG LSR(REPLUG with LM-Supervised Retrieval),一种训练方案,可以利用黑盒语言模型的监督信号进一步改进REPLUG中的初始检索模型,关键思想是使检索器适应LM,这与之前使语言模型适应检索器的工作形成了鲜明对比。作者使用了一个训练目标,该目标倾向于检索文档,以改善语言模型的困惑,同时将LM视为一个冻结的黑盒评分函数。
  实验表明,REPLUG可以提高不同黑盒语言模型在两种语言建模上的性能下游任务,包括MMLU和开放域QA。例如,REPLUG可以将Codex(175B)MMLU上的性能提高4.5%,实现了与指令微调的Flan-PaLM 540B相当的结果。此外,用论文中的训练方案(即REPLUG LSR)调整检索器会带来额外的提高,比如GPT-3 175B语言建模提高了6.3%。本文工作首次展示了检索大型语言模型(>100B模型参数)的好处,既减少了语言模型的困惑度,又提高了上下文学习性能。
  这篇论文的主要贡献如下:
  (1) 提出REPLUG,第一个检索增强语言建模框架,用于通过检索增强大型黑盒语言模型;
  (2) 提出一种训练方案REPLUG LSR,以进一步将现成的检索模型适应于语言模型,使用语言建模分数作为监督信号,从而提高检索质量;
  (3) 在语言建模、开放域QAMMLU上的评估表明,REPLUG可以提高各种语言模型(如GPTOPTBLOOM)的性能,包括高达175B参数规模的大型语言模型。

2. Background and Related Work

2.1 Black-box Language Models

  大型语言模型(>100B),如GPT-3Codex和Yuan1.0,由于商业考虑而不开源,仅作为黑盒API提供,用户可以通过它发送查询和接收响应。另一方面,即使是开源语言模型,如OPT-175BBLOOM-176B也需要大量的计算资源在本地运行和微调。例如微调BLOOM-176B需要72A100 GPU(80GB内存,每个1.5万美元),使得资源有限的研究人员和开发人员无法访问它们。传统上,检索增强模型框架侧重于白盒环境,其中语言模型被微调以合并检索文档。然而,大型语言模型的规模不断扩大和黑箱特性使得这种方法不可行。为解决大型语言模型带来的挑战,这篇论文研究了黑盒环境下的检索增强,其中用户只能访问模型预测,而不能访问或修改其参数。

2.2 Retrieval-augmented Models

  事实证明,用从各种知识库中检索到的相关信息来增强语言模型,可以有效地提高各种NLP任务的性能,包括语言建模和开放域问答。具体来说,使用输入作为查询,检索器首先从语料库中检索一组文档(即token序列),然后语言模型将检索到的文档作为附加信息进行最终预测。这种检索风格可以添加到encoder-decoderdecoder-only模型中。例如,Atlas通过将文档建模为潜在变量来与检索器联合共同对encoder-decoder模型进行微调,而RETRO则改变了decoder-only的架构,以合并检索到的文本,并从头开始预训练语言模型。这两种方法都需要通过梯度下降更新模型参数,不能应用于黑盒LM。另一条线路检索增强的语言模型,如kNN-LM检索一组tokens,并在LM的下一个token分布和推理时从检索的token计算出的kNN分布之间进行插值。虽然kNN-LM不需要额外的训练,但它需要访问内部的LM表示来计算kNN分布,这对于像GPT-3这样的大型语言模型并不总是可用的。
  本文研究了用检索来改进大型黑盒语言模型的方法。虽然相关工作已经证明了使用冻结检索器可以提高GPT-3在开放域问答上的性能,但作者在更通用的环境中处理这个问题,包括语言建模和理解任务。本文还提出了一种集成方法来合并更多的文档,以及一种训练方案来进一步使检索器适应大型语言模型。

3. REPLUG

  本文提出REPLUG(Retrieve and Plug),一种新的检索增强的语言模型范式,其中语言模型被视为黑盒,检索组件被添加为一个潜在的可调模块。
  如下图所示,给定一个输入上下文,REPLUG首先使用检索器从外部语料库中检索一小部分相关文档,然后通过LM并行传递每个检索文档与输入上下文的连接,并集成预测概率。

在这里插入图片描述

3.1 Document Retrieval

  给定输入上下文 x x x,检索器旨在从语料库 D = { d 1 , . . . , d m } \mathcal D = \{d_1, ..., d_m\} D={d1,...,dm} 中检索与 x x x 相关的一小部分文档。根据之前的工作,作者使用基于双塔编码器(dual encoder)架构的密集检索器,其中编码器用于编码输入上下文 x x x 和文档 d d d。具体来说,编码器通过对 d d d 中的tokens进行最后一个隐藏表示的均值池化,将每个文档 d ∈ D d \in \mathcal D dD 映射到嵌入 E ( d ) E(d) E(d)。在查询时,将相同的编码器应用于输入上下文 x x x 以获得查询嵌入 E ( x ) E(x) E(x)。查询嵌入和文档嵌入之间的相似度是通过它们的余弦相似度计算的: s ( d , x ) = c o s ( E ( d ) , E ( x ) ) s(d, x) = cos\big( E(d), E(x) \big) s(d,x)=cos(E(d),E(x))在此步骤中检索与输入 x x x 相比具有最高相似度分数的top-k个文档。为了高效检索,作者预先计算每个文档 d ∈ D d \in \mathcal D dDembedding,并在这些嵌入上构建FAISS索引。

3.2 Input Reformulation

  检索到的top-k个文档提供了关于原始输入上下文 x x x 的丰富信息,并可以潜在地帮助语言模型做出更好的预测。将检索到的文档作为LM输入的一部分的一种简单方法是在 x x x 前面加上所有 k k k 个文档。然而,考虑到语言模型的上下文窗口大小,这个简单的方案从根本上受到我们可以包括的文档数量(k)的限制。为了解决这个限制,作者采用了一种集成策略描述如下。根据上述相似度计算中的评分函数,假设 D ′ ⊂ D \mathcal D^ \prime \subset \mathcal D DD 包含 k k k 个与 x x x 最相关的文档,将每个文档 d ∈ D ′ d \in \mathcal D^ \prime dD 添加到 x x x,将这个拼接分别传递给LM,然后从所有 k k k 个传递中集成输出概率。形式上,给定输入上下文 x x x 及其 t o p − k top-k topk 个相关文档 D ′ \mathcal D^ \prime D,下一个token y y y 的输出概率可以通过加权平均计算得到: p ( y ∣ x , D ′ ) = ∑ d ∈ D ′ p ( y ∣ d ∘ x ) ⋅ λ ( d , x ) p\big(y | x, \mathcal D^ \prime\big) = \sum_{d\in \mathcal D^ \prime} p(y | d \circ x) \cdot \lambda(d, x) p(yx,D)=dDp(ydx)λ(d,x)其中 ∘ \circ 表示两个序列的拼接,权重 λ ( d , x ) \lambda(d, x) λ(d,x) 是基于文档 d d d 和输入上下文 x x x 之间的相似度得分: λ ( d , x ) = e s ( d , x ) ∑ d ∈ D ′ e s ( d , x ) \lambda(d, x) = \frac {e^{s(d, x)}} {\sum_{d \in \mathcal D^ \prime} e^{s(d, x)}} λ(d,x)=dDes(d,x)es(d,x)虽然这种集成方法需要运行LM k k k 次,但交叉注意力在每个检索文档和输入上下文之间执行。因此,与将所有检索到的文档放在前面的方法相比,该集成方法不会产生额外的计算开销。

4. REPLUG LSR: Training the Dense Retriever

  作者不再仅仅依赖于现有的神经密集检索模型,而是进一步提出了REPLUG LSR(REPLUG with LM Supervisored retrieval),它通过使用LM本身来调整REPLUG中的检索器,以提供关于应该检索哪些文档的监督信息。
  受"Questions are all you need to train a dense passage retriever"这篇论文的启发,该方法可以被视为调整检索文档的概率以匹配语言模型的输出序列困惑度的概率。换句话说,作者希望检索器找到困惑度分数较低的文档。如下图所示,训练算法包括四个步骤:
  (1) 检索文档并计算检索似然度;
  (2) 通过语言模型对检索文档进行评分;
  (3) 通过最小化检索似然度和语言模型的分数分布之间的KL散度来更新检索模型参数;
  (4) 异步更新数据存储索引。

在这里插入图片描述

  似然度,即可能性,likelihood

4.1 Computing Retrieval Likelihood

  从语料库 D \mathcal D D 中检索具有最高相似度分数的 k k k 个文档 D ′ ⊂ D \mathcal D^ \prime \subset \mathcal D DD,给定输入上下文 x x x,计算每个检索文档 d d d 的检索似然度: P R ( d ∣ x ) = e s ( d , x ) / γ ∑ d ∈ D ′ e s ( d , x ) / γ P_R (d | x) = \frac {e^{s(d, x) / \gamma}} {\sum_{d \in \mathcal D^ \prime} e^{s(d, x) / \gamma}} PR(dx)=dDes(d,x)/γes(d,x)/γ其中 γ \gamma γ 是控制softmax温度的超参数。理想情况下,检索似然度是通过边缘化语料库 D \mathcal D D 中的所有文档来计算的,这在实际中是难以实现的。因此,作者通过仅在检索文档 D ′ \mathcal D^ \prime D 上边缘化来近似检索似然度。

4.2 Computing LM likelihood

  使用LM作为评分函数来衡量每个文档对LM复杂度的改善程度。具体来说,给定输入上下文 x x x 和文档 d d d,首先计算 P L M ( y ∣ d , x ) P_{LM}(y|d,x) PLM(yd,x),即LM的真实值输出y的概率,概率越高,文档 d d d 在改善LM的困感度方面越好。然后,再计算每个文档 d d dLM似然度: Q ( d ∣ x , y ) = e P L M ( y ∣ d , x ) / β ∑ d ∈ D ′ e P L M ( y ∣ d , x ) / β Q (d | x, y) = \frac {e^{P_{LM}(y|d,x) / \beta}} {\sum_{d \in \mathcal D^ \prime} e^{P_{LM}(y|d,x) / \beta}} Q(dx,y)=dDePLM(yd,x)/βePLM(yd,x)/β其中 β \beta β 是另一个超参数。

4.3 Loss Function

  给定输入上下文 x x x 和相应的基本事实连续性 y y y,计算检索似然和语言模型似然。稠密检索器通过最小化这两个分布之间的KL散度来训练: L = 1 ∣ B ∣ ∑ x ∈ B K L ( P R ( d ∣ x ) ∣ ∣ Q L M ( d ∣ x , y ) ) \mathcal L = \frac {1} {|\mathcal B|} \sum _{x\in{\mathcal B}} KL\bigg(P_R\big(d|x\big) \ \big|\big|\ Q_{LM}\big(d|x, y\big)\bigg) L=B1xBKL(PR(dx)   QLM(dx,y))其中 B \mathcal B B 是一组输入上下文。在最小化损失时,只能更新检索模型参数。由于黑盒假设,LM的参数是固定的。

4.4 Asynchronous Update of the Datastore Index

  因为检索器中的参数在训练过程中被更新,所以之前计算的文档嵌入不再是最新的。因此,作者在每个T个训练步骤中重新计算文档嵌入并使用新的嵌入重建高效的搜索索引。然后使用新的文档嵌入和索引进行检索,并重复训练过程。

5. Training Setup

  训练时,首先在REPLUG中描述模型设置,然后在REPLUG LSR中描述训练检索器的程序。

5.1 REPLUG

  理论上,任何类型的检索器,无论是密集的还是稀疏的,都可以用于REPLUG。根据之前的工作,作者使用Contriever作为REPLUG的检索模型,因为它已经证明了强大的性能。

  Contriever是一个通过对比学习框架来预训练的信息检索模型。Unsupervised Dense Information Retrieval with Contrastive Learning

5.2 REPLUG LSR

  对于REPLUG LSR,作者使用Contriever模型初始化检索器,使用GPT-3 Curie作为监督LM来计算LM似然度。

5.2.1 Training data

  作者使用从Pile训练数据中采样800K条序列作为训练query,每条序列有256 tokens,每个query被分成两部分:前128 tokens用作输入上下文 x x x,后128 tokens用作真实值连续性 y y y。对于外部语料库 D \mathcal D D,从Pile训练数据中采样36M个文档,每个文档有128 tokens。为了避免繁琐的检索,确保外部语料库文档与训练查询的采样文档不重叠。

5.2.2 Training data

  为了使训练过程更高效,作者预先计算了外部语料库 D \mathcal D D 的文档嵌入,并创建FAISS索引用于快速相似性搜索。给定一个查询 x x x,从FAISS索引中检索前20个文档,并计算温度为0.1时的检索似然和LM似然。使用Adam优化器训练检索器,learning rate2e-5batch size64warmup ratio0.1。每3k steps重新计算文档嵌入,并对检索器进行微调,总共有25k steps

这篇关于REPLUG:检索增强的黑盒语言模型的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/865987

相关文章

python使用fastapi实现多语言国际化的操作指南

《python使用fastapi实现多语言国际化的操作指南》本文介绍了使用Python和FastAPI实现多语言国际化的操作指南,包括多语言架构技术栈、翻译管理、前端本地化、语言切换机制以及常见陷阱和... 目录多语言国际化实现指南项目多语言架构技术栈目录结构翻译工作流1. 翻译数据存储2. 翻译生成脚本

0基础租个硬件玩deepseek,蓝耘元生代智算云|本地部署DeepSeek R1模型的操作流程

《0基础租个硬件玩deepseek,蓝耘元生代智算云|本地部署DeepSeekR1模型的操作流程》DeepSeekR1模型凭借其强大的自然语言处理能力,在未来具有广阔的应用前景,有望在多个领域发... 目录0基础租个硬件玩deepseek,蓝耘元生代智算云|本地部署DeepSeek R1模型,3步搞定一个应

Deepseek R1模型本地化部署+API接口调用详细教程(释放AI生产力)

《DeepseekR1模型本地化部署+API接口调用详细教程(释放AI生产力)》本文介绍了本地部署DeepSeekR1模型和通过API调用将其集成到VSCode中的过程,作者详细步骤展示了如何下载和... 目录前言一、deepseek R1模型与chatGPT o1系列模型对比二、本地部署步骤1.安装oll

Spring AI Alibaba接入大模型时的依赖问题小结

《SpringAIAlibaba接入大模型时的依赖问题小结》文章介绍了如何在pom.xml文件中配置SpringAIAlibaba依赖,并提供了一个示例pom.xml文件,同时,建议将Maven仓... 目录(一)pom.XML文件:(二)application.yml配置文件(一)pom.xml文件:首

Go语言中三种容器类型的数据结构详解

《Go语言中三种容器类型的数据结构详解》在Go语言中,有三种主要的容器类型用于存储和操作集合数据:本文主要介绍三者的使用与区别,感兴趣的小伙伴可以跟随小编一起学习一下... 目录基本概念1. 数组(Array)2. 切片(Slice)3. 映射(Map)对比总结注意事项基本概念在 Go 语言中,有三种主要

C语言中自动与强制转换全解析

《C语言中自动与强制转换全解析》在编写C程序时,类型转换是确保数据正确性和一致性的关键环节,无论是隐式转换还是显式转换,都各有特点和应用场景,本文将详细探讨C语言中的类型转换机制,帮助您更好地理解并在... 目录类型转换的重要性自动类型转换(隐式转换)强制类型转换(显式转换)常见错误与注意事项总结与建议类型

如何在本地部署 DeepSeek Janus Pro 文生图大模型

《如何在本地部署DeepSeekJanusPro文生图大模型》DeepSeekJanusPro模型在本地成功部署,支持图片理解和文生图功能,通过Gradio界面进行交互,展示了其强大的多模态处... 目录什么是 Janus Pro1. 安装 conda2. 创建 python 虚拟环境3. 克隆 janus

Redis存储的列表分页和检索的实现方法

《Redis存储的列表分页和检索的实现方法》在Redis中,列表(List)是一种有序的数据结构,通常用于存储一系列元素,由于列表是有序的,可以通过索引来访问元素,因此可以很方便地实现分页和检索功能,... 目录一、Redis 列表的基本操作二、分页实现三、检索实现3.1 方法 1:客户端过滤3.2 方法

本地私有化部署DeepSeek模型的详细教程

《本地私有化部署DeepSeek模型的详细教程》DeepSeek模型是一种强大的语言模型,本地私有化部署可以让用户在自己的环境中安全、高效地使用该模型,避免数据传输到外部带来的安全风险,同时也能根据自... 目录一、引言二、环境准备(一)硬件要求(二)软件要求(三)创建虚拟环境三、安装依赖库四、获取 Dee

Go语言利用泛型封装常见的Map操作

《Go语言利用泛型封装常见的Map操作》Go语言在1.18版本中引入了泛型,这是Go语言发展的一个重要里程碑,它极大地增强了语言的表达能力和灵活性,本文将通过泛型实现封装常见的Map操作,感... 目录什么是泛型泛型解决了什么问题Go泛型基于泛型的常见Map操作代码合集总结什么是泛型泛型是一种编程范式,允