《Training language models to follow instructions》论文解读--训练语言模型遵循人类反馈的指令

本文主要是介绍《Training language models to follow instructions》论文解读--训练语言模型遵循人类反馈的指令，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

1摘要

使语言模型更大并不能使它们更好地遵循用户的意图。例如，大型语言模型可能生成不真实的、有害的或对用户没有帮助的输出。换句话说，这些模型与它们的用户并不一致。在本文中，我们展示了一种方法，通过对人类反馈进行微调（核心idea），在广泛的任务中使语言模型与用户意图保持一致。从一组标注器编写的提示和通过OpenAI API提交的提示开始，我们收集了一个标注器演示所需模型行为的数据集，我们使用它来使用监督学习对GPT-3进行微调（步骤一）。然后我们收集模型输出排名的数据集，我们使用从人类反馈中使用强化学习来进一步微调（步骤二）这个监督模型。我们将生成的模型称为InstructGPT（名称）。在我们的提示分布的人工评估中，尽管参数少了100倍，但来自13 b参数的InstructGPT模型的输出比来自175B参数的GPT-3的输出更受欢迎。此外，在公共NLP数据集上，InstructGPT模型显示出真实性的提高和有毒输出的减少，同时具有最小的性能回归。尽管InstructGPT仍然会犯一些简单的错误，但我们的结果表明，根据人类反馈进行微调是使语言模型与人类意图保持一致的一个有希望的方向（更小更安全）。

2介绍

大型语言模型(LMs)可以被“提示”执行一系列自然语言处理(NLP)任务，给出一些任务示例作为输入。然而，这些模型经常表达意想不到的行为，如编造事实，产生有偏见或有毒的文本，或根本不遵循用户指示(Bender等人，2021;Bommasani et al.， 2021;Kenton et al.， 2021;Weidinger et al.， 2021;Tamkin et al.， 2021;Gehman et al.， 2020)。这是因为最近许多大型机器学习使用的语言建模目标——预测互联网网页上的下一个令牌——不同于“有效且安全地遵循用户的指示”的目标(Radford等人，2019;Brown et al.， 2020;Fedus等人，2021;Rae et al.， 2021;Thoppilan et al.， 2022)。因此，我们说语言建模目标是不一致的。避免这些意想不到的行为对于在数百个应用程序中部署和使用的语言模型尤其重要。我们通过训练语言模型按照用户的意图行事，在对齐语言模型方面取得了进展(Leike et al.， 2018)。这既包括明确的意图，如遵循指示，也包括隐含的意图，如保持诚实，不偏见，不有毒，或其他有害的。使用Askell等人(2021)的语言，我们希望语言模型是有用的(他们应该帮助用户解决他们的任务)，诚实的(他们不应该捏造信息或误导用户)，无害的(他们不应该对人或环境造成身体、心理或社会伤害)。我们将在第3.6节详细说明这些标准的评估。

我们专注于调整语言模型的微调方法。具体来说，我们使用来自人类反馈的强化学习(RLHF;Christiano et al.， 2017;Stiennon et al.， 2020)微调GPT-3以遵循广泛的书面指令(见图2)。该技术使用人类偏好作为奖励信号来微调我们的模型。我们首先雇佣了一个由40名承包商组成的团队，根据他们在筛选测试中的表现来标记我们的数据(详见第3.4节和附录B.1)。然后，我们收集提交给OpenAI API 3的提示(主要是英语)和一些标注器编写的提示的期望输出行为的人工编写演示数据集，并使用它来训练我们的监督学习基线。接下来，我们在一组更大的API提示符上收集模型输出之间的人工标记比较数据集。然后，我们在这个数据集上训练一个奖励模型(RM)来预测我们的标注器更喜欢哪个模型输出。最后，我们使用该RM作为奖励函数，并使用PPO算法微调我们的监督学习基线以最大化该奖励(Schulman et al.， 2017)。我们在图2中说明了这个过程。这一过程将GPT-3的行为与特定人群(主要是我们的标注者和研究人员)的既定偏好相一致，而不是与任何更广泛的“人类价值观”概念相一致;我们将在5.2节进一步讨论这一点。我们将生成的模型称为InstructGPT。我们主要通过让我们的标签器对我们的测试集上的模型输出的质量进行评价来评估我们的模型，测试集由来自闲置客户(未在训练数据中表示的客户)的提示组成。我们还对一系列公共NLP数据集进行自动评估。我们训练了三种模型尺寸(1.3B、6B和175B参数)，我们所有的模型都使用GPT-3架构。我们的主要发现如下: 与GPT-3的输出相比，标注者明显更喜欢InstructGPT的输出。在我们的测试集中，尽管参数少了100倍以上，但来自13 b参数的InstructGPT模型的输出比来自175B的GPT-3的输出更受欢迎。这些模型具有相同的体系结构，不同之处在于InstructGPT对我们的人类数据进行了微调。即使我们在GPT-3中添加几次提示以使其更好地遵循指示，这个结果仍然成立。我们的175B InstructGPT输出在85±3%的时间内优于175B GPT-3输出，在71±4%的时间内优于少量的175B GPT-3输出。InstructGPT模型还根据我们的标注器生成更合适的输出，并且更可靠地遵循指令中的显式约束。与GPT-3相比，InstructGPT模型的真实性有所提高。在TruthfulQA基准测试中，InstructGPT生成真实且信息丰富的答案的频率是GPT-3的两倍。我们的结果在没有针对GPT-3对抗性选择的问题子集上同样强大。在我们的API提示分布中的“闭域”任务中，输出不应该包含输入中不存在的信息(例如摘要和闭域QA)， InstructGPT模型弥补输入中不存在的信息的频率约为GPT-3的一半(分别为21%和41%的幻觉率)。与GPT-3相比，InstructGPT在毒性方面略有改善，但没有偏倚。为了测量毒性，我们使用RealToxicityPrompts数据集(Gehman等人，2020)并进行自动和人工评估。当提示尊重时，InstructGPT模型产生的有毒输出比GPT-3少25%。在Winogender (Rudinger et al.， 2018)和CrowSPairs (Nangia et al.， 2020)数据集上，InstructGPT与GPT-3相比没有显著改善。我们可以通过修改我们的RLHF微调过程来最小化公共NLP数据集上的性能回归。在RLHF微调期间，我们观察到与GPT-3相比，在某些公共NLP数据集上的性能回归，特别是SQuAD (Rajpurkar等人，2018)、DROP (Dua等人，2019)、HellaSwag (Zellers等人，2019)和WMT 2015法语到英语的翻译(Bojar等人，2015)。这是一个“对齐税”的例子，因为我们的对齐过程是以我们可能关心的某些任务的较低性能为代价的。我们可以通过混合PPO更新和增加预训练分布(PPO-ptx)的日志似然的更新来大大减少这些数据集上的性能回归，而不会影响标签器偏好得分。我们的模型推广到没有产生任何训练数据的“搁置”标注者的偏好。为了测试我们模型的泛化，我们对伸出的标记器进行了初步实验，发现它们更喜欢InstructGPT输出而不是GPT-3输出，其速率与我们的训练标记器大致相同。然而，需要做更多的工作来研究这些模型在更广泛的用户群体上的表现，以及它们在人类不同意期望行为的输入上的表现。

公共NLP数据集不能反映我们的语言模型是如何被使用的。我们比较了在人类偏好数据(即InstructGPT)上进行微调的GPT-3与在两种不同的公共NLP任务汇编上进行微调的GPT-3: FL

这篇关于《Training language models to follow instructions》论文解读--训练语言模型遵循人类反馈的指令的文章就介绍到这儿，希望我们推荐的文章对编程师们有所帮助！