OpenAI: InstructGPT的简介

本文主要是介绍OpenAI: InstructGPT的简介，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

OpenAI: InstructGPT

paper: 2022.3 Training Language Model to follow instructions with human feedback

Model: (1.3B, 6B, 175B) GPT3

一言以蔽之：你们还在刷Benchamrk?我们已经换玩法了！更好的AI才是目标

这里把InstructGPT拆成两个部分，本章只说指令微调的部分，也就是训练三部曲中的第一步，论文中叫SFT(Supervised fine-tuning)。从论文的数据构建和评估中，不难发现OpenAI对于什么是一个更好的模型的定义和大家出现了差异，当谷歌，BigScience联盟还在各种不同的标准任务上评估LM模型能力提升时，OpenAI的重点已经变成了更好的AI，也就是能更好帮助人类解决问题的人工智能。简化成3H原则就是

Helpful：模型能帮助用户解决问题
Honest: 模型能输出真实信息
Harmless：模型输出不能以任何形式伤害人类

于是正文部分的评估基本没有常见的Accuracy，F1等,而是变成了各种人工评估的打分，例如LikeScore，Hallucinations等等。指令微调数据集的分布也从标准NLP任务向用户在playground中提交的问题偏移。下面我们细说下这两部分

指令集

先说下SFT指令集的构建，InstructGPT构建了训练12725+验证1653条prompt指令，由标注员的标注样本和用户在playground中和模型交互的指令共同构成，相比T0指令的多样性又有大幅提升。不过以下的指令数量包括了few-shot采样，也就是1个instruction采样不同的few-shot算多条指令。

除了丰富程度，和T0以及Flan指令集最大的差异在于指令类型的分布。 标注人员标注了以下三类样本

Plain: 标注同学自由构建任务指令
Few-shot：自由构建任务的同时给出few-shot样例
User-Based: 基于用户申请waitlist时给出的使用用途，让标注同学构建对应的指令任务

整体上会更偏向于用户在真实场景下和模型交互可能提问的问题，自由式生成例如脑暴，改写，聊天，自由创作类的任务占了绝大多数。 而T0，Flan的指令集集中在NLP的分类和QA任务，这类任务的在实际交互中占比其实很小。下图是OpenAI play ground中收集的用户指令的分布

以及从论文的表述中存在迭代，也就是标注同学标注的指令集用于训练第一版InstructGPT，然后发布到playground，收集更多的用户和模型交互的指令，再使用用户指令来训练后续的模型。因此在用户导向的数据集上OpenAI相比所有竞争对手都有更深厚的积累，你以为在白嫖人家的playground？人家也在收集数据提升他们的模型。

SFT使用cosine rate decay 例如微调了16个epoch，但是发现在第一个epoch上验证集就已经过拟合了，但是过拟合会提升后续RLHF的模型效果。这部分我们放到RLHF章节再讨论，也就是什么样的模型更合适作为RLHF的起点