【无监督+自然语言】GPT，GPT-2，GPT-3 方法概述（Generative Pre-Traning）

本文主要是介绍【无监督+自然语言】GPT，GPT-2，GPT-3 方法概述（Generative Pre-Traning），希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

主要参考

【GPT，GPT-2，GPT-3 论文精读【李沐论文精读】-2022.03.04】 https://www.bilibili.com/video/BV1AF411b7xQ/
大语言模型综述： http://t.csdnimg.cn/4obR4
在这里插入图片描述

发展节点

2017.06 Transformer: 所有大语言模型LLMs的基础结构 , Attention is all you need !
2018.06 GPT: 只用Transformer解码器,只预测未来：Improving language understanding by Generative Pre-Traning
2018.10 BERT：对标GPT，编解码结构，完型填空
2019.02 GPT-2: 更大的数据集： Language Models are Unsupervised Multitast Learner
2020.05 GPT-3: 相对于GPT-2数据和模型都大了100倍（极少数公司能做）
GPT-3:Language models are few-shot learners

一、GPT-1: 使用大量没有标记文本无监督训练（Generative Pre-Traning ）

论文：利用生成式预训练来提高自然语言理解
Improving language understanding by Generative Pre-Traning

二阶段训练模型：大量无标记文本 + 人工标注任务

通过在大规模无标签文本语料库上进行生成式预训练，并在每个特定任务上进行判别式微调，可以在多种自然语言理解任务上获得大幅度的提升

结构上，只用Transformer的编码器预测（预测未来）见下图左侧
损失函数上是与bert不同的
通过在大规模无标签文本语料库上进行生成式预训练，并在每个特定任务上进行判别式微调，可以在多种自然语言理解任务上获得大幅度的提升

结构与应用（预训练后，在有标注文本训练下流任务）

开始符号、结束符号、终止符
下图（左），表示Transformer架构和训练目标。
下图(右)，表示微调不同任务的输入转换示意。将所有结构化输入转换为由我们的预训练模型处理的标记序列，然后是线性+softmax 层。
其中，右侧绿色transformer块表示第一阶段得到的预训练模型
在这里插入图片描述

“Extract” ：指从模型的某个部分提取信息或特征的过程。模型会处理文本，提取和学习复杂的特征和模式。这个过程可以被视作是在“抽取”输入文本的语义和句法信息
Delim”则可能是“Delimiter”的缩写，指的是分隔符。在自然语言处理任务中，分隔符用于区分文本中的不同部分
分隔符可以用来明确哪部分是前提（Premise），哪部分是假设（Hypothesis）。在处理输入数据时，模型会识别这些分隔符，以便正确地解析和处理各部分信息。