你知道大模型发展史吗？

2024-06-13 21:12

文章标签 模型知道发展史

本文主要是介绍你知道大模型发展史吗？，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

文章目录

大语言模型和普通的语言模型有什么区别？
2.大模型分为几种分支？
- 2.1编码器模型
- 2.2 解码器模型

大语言模型和普通的语言模型有什么区别？

最本质的不同：就是涌现能力。

什么是涌现额能力？

1.上下文学习能力： In-Context Learnning,ICL,说白了是不需要训练，只需要指令（Instruction）或演示（demonstration）。

例子：给大模型的输入：请执行文本分类：{text}，给大模型的输入：{text1}这个文本的类别是体育；{text2}这个文本的类别是政治；{text3}这个文本的类别是？

2.指令遵循/微调（Instruction tuning）:给大模型的输入：请执行文本分类任务：{text1}，再给大模型一个输入：请执行实体抽取任务{text2}，测试一下大模型：请执行语义匹配任务{text3}，{text4}。

3.逐步推理能力：小模型很难解决涉及多个推理步骤的复杂任务，尤其代码或者数学推理，大模型可以通过Chain-Of-Thought，COT,思维链。

2.大模型分为几种分支？

1.编码器模型 Encoder-only；
2.解码器模型 Decoder-only；
3.编码器解码器 Encoder-Decoder;

2.1编码器模型

最早起源于2019年BERT横空出世，全球首个重磅级模型，BERT诞生的前后脚GPT-1解码器模型（不是很好用）,没人理会GPT-1, 全球开始紧随BERT的工作，提出了ALBERTa，RoBERTa， Electra, ERNIE(百度)等等，DeBERTa前几年的工作。

2.2 解码器模型

GPT-1与BERT几乎同一时间诞生的，采用解码器模型策略，效果一般般。
GPT-2把参数规模增加到了15亿，效果还不错。
GPT-3把参数增加到了1570亿参数，首次提出了ICL这一概念，让模型能够以小样本或者零样本的方法使用LLM,GPT-3可以看作是从PLM到LLM的一个里程碑。
Coddex：Open-AI在2021年7月推出的，在大量的GitHub代码上微调模型，使得模型具有逻辑推理能力（大模型首次具有思维链即逻辑推理能力）
与人类对齐：使用PPO，近端策略优化（Proximal Policy Optimal,PPO）在2017年7月发表的，基于这次额工作，提出了InstructGPT在2022年1月，正式建立了与人类对齐的训练算法。
ChatGPT：水到渠成。
GPT-4：2023年的3月发布了GPT-4是首个具有多模态能力的大模型。Gemini等多模态大模型如雨后春笋纷至沓来。

ChatGPT已经大一统所有NLP任务了：
文本分类
{text}。当前文本的分类是———— 文本分类→next token prediction
{text}。当前文本中包含的实体———— 信息抽取→next token prediction
{text1}和{text2}之间的关系为———— 语义匹配→next token predection

🔺得出两个结论：