本文主要是介绍你知道大模型发展史吗?,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
文章目录
- 大语言模型和普通的语言模型有什么区别?
- 2.大模型分为几种分支?
- 2.1编码器模型
- 2.2 解码器模型
大语言模型和普通的语言模型有什么区别?
最本质的不同:就是涌现能力。
什么是涌现额能力?
1.上下文学习能力: In-Context Learnning,ICL,说白了是不需要训练,只需要指令(Instruction)或演示(demonstration)。
例子:给大模型的输入:请执行文本分类:{text},给大模型的输入:{text1}这个文本的类别是体育;{text2}这个文本的类别是政治;{text3}这个文本的类别是?
2.指令遵循/微调(Instruction tuning):给大模型的输入:请执行文本分类任务:{text1},再给大模型一个输入:请执行实体抽取任务{text2},测试一下大模型:请执行语义匹配任务{text3},{text4}。
3.逐步推理能力:小模型很难解决涉及多个推理步骤的复杂任务,尤其代码或者数学推理,大模型可以通过Chain-Of-Thought,COT,思维链。
2.大模型分为几种分支?
1.编码器模型 Encoder-only;
2.解码器模型 Decoder-only;
3.编码器解码器 Encoder-Decoder;
2.1编码器模型
最早起源于2019年BERT横空出世,全球首个重磅级模型,BERT诞生的前后脚GPT-1解码器模型(不是很好用),没人理会GPT-1, 全球开始紧随BERT的工作,提出了ALBERTa,RoBERTa, Electra, ERNIE(百度)等等,DeBERTa前几年的工作。
2.2 解码器模型
- GPT-1与BERT几乎同一时间诞生的,采用解码器模型策略,效果一般般。
- GPT-2把参数规模增加到了15亿,效果还不错。
- GPT-3把参数增加到了1570亿参数,首次提出了ICL这一概念,让模型能够以小样本或者零样本的方法使用LLM,GPT-3可以看作是从PLM到LLM的一个里程碑。
- Coddex:Open-AI在2021年7月推出的,在大量的GitHub代码上微调模型,使得模型具有逻辑推理能力(大模型首次具有思维链即逻辑推理能力)
- 与人类对齐:使用PPO,近端策略优化(Proximal Policy Optimal,PPO)在2017年7月发表的,基于这次额工作,提出了InstructGPT在2022年1月,正式建立了与人类对齐的训练算法。
- ChatGPT:水到渠成。
- GPT-4:2023年的3月发布了GPT-4是首个具有多模态能力的大模型。Gemini等多模态大模型如雨后春笋纷至沓来。
ChatGPT已经大一统所有NLP任务了:
文本分类
{text}。当前文本的分类是———— 文本分类→next token prediction
{text}。当前文本中包含的实体———— 信息抽取→next token prediction
{text1}和{text2}之间的关系为———— 语义匹配→next token predection
🔺得出两个结论:
- 没有一项idea是前无古人后无来者,鹤立鸡群,独树一帜的,站在前人工作的基础上想,不要一拍脑袋特立独行。
- 真正的伟大的科研工作并不是追随热点,真正的伟大的科研工作是定义热点。
这篇关于你知道大模型发展史吗?的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!