【无监督+自然语言】GPT,GPT-2,GPT-3 方法概述 (Generative Pre-Traning)

2024-04-23 05:20

本文主要是介绍【无监督+自然语言】GPT,GPT-2,GPT-3 方法概述 (Generative Pre-Traning),希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

主要参考

【GPT,GPT-2,GPT-3 论文精读【李沐论文精读】-2022.03.04】 https://www.bilibili.com/video/BV1AF411b7xQ/
大语言模型综述: http://t.csdnimg.cn/4obR4
在这里插入图片描述

发展节点

2017.06 Transformer: 所有大语言模型LLMs的基础结构 , Attention is all you need !
2018.06 GPT: 只用Transformer解码器,只预测未来:Improving language understanding by Generative Pre-Traning
2018.10 BERT:对标GPT,编解码结构,完型填空
2019.02 GPT-2: 更大的数据集: Language Models are Unsupervised Multitast Learner
2020.05 GPT-3: 相对于GPT-2数据和模型都大了100倍 (极少数公司能做)
GPT-3:Language models are few-shot learners

一、GPT-1: 使用大量没有标记文本无监督训练 (Generative Pre-Traning )

论文:利用生成式预训练来提高自然语言理解
Improving language understanding by Generative Pre-Traning

二阶段训练模型:大量无标记文本 + 人工标注任务

通过在大规模无标签文本语料库上进行生成式预训练,并在每个特定任务上进行判别式微调,可以在多种自然语言理解任务上获得大幅度的提升

结构上,只用Transformer的编码器预测(预测未来)见下图左侧
损失函数上是与bert不同的
通过在大规模无标签文本语料库上进行生成式预训练,并在每个特定任务上进行判别式微调,可以在多种自然语言理解任务上获得大幅度的提升

结构与应用(预训练后,在有标注文本训练下流任务)

开始符号、结束符号、终止符
下图(左),表示Transformer架构和训练目标。
下图(右),表示 微调不同任务的输入转换示意。将所有结构化输入转换为由我们的预训练模型处理的标记序列,然后是线性+softmax 层。
其中,右侧绿色transformer块表示第一阶段得到的预训练模型
在这里插入图片描述

  • Extract” :指从模型的某个部分提取信息或特征的过程。模型会处理文本,提取和学习复杂的特征和模式。这个过程可以被视作是在“抽取”输入文本的语义和句法信息
  • Delim”则可能是“Delimiter”的缩写,指的是分隔符。在自然语言处理任务中,分隔符用于区分文本中的不同部分
    分隔符可以用来明确哪部分是前提(Premise),哪部分是假设(Hypothesis)。在处理输入数据时,模型会识别这些分隔符,以便正确地解析和处理各部分信息。

二、GPT-2: 语言模型是无监督的多任务学习器

论文:Language Models are Unsupervised Multitast Learner

参数15亿,Bert 1.3亿,参数相差大,但是性能差别不大, 主要创新点是zero-shot:
无监督训练后,不微调下游任务——没有任何参数或架构修改

输入更像自然语言
语言翻译:
(translate to french, english text, french text)
阅读理解
(answer the question, document, question, answer)

三、GPT-3 : 基于gpt-2,细节不明 (无监督训练,不需要参数更新就能学会各种任务)

20.05.Language models are few-shot learners

不用再进行模型参数更新,就能直接适应下游任务

零样本、少样本学习的关系

zero-shot:零样本:表示不训练,也不给示例,直接说一句功能(例如翻译英文到中文)
one-shot :一张范例:表示给出一个范例
few-show:给出多个范例
在这里插入图片描述

模型大小与少样本学习性能关系:少样本、零样本学习的准确率关系

实验表明:GPT3参数量扩大几百倍后,少量样本(few-shot)的学习,**准确率从20%左右到了50%**多

在这里插入图片描述

8个不同大小的模型

模型的大小、架构和学习超参数(令牌中的批量大小和学习率)。所有模型都训练了总共 300 亿个令牌。
在这里插入图片描述

用的数据集

在这里插入图片描述

附录

作者信息

GPT-1

在这里插入图片描述

GPT-2

在这里插入图片描述

GPT-3

在这里插入图片描述

这篇关于【无监督+自然语言】GPT,GPT-2,GPT-3 方法概述 (Generative Pre-Traning)的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/927888

相关文章

Java中的String.valueOf()和toString()方法区别小结

《Java中的String.valueOf()和toString()方法区别小结》字符串操作是开发者日常编程任务中不可或缺的一部分,转换为字符串是一种常见需求,其中最常见的就是String.value... 目录String.valueOf()方法方法定义方法实现使用示例使用场景toString()方法方法

Java中List的contains()方法的使用小结

《Java中List的contains()方法的使用小结》List的contains()方法用于检查列表中是否包含指定的元素,借助equals()方法进行判断,下面就来介绍Java中List的c... 目录详细展开1. 方法签名2. 工作原理3. 使用示例4. 注意事项总结结论:List 的 contain

macOS无效Launchpad图标轻松删除的4 种实用方法

《macOS无效Launchpad图标轻松删除的4种实用方法》mac中不在appstore上下载的应用经常在删除后它的图标还残留在launchpad中,并且长按图标也不会出现删除符号,下面解决这个问... 在 MACOS 上,Launchpad(也就是「启动台」)是一个便捷的 App 启动工具。但有时候,应

SpringBoot日志配置SLF4J和Logback的方法实现

《SpringBoot日志配置SLF4J和Logback的方法实现》日志记录是不可或缺的一部分,本文主要介绍了SpringBoot日志配置SLF4J和Logback的方法实现,文中通过示例代码介绍的非... 目录一、前言二、案例一:初识日志三、案例二:使用Lombok输出日志四、案例三:配置Logback一

Python实现无痛修改第三方库源码的方法详解

《Python实现无痛修改第三方库源码的方法详解》很多时候,我们下载的第三方库是不会有需求不满足的情况,但也有极少的情况,第三方库没有兼顾到需求,本文将介绍几个修改源码的操作,大家可以根据需求进行选择... 目录需求不符合模拟示例 1. 修改源文件2. 继承修改3. 猴子补丁4. 追踪局部变量需求不符合很

mysql出现ERROR 2003 (HY000): Can‘t connect to MySQL server on ‘localhost‘ (10061)的解决方法

《mysql出现ERROR2003(HY000):Can‘tconnecttoMySQLserveron‘localhost‘(10061)的解决方法》本文主要介绍了mysql出现... 目录前言:第一步:第二步:第三步:总结:前言:当你想通过命令窗口想打开mysql时候发现提http://www.cpp

Mysql删除几亿条数据表中的部分数据的方法实现

《Mysql删除几亿条数据表中的部分数据的方法实现》在MySQL中删除一个大表中的数据时,需要特别注意操作的性能和对系统的影响,本文主要介绍了Mysql删除几亿条数据表中的部分数据的方法实现,具有一定... 目录1、需求2、方案1. 使用 DELETE 语句分批删除2. 使用 INPLACE ALTER T

MySQL INSERT语句实现当记录不存在时插入的几种方法

《MySQLINSERT语句实现当记录不存在时插入的几种方法》MySQL的INSERT语句是用于向数据库表中插入新记录的关键命令,下面:本文主要介绍MySQLINSERT语句实现当记录不存在时... 目录使用 INSERT IGNORE使用 ON DUPLICATE KEY UPDATE使用 REPLACE

CentOS 7部署主域名服务器 DNS的方法

《CentOS7部署主域名服务器DNS的方法》文章详细介绍了在CentOS7上部署主域名服务器DNS的步骤,包括安装BIND服务、配置DNS服务、添加域名区域、创建区域文件、配置反向解析、检查配置... 目录1. 安装 BIND 服务和工具2.  配置 BIND 服务3 . 添加你的域名区域配置4.创建区域

mss32.dll文件丢失怎么办? 电脑提示mss32.dll丢失的多种修复方法

《mss32.dll文件丢失怎么办?电脑提示mss32.dll丢失的多种修复方法》最近,很多电脑用户可能遇到了mss32.dll文件丢失的问题,导致一些应用程序无法正常启动,那么,如何修复这个问题呢... 在电脑常年累月的使用过程中,偶尔会遇到一些问题令人头疼。像是某个程序尝试运行时,系统突然弹出一个错误提