本文主要是介绍GPT2详解,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
GPT-2详解
GPT-2依然沿用GPT单向transformer的模式,只不过做了一些改进与改变。那GPT-2相对于GPT有哪些不同呢?看看下面几方面:
-
GPT-2去掉了fine-tuning训练
:只有无监督的pre-training
阶段,不再针对不同任务分别进行微调建模,而是不定义这个模型应该做什么任务,模型会自动识别出来需要做什么任务。这就好比一个人博览群书,你问他什么类型的问题,他都可以顺手拈来,GPT-2就是这样一个博览群书的模型。 -
增加数据集
:既然要博览群书,当然得先有书,所以GPT-2收集了更加广泛、数量更多的语料组成数据集。该数据集包含800万个网页,大小为40G。当然这些数据集是过滤后得到的高质量文本,这样效果才能更好的哦~ -
增加网络参数
:GPT-2将Transformer堆叠的层数增加到48层,隐层的维度为1600,参数量更是达到了15亿。15亿什么概念呢,Bert的参数量也才只有3亿哦当然,这样的参数量也不是说谁都能达到的,这也得取决于money的多少啊 -
调整transformer
:将layer normalization放到每个sub-block之前,并在最后一个Self-attention后再增加一个layer normalization。论文中这块感觉说的模棱两可,如果给个图就好了。不过可以通过代码了解这一细节,下图是我理解如何加layer normalization的示意图,给大家做个参考~~~
G P T 2 示 意 图 \begin{aligned} \textcolor{white}{GPT 2\space示意图} \end{aligned} GPT2 示意图
G P T 示 意 图 \begin{aligned} \textcolor{white}{GPT \space示意图} \end{aligned} GPT 示意图 -
其他:GPT-2将词汇表数量增加到50257个;最大的上下文大小 (context size) 从GPT的512提升到了1024 tokens;batchsize增加到512。
这篇关于GPT2详解的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!