本文主要是介绍bert之衍生模型简介,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
模型 | 特点 | 发布时间 |
---|---|---|
ERNIE(baidu) | (1)mask字改为mask词 (2)使用很多知识类的中文语料进行预训练 | 2019.3 |
XL-Net | (1)采用AR模型替代AE模型,解决mask带来的负面影响 (2)引入transformer-xl,提高微调长文本任务的性能 | 2019.6 |
RoBERTa | (1)静态Mask变动态Mask (2)移去NSP任务 (3)更大的mini-batch (4)更多的训练数据,更长的训练时间 | 2019.7 |
BERT-WWM | (1) 具体做法是,针对中文,如果一个完整的词的部分字被mask,则同属该词的其他部分也会被mask,即对组成同一个词的汉字全部进行Mask,即为全词Mask。 | 2019.7 |
ALBERT | (1)对Embedding进行因式分解 (2)跨层的参数共享 (3)移去NSP任务,使用SOP任务 (4)移除dropout | 2019.9 |
TinyBERT | 蒸馏 | 2019.9 |
DistillBERT | (1)减小编码器层数 (2)去掉了token type embedding和pooler (3)利用teacher model的soft target和teacher model的隐层参数来训练student mdoel | 2019.10 |
ELECTRA | (1)把生成式的Masked language model(MLM)预训练任务改成了判别式的Replaced token detection(RTD)任务,判断当前token是否被语言模型替换过 训练策略,在优化判别器时计算了所有token上的loss,而BERT的MLM loss时会忽略没被mask的token。 | 2019.11 |
这篇关于bert之衍生模型简介的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!