cheaper专题

第13章:DistilBERT:smaller, faster, cheaper and lighter的轻量级BERT架构剖析及完整源码实现

1,基于pretraining阶段的Knowledge distillation 2,Distillation loss数学原理详解 3,综合使用MLM loss、distillation loss、cosine embedding loss 4,BERT Student architecture解析及工程实践 5,抛弃了BERT的token_type_ids的DistilBERT 6,