首页
Python
Java
前端
数据库
Linux
Chatgpt专题
开发者工具箱
bertpkd专题
12层的bert参数量_EMNLP 2019 | BERTPKD:一种基于PKD方法的BERT模型压缩
过去一年里,语言模型的研究有了许多突破性的进展,BERT、XLNet、RoBERTa等预训练语言模型作为特征提取器横扫各大NLP榜单。但这些模型的参数量也相当惊人,比如BERT-base有一亿零九百万参数,BERT-large的参数量则高达三亿三千万,从而导致模型的训练及推理速度过慢。本文提出了一种“耐心的知识蒸馏” (Patient Knowledge Distillation) 方法对模型
阅读更多...