本文主要是介绍How to Fine-Tune BERT for Text Classification 论文笔记,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
How to Fine-Tune BERT for Text Classification 论文笔记
论文地址:How to Fine-Tune BERT for Text Classification?
BERT在NLP任务中效果十分优秀,这篇文章对于BERT在文本分类的应用上做了非常丰富的实验,介绍了一些调参以及改进的经验,进一步挖掘BERT的潜力。
实验主要在8个被广泛研究的数据集上进行,在BERT-base模型上做了验证。
文章的主要结论如下:
1.微调(fin-tune)策略
- 对于长文本,尝试了(1)取头部510 tokens,(2)尾部510 tokens,(3)头部128 tokens+尾部382 tokens,(4)分片并进行最大池化、平均池化、attention,发现方法(3)最好。因为文章的关键信息一般在开头和结尾。
- 分层训练,上层对文本分类更加重要。
- 灾难性遗忘:在下游finetune可能会遗忘预训练的知识。需要设置较小的学习率,如2e-5.
- 分层衰减学习率(Layer-wise Decreasing Layer Rate),对下层设置更小的学习率可以得到更高的准确率,在lr=2e-
这篇关于How to Fine-Tune BERT for Text Classification 论文笔记的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!