BERT-文本分类NER

2024-01-25 16:20

文章标签 分类文本 ner bert

本文主要是介绍BERT-文本分类NER，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

BERT文本分类

训练样本

训练数据：18W条

评估数据：1W条

测试数据：1W条

体验2D巅峰 倚天屠龙记十大创新概览	8
60年铁树开花形状似玉米芯(组图)	5
同步A股首秀：港股缩量回调	2
中青宝sg现场抓拍 兔子舞热辣表演	8
锌价难续去年辉煌	0
2岁男童爬窗台不慎7楼坠下获救(图)	5
布拉特：放球员一条生路吧 FIFA能消化俱乐部的攻击	7
金科西府 名墅天成	1
状元心经：考前一周重点是回顾和整理	3

训练代码

https://github.com/HeiBoWang/Pytorch-NLP/tree/master → 02-Bert 文本分类 → main.py

dev f1:0.9664522058823529, precision:0.9580865603644647，recall:0.9749652294853964
test f1:0.9651982378854626, precision:0.9618086040386303，recall:0.9686118479221928

预测代码以及结果

https://github.com/HeiBoWang/Pytorch-NLP/tree/master → 02-Bert 文本分类 → predict.py

模型预测结果：
文本：我们一起去打篮球吧！	预测的类别为：game
文本：我喜欢踢足球！	预测的类别为：game
文本：沈腾和马丽的新电影《独行月球》很好看	预测的类别为：entertainment
文本：昨天玩游戏，完了一整天	预测的类别为：game
文本：现在的高考都已经开始分科考试了。	预测的类别为：education
文本：中方：佩洛西如赴台将致严重后果	预测的类别为：politics
文本：现在的股票基金趋势很不好	预测的类别为：finance
耗时为：2.3200602531433105 s

评价指标

dev acc:0.9305
最佳模型Loss
Train_Loss:0.1319

BERT命名实体识别

训练样本

训练数据：127919条

评估数据：14352条

测试数据：15576条

吴 B-NAME
重 I-NAME
阳 E-NAME
， O
中 B-CONT
国 I-CONT
国 I-CONT
籍 E-CONT
， O
大 B-EDU
学 I-EDU
本 I-EDU
科 E-EDU
， O
教 B-TITLE
授 I-TITLE
级 I-TITLE
高 I-TITLE
工 E-TITLE
， O
享 O
受 O
国 O
务 O
院 O
特 O
殊 O
津 O
贴 O
， O
历 O
任 O
邮 B-ORG
电 I-ORG
部 I-ORG
侯 I-ORG
马 I-ORG
电 I-ORG
缆 I-ORG
厂 E-ORG
仪 B-TITLE
表 I-TITLE
试 I-TITLE
制 I-TITLE
组 I-TITLE
长 E-TITLE
、 O
光 B-TITLE
缆 I-TITLE
分 I-TITLE
厂 I-TITLE
副 I-TITLE
厂 I-TITLE
长 E-TITLE
、 O
研 B-TITLE
究 I-TITLE
所 I-TITLE
副 I-TITLE
所 I-TITLE
长 E-TITLE
， O
获 O
得 O
过 O
山 O
西 O
省 O
科 O
技 O
先 O
进 O
工 O
作 O
者 O

训练代码&评价指标

https://github.com/HeiBoWang/Pytorch-NLP/tree/master → 07-Bert 实体识别 → main.py

dev f1:0.9664522058823529, precision:0.9580865603644647，recall:0.9749652294853964
test f1:0.9651982378854626, precision:0.9618086040386303，recall:0.9686118479221928
运行时间：3.3876 min

预测代码以及结果

https://github.com/HeiBoWang/Pytorch-NLP/tree/master → 07-Bert 实体识别 → predict.py

模型预测结果：
文本：李某某，男，2012年4月出生，本科学历，工科学士，毕业于电子科技大学。       
预测的类别为：['S-ORG', 'I-NAME', 'UNK', 'E-NAME', 'O', 'I-NAME', 'E-EDU', 'I-ORG', 'I-NAME', 'I-ORG', 'I-NAME', 'S-ORG', 'S-ORG', 'I-EDU', 'E-EDU', 'I-ORG', 'E-LOC', 'S-ORG', 'S-ORG', 'B-NAME', 'I-NAME', 'B-PRO', 'B-PRO', 'E-NAME', 'UNK', 'UNK', 'B-NAME', 'E-LOC', 'B-NAME', 'S-ORG']
耗时为：6.1840057373046875 s

这篇关于BERT-文本分类NER的文章就介绍到这儿，希望我们推荐的文章对编程师们有所帮助！