BERT-文本分类NER

2024-01-25 16:20
文章标签 分类 文本 ner bert

本文主要是介绍BERT-文本分类NER,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

BERT文本分类

训练样本

训练数据:18W条

评估数据:1W条

测试数据:1W条

体验2D巅峰 倚天屠龙记十大创新概览	8
60年铁树开花形状似玉米芯(组图)	5
同步A股首秀:港股缩量回调	2
中青宝sg现场抓拍 兔子舞热辣表演	8
锌价难续去年辉煌	0
2岁男童爬窗台不慎7楼坠下获救(图)	5
布拉特:放球员一条生路吧 FIFA能消化俱乐部的攻击	7
金科西府 名墅天成	1
状元心经:考前一周重点是回顾和整理	3

训练代码

https://github.com/HeiBoWang/Pytorch-NLP/tree/master   →  02-Bert 文本分类  →  main.py

dev f1:0.9664522058823529, precision:0.9580865603644647,recall:0.9749652294853964
test f1:0.9651982378854626, precision:0.9618086040386303,recall:0.9686118479221928

预测代码以及结果

https://github.com/HeiBoWang/Pytorch-NLP/tree/master   →  02-Bert 文本分类  →  predict.py

模型预测结果:
文本:我们一起去打篮球吧!	预测的类别为:game
文本:我喜欢踢足球!	预测的类别为:game
文本:沈腾和马丽的新电影《独行月球》很好看	预测的类别为:entertainment
文本:昨天玩游戏,完了一整天	预测的类别为:game
文本:现在的高考都已经开始分科考试了。	预测的类别为:education
文本:中方:佩洛西如赴台将致严重后果	预测的类别为:politics
文本:现在的股票基金趋势很不好	预测的类别为:finance
耗时为:2.3200602531433105 s

评价指标

dev acc:0.9305
最佳模型Loss
Train_Loss:0.1319

BERT命名实体识别

训练样本

训练数据:127919条

评估数据:14352条

测试数据:15576条

吴 B-NAME
重 I-NAME
阳 E-NAME
, O
中 B-CONT
国 I-CONT
国 I-CONT
籍 E-CONT
, O
大 B-EDU
学 I-EDU
本 I-EDU
科 E-EDU
, O
教 B-TITLE
授 I-TITLE
级 I-TITLE
高 I-TITLE
工 E-TITLE
, O
享 O
受 O
国 O
务 O
院 O
特 O
殊 O
津 O
贴 O
, O
历 O
任 O
邮 B-ORG
电 I-ORG
部 I-ORG
侯 I-ORG
马 I-ORG
电 I-ORG
缆 I-ORG
厂 E-ORG
仪 B-TITLE
表 I-TITLE
试 I-TITLE
制 I-TITLE
组 I-TITLE
长 E-TITLE
、 O
光 B-TITLE
缆 I-TITLE
分 I-TITLE
厂 I-TITLE
副 I-TITLE
厂 I-TITLE
长 E-TITLE
、 O
研 B-TITLE
究 I-TITLE
所 I-TITLE
副 I-TITLE
所 I-TITLE
长 E-TITLE
, O
获 O
得 O
过 O
山 O
西 O
省 O
科 O
技 O
先 O
进 O
工 O
作 O
者 O

训练代码&评价指标

https://github.com/HeiBoWang/Pytorch-NLP/tree/master   → 07-Bert 实体识别  →  main.py

dev f1:0.9664522058823529, precision:0.9580865603644647,recall:0.9749652294853964
test f1:0.9651982378854626, precision:0.9618086040386303,recall:0.9686118479221928
运行时间:3.3876 min

预测代码以及结果

https://github.com/HeiBoWang/Pytorch-NLP/tree/master   →  07-Bert 实体识别  →  predict.py

模型预测结果:
文本:李某某,男,2012年4月出生,本科学历,工科学士,毕业于电子科技大学。       
预测的类别为:['S-ORG', 'I-NAME', 'UNK', 'E-NAME', 'O', 'I-NAME', 'E-EDU', 'I-ORG', 'I-NAME', 'I-ORG', 'I-NAME', 'S-ORG', 'S-ORG', 'I-EDU', 'E-EDU', 'I-ORG', 'E-LOC', 'S-ORG', 'S-ORG', 'B-NAME', 'I-NAME', 'B-PRO', 'B-PRO', 'E-NAME', 'UNK', 'UNK', 'B-NAME', 'E-LOC', 'B-NAME', 'S-ORG']
耗时为:6.1840057373046875 s

这篇关于BERT-文本分类NER的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/643844

相关文章

C#使用DeepSeek API实现自然语言处理,文本分类和情感分析

《C#使用DeepSeekAPI实现自然语言处理,文本分类和情感分析》在C#中使用DeepSeekAPI可以实现多种功能,例如自然语言处理、文本分类、情感分析等,本文主要为大家介绍了具体实现步骤,... 目录准备工作文本生成文本分类问答系统代码生成翻译功能文本摘要文本校对图像描述生成总结在C#中使用Deep

通过C#获取PDF中指定文本或所有文本的字体信息

《通过C#获取PDF中指定文本或所有文本的字体信息》在设计和出版行业中,字体的选择和使用对最终作品的质量有着重要影响,然而,有时我们可能会遇到包含未知字体的PDF文件,这使得我们无法准确地复制或修改文... 目录引言C# 获取PDF中指定文本的字体信息C# 获取PDF文档中用到的所有字体信息引言在设计和出

Java操作xls替换文本或图片的功能实现

《Java操作xls替换文本或图片的功能实现》这篇文章主要给大家介绍了关于Java操作xls替换文本或图片功能实现的相关资料,文中通过示例代码讲解了文件上传、文件处理和Excel文件生成,需要的朋友可... 目录准备xls模板文件:template.xls准备需要替换的图片和数据功能实现包声明与导入类声明与

python解析HTML并提取span标签中的文本

《python解析HTML并提取span标签中的文本》在网页开发和数据抓取过程中,我们经常需要从HTML页面中提取信息,尤其是span元素中的文本,span标签是一个行内元素,通常用于包装一小段文本或... 目录一、安装相关依赖二、html 页面结构三、使用 BeautifulSoup javascript

基于人工智能的图像分类系统

目录 引言项目背景环境准备 硬件要求软件安装与配置系统设计 系统架构关键技术代码示例 数据预处理模型训练模型预测应用场景结论 1. 引言 图像分类是计算机视觉中的一个重要任务,目标是自动识别图像中的对象类别。通过卷积神经网络(CNN)等深度学习技术,我们可以构建高效的图像分类系统,广泛应用于自动驾驶、医疗影像诊断、监控分析等领域。本文将介绍如何构建一个基于人工智能的图像分类系统,包括环境

认识、理解、分类——acm之搜索

普通搜索方法有两种:1、广度优先搜索;2、深度优先搜索; 更多搜索方法: 3、双向广度优先搜索; 4、启发式搜索(包括A*算法等); 搜索通常会用到的知识点:状态压缩(位压缩,利用hash思想压缩)。

BERT 论文逐段精读【论文精读】

BERT: 近 3 年 NLP 最火 CV: 大数据集上的训练好的 NN 模型,提升 CV 任务的性能 —— ImageNet 的 CNN 模型 NLP: BERT 简化了 NLP 任务的训练,提升了 NLP 任务的性能 BERT 如何站在巨人的肩膀上的?使用了哪些 NLP 已有的技术和思想?哪些是 BERT 的创新? 1标题 + 作者 BERT: Pre-trainin

8. 自然语言处理中的深度学习:从词向量到BERT

引言 深度学习在自然语言处理(NLP)领域的应用极大地推动了语言理解和生成技术的发展。通过从词向量到预训练模型(如BERT)的演进,NLP技术在机器翻译、情感分析、问答系统等任务中取得了显著成果。本篇博文将探讨深度学习在NLP中的核心技术,包括词向量、序列模型(如RNN、LSTM),以及BERT等预训练模型的崛起及其实际应用。 1. 词向量的生成与应用 词向量(Word Embedding)

Level3 — PART 3 — 自然语言处理与文本分析

目录 自然语言处理概要 分词与词性标注 N-Gram 分词 分词及词性标注的难点 法则式分词法 全切分 FMM和BMM Bi-direction MM 优缺点 统计式分词法 N-Gram概率模型 HMM概率模型 词性标注(Part-of-Speech Tagging) HMM 文本挖掘概要 信息检索(Information Retrieval) 全文扫描 关键词

用Pytho解决分类问题_DBSCAN聚类算法模板

一:DBSCAN聚类算法的介绍 DBSCAN(Density-Based Spatial Clustering of Applications with Noise)是一种基于密度的聚类算法,DBSCAN算法的核心思想是将具有足够高密度的区域划分为簇,并能够在具有噪声的空间数据库中发现任意形状的簇。 DBSCAN算法的主要特点包括: 1. 基于密度的聚类:DBSCAN算法通过识别被低密