BERN2(生物医学领域)命名实体识别与命名规范化工具

2024-09-08 05:04

本文主要是介绍BERN2(生物医学领域)命名实体识别与命名规范化工具,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

BERN2: an advanced neural biomedical named entity recognition and normalization tool

《Bioinformatics》2022

1 摘要

NER和NEN:在生物医学自然语言处理中,NER和NEN是关键任务,它们使得从生物医学文献中自动提取实体(如疾病和药物)成为可能。

BERN2:BERN2是一个工具,它通过使用多任务NER模型和基于神经网络的NEN模型,提高了之前基于神经网络的NER工具的速度和准确性。

2 引言

生物医学文本挖掘的重要性:随着生物医学文本量的不断增长,NER和NEN工具变得越来越重要,它们可以自动注释文本中的实体,并将它们链接到唯一的概念ID(CUIs)。

3 BERN2工具介绍

支持的实体类型:BERN2支持九种生物医学实体类型,包括基因/蛋白质疾病药物/化学物质物种突变细胞系细胞类型DNARNA

性能提升:BERN2通过使用单一的多任务NER模型和结合规则和神经网络的NEN模型,显著减少了注释时间并提高了实体规范化的质量。

4 材料与方法

4.1 多任务命名实体识别 (Multi-task Named Entity Recognition)

  • 模型结构:BERN2的多任务NER模型由一个共享的骨干模型和为每种实体类型设置的特定任务层组成。
  • 骨干模型:使用Bio-LM,一个先进的预训练生物医学语言模型。
  • 任务特定层:每个任务特定层由两层MLP(多层感知机)和ReLU激活函数组成,输出每个标记是否是命名实体的开始、内部或外部(BIO)的概率。
  • 训练数据集:合并了五种实体类型的五个训练集,包括BC2GM、NCBI-disease、BC4CHEMD、Linnaeus和JNLPBA。
  • 推理过程:输入文本后,NER模型并行输出所有任务特定层的预测。

4.2 混合命名实体规范化 (Hybrid Named Entity Normalization)

  • 规则基础NEN模型:传统方法,无法处理所有形态变化。
  • BioSyn:基于神经网络的生物医学NEN模型,利用实体的向量表示来覆盖这些变化。
  • 工作流程:先(1)后(2),流水线。
  • 混合NEN模型的应用:用于三种实体类型(基因/蛋白质、疾病和药物/化学物质),其中BioSyn已进行微调。

5 结果

5.1 命名实体识别 (NER) 性能

  • 评估数据集:包括BC2GM、NCBI-disease、BC4CHEMD、tmVar2、Linnaeus、JNLPBA等。
  • 评估指标:使用F1分数(精确度和召回率的调和平均值)来衡量性能。
  • 结果对比:BERN2在大多数实体类型上的性能超过了其他工具,如PTC、HUNFLAIR和BERN。

5.2 命名实体规范化 (NEN) 准确性

  • 评估数据集:BC2GN(基因/蛋白质)和BC5CDR(疾病和药物/化学物质)。
  • 评估指标:使用准确率来衡量性能。
  • 结果对比:BERN2使用混合NEN模型(规则基础 + BioSyn)在规范化准确性方面超过了其他工具,如PTC和BERN。

表:生物医学NER基准测试结果

数据集(类型)

PTC

HUNF

LAIR

BERN

BERN2

BC2GM (基因/蛋白质)

78.8

77.9

83.4

83.7

NCBI-disease (疾病)

81.5

85.4

88.3

88.6

BC4CHEMD (药物/化学物质)

86.7

88.9

91.2

92.8

tmVar2 (突变)

93.7

N/A

93.7

93.7

Linnaeus (物种)

85.6

93.2

88.0

92.7

JNLPBA (细胞系)

N/A

64.9

N/A

78.6

JNLPBA (细胞类型)

N/A

N/A

N/A

80.7

JNLPBA (DNA)

N/A

N/A

N/A

77.8

JNLPBA (RNA)

N/A

N/A

N/A

76.5

表:生物医学NEN基准测试结果

数据集(类型)

PTC

BERN

BioSyn

BERN2

BC2GN (基因/蛋白质)

93.8

93.8

91.3

95.9

BC5CDR (疾病)

88.9

90.7

93.5

93.9

BC5CDR (药物/化学物质)

94.1

92.8

96.6

96.6

这篇关于BERN2(生物医学领域)命名实体识别与命名规范化工具的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1147194

相关文章

python版本切换工具pyenv的安装及用法

《python版本切换工具pyenv的安装及用法》Pyenv是管理Python版本的最佳工具之一,特别适合开发者和需要切换多个Python版本的用户,:本文主要介绍python版本切换工具pyen... 目录Pyenv 是什么?安装 Pyenv(MACOS)使用 Homebrew:配置 shell(zsh

Java使用Spire.Barcode for Java实现条形码生成与识别

《Java使用Spire.BarcodeforJava实现条形码生成与识别》在现代商业和技术领域,条形码无处不在,本教程将引导您深入了解如何在您的Java项目中利用Spire.Barcodefor... 目录1. Spire.Barcode for Java 简介与环境配置2. 使用 Spire.Barco

Python+wxPython开发一个文件属性比对工具

《Python+wxPython开发一个文件属性比对工具》在日常的文件管理工作中,我们经常会遇到同一个文件存在多个版本,或者需要验证备份文件与源文件是否一致,下面我们就来看看如何使用wxPython模... 目录引言项目背景与需求应用场景核心需求运行结果技术选型程序设计界面布局核心功能模块关键代码解析文件大

Java领域模型示例详解

《Java领域模型示例详解》本文介绍了Java领域模型(POJO/Entity/VO/DTO/BO)的定义、用途和区别,强调了它们在不同场景下的角色和使用场景,文章还通过一个流程示例展示了各模型如何协... 目录Java领域模型(POJO / Entity / VO/ DTO / BO)一、为什么需要领域模

基于Python开发Windows自动更新控制工具

《基于Python开发Windows自动更新控制工具》在当今数字化时代,操作系统更新已成为计算机维护的重要组成部分,本文介绍一款基于Python和PyQt5的Windows自动更新控制工具,有需要的可... 目录设计原理与技术实现系统架构概述数学建模工具界面完整代码实现技术深度分析多层级控制理论服务层控制注

Python之变量命名规则详解

《Python之变量命名规则详解》Python变量命名需遵守语法规范(字母开头、不使用关键字),遵循三要(自解释、明确功能)和三不要(避免缩写、语法错误、滥用下划线)原则,确保代码易读易维护... 目录1. 硬性规则2. “三要” 原则2.1. 要体现变量的 “实际作用”,拒绝 “无意义命名”2.2. 要让

如何正确识别一台POE交换机的好坏? 选购可靠的POE交换机注意事项

《如何正确识别一台POE交换机的好坏?选购可靠的POE交换机注意事项》POE技术已经历多年发展,广泛应用于安防监控和无线覆盖等领域,需求量大,但质量参差不齐,市场上POE交换机的品牌繁多,如何正确识... 目录生产标识1. 必须包含的信息2. 劣质设备的常见问题供电标准1. 正规的 POE 标准2. 劣质设

基于Go语言开发一个 IP 归属地查询接口工具

《基于Go语言开发一个IP归属地查询接口工具》在日常开发中,IP地址归属地查询是一个常见需求,本文将带大家使用Go语言快速开发一个IP归属地查询接口服务,有需要的小伙伴可以了解下... 目录功能目标技术栈项目结构核心代码(main.go)使用方法扩展功能总结在日常开发中,IP 地址归属地查询是一个常见需求:

使用python制作一款文件粉碎工具

《使用python制作一款文件粉碎工具》这篇文章主要为大家详细介绍了如何使用python制作一款文件粉碎工具,能够有效粉碎密码文件和机密Excel表格等,感兴趣的小伙伴可以了解一下... 文件粉碎工具:适用于粉碎密码文件和机密的escel表格等等,主要作用就是防止 别人用数据恢复大师把你刚删除的机密的文件恢

GO语言中函数命名返回值的使用

《GO语言中函数命名返回值的使用》在Go语言中,函数可以为其返回值指定名称,这被称为命名返回值或命名返回参数,这种特性可以使代码更清晰,特别是在返回多个值时,感兴趣的可以了解一下... 目录基本语法函数命名返回特点代码示例命名特点基本语法func functionName(parameters) (nam