本文主要是介绍BERN2(生物医学领域)命名实体识别与命名规范化工具,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
BERN2: an advanced neural biomedical named entity recognition and normalization tool
《Bioinformatics》2022
1 摘要
NER和NEN:在生物医学自然语言处理中,NER和NEN是关键任务,它们使得从生物医学文献中自动提取实体(如疾病和药物)成为可能。
BERN2:BERN2是一个工具,它通过使用多任务NER模型和基于神经网络的NEN模型,提高了之前基于神经网络的NER工具的速度和准确性。
2 引言
生物医学文本挖掘的重要性:随着生物医学文本量的不断增长,NER和NEN工具变得越来越重要,它们可以自动注释文本中的实体,并将它们链接到唯一的概念ID(CUIs)。
3 BERN2工具介绍
支持的实体类型:BERN2支持九种生物医学实体类型,包括基因/蛋白质、疾病、药物/化学物质、物种、突变、细胞系、细胞类型、DNA和RNA。
性能提升:BERN2通过使用单一的多任务NER模型和结合规则和神经网络的NEN模型,显著减少了注释时间并提高了实体规范化的质量。
4 材料与方法
4.1 多任务命名实体识别 (Multi-task Named Entity Recognition)
- 模型结构:BERN2的多任务NER模型由一个共享的骨干模型和为每种实体类型设置的特定任务层组成。
- 骨干模型:使用Bio-LM,一个先进的预训练生物医学语言模型。
- 任务特定层:每个任务特定层由两层MLP(多层感知机)和ReLU激活函数组成,输出每个标记是否是命名实体的开始、内部或外部(BIO)的概率。
- 训练数据集:合并了五种实体类型的五个训练集,包括BC2GM、NCBI-disease、BC4CHEMD、Linnaeus和JNLPBA。
- 推理过程:输入文本后,NER模型并行输出所有任务特定层的预测。
4.2 混合命名实体规范化 (Hybrid Named Entity Normalization)
- 规则基础NEN模型:传统方法,无法处理所有形态变化。
- BioSyn:基于神经网络的生物医学NEN模型,利用实体的向量表示来覆盖这些变化。
- 工作流程:先(1)后(2),流水线。
- 混合NEN模型的应用:用于三种实体类型(基因/蛋白质、疾病和药物/化学物质),其中BioSyn已进行微调。
5 结果
5.1 命名实体识别 (NER) 性能
- 评估数据集:包括BC2GM、NCBI-disease、BC4CHEMD、tmVar2、Linnaeus、JNLPBA等。
- 评估指标:使用F1分数(精确度和召回率的调和平均值)来衡量性能。
- 结果对比:BERN2在大多数实体类型上的性能超过了其他工具,如PTC、HUNFLAIR和BERN。
5.2 命名实体规范化 (NEN) 准确性
- 评估数据集:BC2GN(基因/蛋白质)和BC5CDR(疾病和药物/化学物质)。
- 评估指标:使用准确率来衡量性能。
- 结果对比:BERN2使用混合NEN模型(规则基础 + BioSyn)在规范化准确性方面超过了其他工具,如PTC和BERN。
表:生物医学NER基准测试结果
数据集(类型) | PTC | HUNF LAIR | BERN | BERN2 |
BC2GM (基因/蛋白质) | 78.8 | 77.9 | 83.4 | 83.7 |
NCBI-disease (疾病) | 81.5 | 85.4 | 88.3 | 88.6 |
BC4CHEMD (药物/化学物质) | 86.7 | 88.9 | 91.2 | 92.8 |
tmVar2 (突变) | 93.7 | N/A | 93.7 | 93.7 |
Linnaeus (物种) | 85.6 | 93.2 | 88.0 | 92.7 |
JNLPBA (细胞系) | N/A | 64.9 | N/A | 78.6 |
JNLPBA (细胞类型) | N/A | N/A | N/A | 80.7 |
JNLPBA (DNA) | N/A | N/A | N/A | 77.8 |
JNLPBA (RNA) | N/A | N/A | N/A | 76.5 |
表:生物医学NEN基准测试结果
数据集(类型) | PTC | BERN | BioSyn | BERN2 |
BC2GN (基因/蛋白质) | 93.8 | 93.8 | 91.3 | 95.9 |
BC5CDR (疾病) | 88.9 | 90.7 | 93.5 | 93.9 |
BC5CDR (药物/化学物质) | 94.1 | 92.8 | 96.6 | 96.6 |
这篇关于BERN2(生物医学领域)命名实体识别与命名规范化工具的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!