BERN2(生物医学领域)命名实体识别与命名规范化工具

2024-09-08 05:04

本文主要是介绍BERN2(生物医学领域)命名实体识别与命名规范化工具,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

BERN2: an advanced neural biomedical named entity recognition and normalization tool

《Bioinformatics》2022

1 摘要

NER和NEN:在生物医学自然语言处理中,NER和NEN是关键任务,它们使得从生物医学文献中自动提取实体(如疾病和药物)成为可能。

BERN2:BERN2是一个工具,它通过使用多任务NER模型和基于神经网络的NEN模型,提高了之前基于神经网络的NER工具的速度和准确性。

2 引言

生物医学文本挖掘的重要性:随着生物医学文本量的不断增长,NER和NEN工具变得越来越重要,它们可以自动注释文本中的实体,并将它们链接到唯一的概念ID(CUIs)。

3 BERN2工具介绍

支持的实体类型:BERN2支持九种生物医学实体类型,包括基因/蛋白质疾病药物/化学物质物种突变细胞系细胞类型DNARNA

性能提升:BERN2通过使用单一的多任务NER模型和结合规则和神经网络的NEN模型,显著减少了注释时间并提高了实体规范化的质量。

4 材料与方法

4.1 多任务命名实体识别 (Multi-task Named Entity Recognition)

  • 模型结构:BERN2的多任务NER模型由一个共享的骨干模型和为每种实体类型设置的特定任务层组成。
  • 骨干模型:使用Bio-LM,一个先进的预训练生物医学语言模型。
  • 任务特定层:每个任务特定层由两层MLP(多层感知机)和ReLU激活函数组成,输出每个标记是否是命名实体的开始、内部或外部(BIO)的概率。
  • 训练数据集:合并了五种实体类型的五个训练集,包括BC2GM、NCBI-disease、BC4CHEMD、Linnaeus和JNLPBA。
  • 推理过程:输入文本后,NER模型并行输出所有任务特定层的预测。

4.2 混合命名实体规范化 (Hybrid Named Entity Normalization)

  • 规则基础NEN模型:传统方法,无法处理所有形态变化。
  • BioSyn:基于神经网络的生物医学NEN模型,利用实体的向量表示来覆盖这些变化。
  • 工作流程:先(1)后(2),流水线。
  • 混合NEN模型的应用:用于三种实体类型(基因/蛋白质、疾病和药物/化学物质),其中BioSyn已进行微调。

5 结果

5.1 命名实体识别 (NER) 性能

  • 评估数据集:包括BC2GM、NCBI-disease、BC4CHEMD、tmVar2、Linnaeus、JNLPBA等。
  • 评估指标:使用F1分数(精确度和召回率的调和平均值)来衡量性能。
  • 结果对比:BERN2在大多数实体类型上的性能超过了其他工具,如PTC、HUNFLAIR和BERN。

5.2 命名实体规范化 (NEN) 准确性

  • 评估数据集:BC2GN(基因/蛋白质)和BC5CDR(疾病和药物/化学物质)。
  • 评估指标:使用准确率来衡量性能。
  • 结果对比:BERN2使用混合NEN模型(规则基础 + BioSyn)在规范化准确性方面超过了其他工具,如PTC和BERN。

表:生物医学NER基准测试结果

数据集(类型)

PTC

HUNF

LAIR

BERN

BERN2

BC2GM (基因/蛋白质)

78.8

77.9

83.4

83.7

NCBI-disease (疾病)

81.5

85.4

88.3

88.6

BC4CHEMD (药物/化学物质)

86.7

88.9

91.2

92.8

tmVar2 (突变)

93.7

N/A

93.7

93.7

Linnaeus (物种)

85.6

93.2

88.0

92.7

JNLPBA (细胞系)

N/A

64.9

N/A

78.6

JNLPBA (细胞类型)

N/A

N/A

N/A

80.7

JNLPBA (DNA)

N/A

N/A

N/A

77.8

JNLPBA (RNA)

N/A

N/A

N/A

76.5

表:生物医学NEN基准测试结果

数据集(类型)

PTC

BERN

BioSyn

BERN2

BC2GN (基因/蛋白质)

93.8

93.8

91.3

95.9

BC5CDR (疾病)

88.9

90.7

93.5

93.9

BC5CDR (药物/化学物质)

94.1

92.8

96.6

96.6

这篇关于BERN2(生物医学领域)命名实体识别与命名规范化工具的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1147194

相关文章

如何通过海康威视设备网络SDK进行Java二次开发摄像头车牌识别详解

《如何通过海康威视设备网络SDK进行Java二次开发摄像头车牌识别详解》:本文主要介绍如何通过海康威视设备网络SDK进行Java二次开发摄像头车牌识别的相关资料,描述了如何使用海康威视设备网络SD... 目录前言开发流程问题和解决方案dll库加载不到的问题老旧版本sdk不兼容的问题关键实现流程总结前言作为

Java数字转换工具类NumberUtil的使用

《Java数字转换工具类NumberUtil的使用》NumberUtil是一个功能强大的Java工具类,用于处理数字的各种操作,包括数值运算、格式化、随机数生成和数值判断,下面就来介绍一下Number... 目录一、NumberUtil类概述二、主要功能介绍1. 数值运算2. 格式化3. 数值判断4. 随机

使用Navicat工具比对两个数据库所有表结构的差异案例详解

《使用Navicat工具比对两个数据库所有表结构的差异案例详解》:本文主要介绍如何使用Navicat工具对比两个数据库test_old和test_new,并生成相应的DDLSQL语句,以便将te... 目录概要案例一、如图两个数据库test_old和test_new进行比较:二、开始比较总结概要公司存在多

Java中基于注解的代码生成工具MapStruct映射使用详解

《Java中基于注解的代码生成工具MapStruct映射使用详解》MapStruct作为一个基于注解的代码生成工具,为我们提供了一种更加优雅、高效的解决方案,本文主要为大家介绍了它的具体使用,感兴趣... 目录介绍优缺点优点缺点核心注解及详细使用语法说明@Mapper@Mapping@Mappings@Co

使用Python实现图片和base64转换工具

《使用Python实现图片和base64转换工具》这篇文章主要为大家详细介绍了如何使用Python中的base64模块编写一个工具,可以实现图片和Base64编码之间的转换,感兴趣的小伙伴可以了解下... 简介使用python的base64模块来实现图片和Base64编码之间的转换。可以将图片转换为Bas

使用Java实现一个解析CURL脚本小工具

《使用Java实现一个解析CURL脚本小工具》文章介绍了如何使用Java实现一个解析CURL脚本的工具,该工具可以将CURL脚本中的Header解析为KVMap结构,获取URL路径、请求类型,解析UR... 目录使用示例实现原理具体实现CurlParserUtilCurlEntityICurlHandler

Rsnapshot怎么用? 基于Rsync的强大Linux备份工具使用指南

《Rsnapshot怎么用?基于Rsync的强大Linux备份工具使用指南》Rsnapshot不仅可以备份本地文件,还能通过SSH备份远程文件,接下来详细介绍如何安装、配置和使用Rsnaps... Rsnapshot 是一款开源的文件系统快照工具。它结合了 Rsync 和 SSH 的能力,可以帮助你在 li

基于Go语言实现一个压测工具

《基于Go语言实现一个压测工具》这篇文章主要为大家详细介绍了基于Go语言实现一个简单的压测工具,文中的示例代码讲解详细,感兴趣的小伙伴可以跟随小编一起学习一下... 目录整体架构通用数据处理模块Http请求响应数据处理Curl参数解析处理客户端模块Http客户端处理Grpc客户端处理Websocket客户端

java图像识别工具类(ImageRecognitionUtils)使用实例详解

《java图像识别工具类(ImageRecognitionUtils)使用实例详解》:本文主要介绍如何在Java中使用OpenCV进行图像识别,包括图像加载、预处理、分类、人脸检测和特征提取等步骤... 目录前言1. 图像识别的背景与作用2. 设计目标3. 项目依赖4. 设计与实现 ImageRecogni

基于Python开发电脑定时关机工具

《基于Python开发电脑定时关机工具》这篇文章主要为大家详细介绍了如何基于Python开发一个电脑定时关机工具,文中的示例代码讲解详细,感兴趣的小伙伴可以跟随小编一起学习一下... 目录1. 简介2. 运行效果3. 相关源码1. 简介这个程序就像一个“忠实的管家”,帮你按时关掉电脑,而且全程不需要你多做