BERN2(生物医学领域)命名实体识别与命名规范化工具

2024-09-08 05:04

本文主要是介绍BERN2(生物医学领域)命名实体识别与命名规范化工具,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

BERN2: an advanced neural biomedical named entity recognition and normalization tool

《Bioinformatics》2022

1 摘要

NER和NEN:在生物医学自然语言处理中,NER和NEN是关键任务,它们使得从生物医学文献中自动提取实体(如疾病和药物)成为可能。

BERN2:BERN2是一个工具,它通过使用多任务NER模型和基于神经网络的NEN模型,提高了之前基于神经网络的NER工具的速度和准确性。

2 引言

生物医学文本挖掘的重要性:随着生物医学文本量的不断增长,NER和NEN工具变得越来越重要,它们可以自动注释文本中的实体,并将它们链接到唯一的概念ID(CUIs)。

3 BERN2工具介绍

支持的实体类型:BERN2支持九种生物医学实体类型,包括基因/蛋白质疾病药物/化学物质物种突变细胞系细胞类型DNARNA

性能提升:BERN2通过使用单一的多任务NER模型和结合规则和神经网络的NEN模型,显著减少了注释时间并提高了实体规范化的质量。

4 材料与方法

4.1 多任务命名实体识别 (Multi-task Named Entity Recognition)

  • 模型结构:BERN2的多任务NER模型由一个共享的骨干模型和为每种实体类型设置的特定任务层组成。
  • 骨干模型:使用Bio-LM,一个先进的预训练生物医学语言模型。
  • 任务特定层:每个任务特定层由两层MLP(多层感知机)和ReLU激活函数组成,输出每个标记是否是命名实体的开始、内部或外部(BIO)的概率。
  • 训练数据集:合并了五种实体类型的五个训练集,包括BC2GM、NCBI-disease、BC4CHEMD、Linnaeus和JNLPBA。
  • 推理过程:输入文本后,NER模型并行输出所有任务特定层的预测。

4.2 混合命名实体规范化 (Hybrid Named Entity Normalization)

  • 规则基础NEN模型:传统方法,无法处理所有形态变化。
  • BioSyn:基于神经网络的生物医学NEN模型,利用实体的向量表示来覆盖这些变化。
  • 工作流程:先(1)后(2),流水线。
  • 混合NEN模型的应用:用于三种实体类型(基因/蛋白质、疾病和药物/化学物质),其中BioSyn已进行微调。

5 结果

5.1 命名实体识别 (NER) 性能

  • 评估数据集:包括BC2GM、NCBI-disease、BC4CHEMD、tmVar2、Linnaeus、JNLPBA等。
  • 评估指标:使用F1分数(精确度和召回率的调和平均值)来衡量性能。
  • 结果对比:BERN2在大多数实体类型上的性能超过了其他工具,如PTC、HUNFLAIR和BERN。

5.2 命名实体规范化 (NEN) 准确性

  • 评估数据集:BC2GN(基因/蛋白质)和BC5CDR(疾病和药物/化学物质)。
  • 评估指标:使用准确率来衡量性能。
  • 结果对比:BERN2使用混合NEN模型(规则基础 + BioSyn)在规范化准确性方面超过了其他工具,如PTC和BERN。

表:生物医学NER基准测试结果

数据集(类型)

PTC

HUNF

LAIR

BERN

BERN2

BC2GM (基因/蛋白质)

78.8

77.9

83.4

83.7

NCBI-disease (疾病)

81.5

85.4

88.3

88.6

BC4CHEMD (药物/化学物质)

86.7

88.9

91.2

92.8

tmVar2 (突变)

93.7

N/A

93.7

93.7

Linnaeus (物种)

85.6

93.2

88.0

92.7

JNLPBA (细胞系)

N/A

64.9

N/A

78.6

JNLPBA (细胞类型)

N/A

N/A

N/A

80.7

JNLPBA (DNA)

N/A

N/A

N/A

77.8

JNLPBA (RNA)

N/A

N/A

N/A

76.5

表:生物医学NEN基准测试结果

数据集(类型)

PTC

BERN

BioSyn

BERN2

BC2GN (基因/蛋白质)

93.8

93.8

91.3

95.9

BC5CDR (疾病)

88.9

90.7

93.5

93.9

BC5CDR (药物/化学物质)

94.1

92.8

96.6

96.6

这篇关于BERN2(生物医学领域)命名实体识别与命名规范化工具的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1147194

相关文章

MySql match against工具详细用法

《MySqlmatchagainst工具详细用法》在MySQL中,MATCH……AGAINST是全文索引(Full-Textindex)的查询语法,它允许你对文本进行高效的全文搜素,支持自然语言搜... 目录一、全文索引的基本概念二、创建全文索引三、自然语言搜索四、布尔搜索五、相关性排序六、全文索引的限制七

基于Java实现回调监听工具类

《基于Java实现回调监听工具类》这篇文章主要为大家详细介绍了如何基于Java实现一个回调监听工具类,文中的示例代码讲解详细,感兴趣的小伙伴可以跟随小编一起学习一下... 目录监听接口类 Listenable实际用法打印结果首先,会用到 函数式接口 Consumer, 通过这个可以解耦回调方法,下面先写一个

使用Python构建一个Hexo博客发布工具

《使用Python构建一个Hexo博客发布工具》虽然Hexo的命令行工具非常强大,但对于日常的博客撰写和发布过程,我总觉得缺少一个直观的图形界面来简化操作,下面我们就来看看如何使用Python构建一个... 目录引言Hexo博客系统简介设计需求技术选择代码实现主框架界面设计核心功能实现1. 发布文章2. 加

JS+HTML实现在线图片水印添加工具

《JS+HTML实现在线图片水印添加工具》在社交媒体和内容创作日益频繁的今天,如何保护原创内容、展示品牌身份成了一个不得不面对的问题,本文将实现一个完全基于HTML+CSS构建的现代化图片水印在线工具... 目录概述功能亮点使用方法技术解析延伸思考运行效果项目源码下载总结概述在社交媒体和内容创作日益频繁的

基于Python打造一个全能文本处理工具

《基于Python打造一个全能文本处理工具》:本文主要介绍一个基于Python+Tkinter开发的全功能本地化文本处理工具,它不仅具备基础的格式转换功能,更集成了中文特色处理等实用功能,有需要的... 目录1. 概述:当文本处理遇上python图形界面2. 功能全景图:六大核心模块解析3.运行效果4. 相

springboot项目中常用的工具类和api详解

《springboot项目中常用的工具类和api详解》在SpringBoot项目中,开发者通常会依赖一些工具类和API来简化开发、提高效率,以下是一些常用的工具类及其典型应用场景,涵盖Spring原生... 目录1. Spring Framework 自带工具类(1) StringUtils(2) Coll

基于Python实现高效PPT转图片工具

《基于Python实现高效PPT转图片工具》在日常工作中,PPT是我们常用的演示工具,但有时候我们需要将PPT的内容提取为图片格式以便于展示或保存,所以本文将用Python实现PPT转PNG工具,希望... 目录1. 概述2. 功能使用2.1 安装依赖2.2 使用步骤2.3 代码实现2.4 GUI界面3.效

基于Python和MoviePy实现照片管理和视频合成工具

《基于Python和MoviePy实现照片管理和视频合成工具》在这篇博客中,我们将详细剖析一个基于Python的图形界面应用程序,该程序使用wxPython构建用户界面,并结合MoviePy、Pill... 目录引言项目概述代码结构分析1. 导入和依赖2. 主类:PhotoManager初始化方法:__in

使用Python自建轻量级的HTTP调试工具

《使用Python自建轻量级的HTTP调试工具》这篇文章主要为大家详细介绍了如何使用Python自建一个轻量级的HTTP调试工具,文中的示例代码讲解详细,感兴趣的小伙伴可以参考一下... 目录一、为什么需要自建工具二、核心功能设计三、技术选型四、分步实现五、进阶优化技巧六、使用示例七、性能对比八、扩展方向建

Python基于wxPython和FFmpeg开发一个视频标签工具

《Python基于wxPython和FFmpeg开发一个视频标签工具》在当今数字媒体时代,视频内容的管理和标记变得越来越重要,无论是研究人员需要对实验视频进行时间点标记,还是个人用户希望对家庭视频进行... 目录引言1. 应用概述2. 技术栈分析2.1 核心库和模块2.2 wxpython作为GUI选择的优