BERN2(生物医学领域)命名实体识别与命名规范化工具

2024-09-08 05:04

本文主要是介绍BERN2(生物医学领域)命名实体识别与命名规范化工具,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

BERN2: an advanced neural biomedical named entity recognition and normalization tool

《Bioinformatics》2022

1 摘要

NER和NEN:在生物医学自然语言处理中,NER和NEN是关键任务,它们使得从生物医学文献中自动提取实体(如疾病和药物)成为可能。

BERN2:BERN2是一个工具,它通过使用多任务NER模型和基于神经网络的NEN模型,提高了之前基于神经网络的NER工具的速度和准确性。

2 引言

生物医学文本挖掘的重要性:随着生物医学文本量的不断增长,NER和NEN工具变得越来越重要,它们可以自动注释文本中的实体,并将它们链接到唯一的概念ID(CUIs)。

3 BERN2工具介绍

支持的实体类型:BERN2支持九种生物医学实体类型,包括基因/蛋白质疾病药物/化学物质物种突变细胞系细胞类型DNARNA

性能提升:BERN2通过使用单一的多任务NER模型和结合规则和神经网络的NEN模型,显著减少了注释时间并提高了实体规范化的质量。

4 材料与方法

4.1 多任务命名实体识别 (Multi-task Named Entity Recognition)

  • 模型结构:BERN2的多任务NER模型由一个共享的骨干模型和为每种实体类型设置的特定任务层组成。
  • 骨干模型:使用Bio-LM,一个先进的预训练生物医学语言模型。
  • 任务特定层:每个任务特定层由两层MLP(多层感知机)和ReLU激活函数组成,输出每个标记是否是命名实体的开始、内部或外部(BIO)的概率。
  • 训练数据集:合并了五种实体类型的五个训练集,包括BC2GM、NCBI-disease、BC4CHEMD、Linnaeus和JNLPBA。
  • 推理过程:输入文本后,NER模型并行输出所有任务特定层的预测。

4.2 混合命名实体规范化 (Hybrid Named Entity Normalization)

  • 规则基础NEN模型:传统方法,无法处理所有形态变化。
  • BioSyn:基于神经网络的生物医学NEN模型,利用实体的向量表示来覆盖这些变化。
  • 工作流程:先(1)后(2),流水线。
  • 混合NEN模型的应用:用于三种实体类型(基因/蛋白质、疾病和药物/化学物质),其中BioSyn已进行微调。

5 结果

5.1 命名实体识别 (NER) 性能

  • 评估数据集:包括BC2GM、NCBI-disease、BC4CHEMD、tmVar2、Linnaeus、JNLPBA等。
  • 评估指标:使用F1分数(精确度和召回率的调和平均值)来衡量性能。
  • 结果对比:BERN2在大多数实体类型上的性能超过了其他工具,如PTC、HUNFLAIR和BERN。

5.2 命名实体规范化 (NEN) 准确性

  • 评估数据集:BC2GN(基因/蛋白质)和BC5CDR(疾病和药物/化学物质)。
  • 评估指标:使用准确率来衡量性能。
  • 结果对比:BERN2使用混合NEN模型(规则基础 + BioSyn)在规范化准确性方面超过了其他工具,如PTC和BERN。

表:生物医学NER基准测试结果

数据集(类型)

PTC

HUNF

LAIR

BERN

BERN2

BC2GM (基因/蛋白质)

78.8

77.9

83.4

83.7

NCBI-disease (疾病)

81.5

85.4

88.3

88.6

BC4CHEMD (药物/化学物质)

86.7

88.9

91.2

92.8

tmVar2 (突变)

93.7

N/A

93.7

93.7

Linnaeus (物种)

85.6

93.2

88.0

92.7

JNLPBA (细胞系)

N/A

64.9

N/A

78.6

JNLPBA (细胞类型)

N/A

N/A

N/A

80.7

JNLPBA (DNA)

N/A

N/A

N/A

77.8

JNLPBA (RNA)

N/A

N/A

N/A

76.5

表:生物医学NEN基准测试结果

数据集(类型)

PTC

BERN

BioSyn

BERN2

BC2GN (基因/蛋白质)

93.8

93.8

91.3

95.9

BC5CDR (疾病)

88.9

90.7

93.5

93.9

BC5CDR (药物/化学物质)

94.1

92.8

96.6

96.6

这篇关于BERN2(生物医学领域)命名实体识别与命名规范化工具的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1147194

相关文章

变量与命名

引言         在前两个课时中,我们已经了解了 Python 程序的基本结构,学习了如何正确地使用缩进来组织代码,并且知道了注释的重要性。现在我们将进一步深入到 Python 编程的核心——变量与命名。变量是我们存储数据的主要方式,而合理的命名则有助于提高代码的可读性和可维护性。 变量的概念与使用         在 Python 中,变量是一种用来存储数据值的标识符。创建变量很简单,

阿里开源语音识别SenseVoiceWindows环境部署

SenseVoice介绍 SenseVoice 专注于高精度多语言语音识别、情感辨识和音频事件检测多语言识别: 采用超过 40 万小时数据训练,支持超过 50 种语言,识别效果上优于 Whisper 模型。富文本识别:具备优秀的情感识别,能够在测试数据上达到和超过目前最佳情感识别模型的效果。支持声音事件检测能力,支持音乐、掌声、笑声、哭声、咳嗽、喷嚏等多种常见人机交互事件进行检测。高效推

高效录音转文字:2024年四大工具精选!

在快节奏的工作生活中,能够快速将录音转换成文字是一项非常实用的能力。特别是在需要记录会议纪要、讲座内容或者是采访素材的时候,一款优秀的在线录音转文字工具能派上大用场。以下推荐几个好用的录音转文字工具! 365在线转文字 直达链接:https://www.pdf365.cn/ 365在线转文字是一款提供在线录音转文字服务的工具,它以其高效、便捷的特点受到用户的青睐。用户无需下载安装任何软件,只

【Linux 从基础到进阶】Ansible自动化运维工具使用

Ansible自动化运维工具使用 Ansible 是一款开源的自动化运维工具,采用无代理架构(agentless),基于 SSH 连接进行管理,具有简单易用、灵活强大、可扩展性高等特点。它广泛用于服务器管理、应用部署、配置管理等任务。本文将介绍 Ansible 的安装、基本使用方法及一些实际运维场景中的应用,旨在帮助运维人员快速上手并熟练运用 Ansible。 1. Ansible的核心概念

超强的截图工具:PixPin

你是否还在为寻找一款功能强大、操作简便的截图工具而烦恼?市面上那么多工具,常常让人无从选择。今天,想给大家安利一款神器——PixPin,一款真正解放双手的截图工具。 想象一下,你只需要按下快捷键就能轻松完成多种截图任务,还能快速编辑、标注甚至保存多种格式的图片。这款工具能满足这些需求吗? PixPin不仅支持全屏、窗口、区域截图等基础功能,它还可以进行延时截图,让你捕捉到每个关键画面。不仅如此

PostgreSQL核心功能特性与使用领域及场景分析

PostgreSQL有什么优点? 开源和免费 PostgreSQL是一个开源的数据库管理系统,可以免费使用和修改。这降低了企业的成本,并为开发者提供了一个活跃的社区和丰富的资源。 高度兼容 PostgreSQL支持多种操作系统(如Linux、Windows、macOS等)和编程语言(如C、C++、Java、Python、Ruby等),并提供了多种接口(如JDBC、ODBC、ADO.NET等

PR曲线——一个更敏感的性能评估工具

在不均衡数据集的情况下,精确率-召回率(Precision-Recall, PR)曲线是一种非常有用的工具,因为它提供了比传统的ROC曲线更准确的性能评估。以下是PR曲线在不均衡数据情况下的一些作用: 关注少数类:在不均衡数据集中,少数类的样本数量远少于多数类。PR曲线通过关注少数类(通常是正类)的性能来弥补这一点,因为它直接评估模型在识别正类方面的能力。 精确率与召回率的平衡:精确率(Pr

husky 工具配置代码检查工作流:提交代码至仓库前做代码检查

提示:这篇博客以我前两篇博客作为先修知识,请大家先去看看我前两篇博客 博客指路:前端 ESlint 代码规范及修复代码规范错误-CSDN博客前端 Vue3 项目开发—— ESLint & prettier 配置代码风格-CSDN博客 husky 工具配置代码检查工作流的作用 在工作中,我们经常需要将写好的代码提交至代码仓库 但是由于程序员疏忽而将不规范的代码提交至仓库,显然是不合理的 所

10个好用的AI写作工具【亲测免费】

1. 光速写作 传送入口:http://u3v.cn/6hXWYa AI打工神器,一键生成文章&ppt 2. 讯飞写作 传送入口:http://m6z.cn/5ODiSw 3. 讯飞绘文 传送入口:https://turbodesk.xfyun.cn/?channelid=gj3 4. AI排版助手 传送入口:http://m6z.cn/6ppnPn 5. Kim

分享5款免费录屏的工具,搞定网课不怕错过!

虽然现在学生们不怎么上网课, 但是对于上班族或者是没有办法到学校参加课程的人来说,网课还是很重要的,今天,我就来跟大家分享一下我用过的几款录屏软件=,看看它们在录制网课时的表现如何。 福昕录屏大师 网址:https://www.foxitsoftware.cn/REC/ 这款软件给我的第一印象就是界面简洁,操作起来很直观。它支持全屏录制,也支持区域录制,这对于我这种需要同时录制PPT和老师讲