医疗实体链接(标准化)论文解读 (附代码) A Lightweight Neural Model for Biomedical Entity Linking

本文主要是介绍医疗实体链接(标准化)论文解读 (附代码) A Lightweight Neural Model for Biomedical Entity Linking,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

一、动机

论文:https://arxiv.org/abs/2012.08844

代码:https://github.com/tigerchen52/Biomedical-Entity-Linking

医疗实体链接 (Biomedical Entity Linking) 把文档中发现的疾病、药物、手术名词(mention)映射到知识库(knowledge base)中的标准术语词。

这项任务其实是非常有挑战的,这是因为文档中出现的医疗词语存在着多种变化,比如缩写、同义词、词形态变化、词序、错别字等。

其次,知识库中的标准术语集规模不算小,少的几万个术语,多的几十万个。更麻烦的是,这些术语长得还非常像,难以区分。

最后,医疗知识库不像传统的知识库WikiData和YAGO,术语(或实体)的信息只有一个实体名字,像实体描述、实体属性等待信息都是没有的,这给医疗实体链接带来了很大的难度。
如下例子,对于输入“decreases in hemoglobin”, 我们可以从MedDRA疾病词库中找到至少四个候选实体,你能找到正确的术语是哪一个吗?(答案是第三个)

decreases in hemoglobin1. increase in hematocrit
2. changes in hemoglobin
3. haemoglobin decreased
4. decreases in platelets
5. ......

最近BERT模型在NLP各个任务上都取得了惊人的成绩,也有人使用它在这个任务上进行了尝试,也取得SOTA的结果。

但是BERT模型上百万的参数在某种程度上也限制了它在资源受限(resourece-limted)场景下的使用。

因此,作者提出了一个想法,是否能使用一个简单的模型解决这个问题,而且在准确率上又差的不多呢?

 

这篇论文就是从这个问题出发,具体来说这项工作贡献如下:

  1. 作者提出了一种简单而有效神经网络模型,在三个医疗实体链接任务上,这个模型与BERT在统计上并无显著差异
  2. 这个模型比BERT小23倍,推理时间少6.4倍
  3. 除此之外,作者还探索如何在这个任务上使用额外特征,其中包括先验知识(Prior)、上下文(Context)、实体一致性(Coherence)

二、方法

模型的框架图如上所示,首先进行预处理,将mention和实体名称转化成统一的格式,然后再从知识库中找到top-k个候选实体,最后对这些实体进行排序输出得分最高的一个作为这个输入mention的标准术语。

上图是文章中的排序模型,作者首先使用预训练word embedding表示单词,然后为了解决out-of-vocabulary和错别字的问题,增加了character embedding。

Alignment Layer用来捕捉另一个文本中相似的部分,使用交互的信息进行表示每个文本,这样能够丰富单个文本的表示,很大程度提升模型的能力。

然后使用一个CNN层去提取关键特征,最后将两个文本的表示拼接在一起送入一个两层的全连接网络,这样就能计算出一个base score了。

除此之外,这个模型还可以加入先验信息、上下文信息、一致性信息。

三、实验

从上表中可以看出,作者的简单的base模型与BERT非常接近,在NCBI数据集上还超过了BERT模型。 

在base模型上加入额外特征还能够得到一定收益。

下表是作者模型大小和推理时间,在这两个维度上,作者的base模型都是有显著的优势的。

 

这篇关于医疗实体链接(标准化)论文解读 (附代码) A Lightweight Neural Model for Biomedical Entity Linking的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1003995

相关文章

C++对象布局及多态实现探索之内存布局(整理的很多链接)

本文通过观察对象的内存布局,跟踪函数调用的汇编代码。分析了C++对象内存的布局情况,虚函数的执行方式,以及虚继承,等等 文章链接:http://dev.yesky.com/254/2191254.shtml      论C/C++函数间动态内存的传递 (2005-07-30)   当你涉及到C/C++的核心编程的时候,你会无止境地与内存管理打交道。 文章链接:http://dev.yesky

C++工程编译链接错误汇总VisualStudio

目录 一些小的知识点 make工具 可以使用windows下的事件查看器崩溃的地方 dumpbin工具查看dll是32位还是64位的 _MSC_VER .cc 和.cpp 【VC++目录中的包含目录】 vs 【C/C++常规中的附加包含目录】——头文件所在目录如何怎么添加,添加了以后搜索头文件就会到这些个路径下搜索了 include<> 和 include"" WinMain 和

uniapp接入微信小程序原生代码配置方案(优化版)

uniapp项目需要把微信小程序原生语法的功能代码嵌套过来,无需把原生代码转换为uniapp,可以配置拷贝的方式集成过来 1、拷贝代码包到src目录 2、vue.config.js中配置原生代码包直接拷贝到编译目录中 3、pages.json中配置分包目录,原生入口组件的路径 4、manifest.json中配置分包,使用原生组件 5、需要把原生代码包里的页面修改成组件的方

C/C++的编译和链接过程

目录 从源文件生成可执行文件(书中第2章) 1.Preprocessing预处理——预处理器cpp 2.Compilation编译——编译器cll ps:vs中优化选项设置 3.Assembly汇编——汇编器as ps:vs中汇编输出文件设置 4.Linking链接——链接器ld 符号 模块,库 链接过程——链接器 链接过程 1.简单链接的例子 2.链接过程 3.地址和

公共筛选组件(二次封装antd)支持代码提示

如果项目是基于antd组件库为基础搭建,可使用此公共筛选组件 使用到的库 npm i antdnpm i lodash-esnpm i @types/lodash-es -D /components/CommonSearch index.tsx import React from 'react';import { Button, Card, Form } from 'antd'

17.用300行代码手写初体验Spring V1.0版本

1.1.课程目标 1、了解看源码最有效的方式,先猜测后验证,不要一开始就去调试代码。 2、浓缩就是精华,用 300行最简洁的代码 提炼Spring的基本设计思想。 3、掌握Spring框架的基本脉络。 1.2.内容定位 1、 具有1年以上的SpringMVC使用经验。 2、 希望深入了解Spring源码的人群,对 Spring有一个整体的宏观感受。 3、 全程手写实现SpringM

代码随想录算法训练营:12/60

非科班学习算法day12 | LeetCode150:逆波兰表达式 ,Leetcode239: 滑动窗口最大值  目录 介绍 一、基础概念补充: 1.c++字符串转为数字 1. std::stoi, std::stol, std::stoll, std::stoul, std::stoull(最常用) 2. std::stringstream 3. std::atoi, std

记录AS混淆代码模板

开启混淆得先在build.gradle文件中把 minifyEnabled false改成true,以及shrinkResources true//去除无用的resource文件 这些是写在proguard-rules.pro文件内的 指定代码的压缩级别 -optimizationpasses 5 包明不混合大小写 -dontusemixedcaseclassnames 不去忽略非公共

麻了!一觉醒来,代码全挂了。。

作为⼀名程序员,相信大家平时都有代码托管的需求。 相信有不少同学或者团队都习惯把自己的代码托管到GitHub平台上。 但是GitHub大家知道,经常在访问速度这方面并不是很快,有时候因为网络问题甚至根本连网站都打不开了,所以导致使用体验并不友好。 经常一觉醒来,居然发现我竟然看不到我自己上传的代码了。。 那在国内,除了GitHub,另外还有一个比较常用的Gitee平台也可以用于

Python利用qq邮箱发送通知邮件(已封装成model)

因为经常喜欢写一些脚本、爬虫之类的东西,有需要通知的时候,总是苦于没有太好的通知方式,虽然邮件相对于微信、短信来说,接收性差了一些,但毕竟免费,而且支持html直接渲染,所以,折腾了一个可以直接使用的sendemail模块。这里主要应用的是QQ发邮件,微信关注QQ邮箱后,也可以实时的接收到消息,肾好! 好了,废话不多说,直接上代码。 # encoding: utf-8import lo