【NLP+医学】Evaluation and accurate diagnoses of pediatric diseases using artificial intelligence

本文主要是介绍【NLP+医学】Evaluation and accurate diagnoses of pediatric diseases using artificial intelligence,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

Paper From:Nature Medicine 2019
Paper URL:https://www.nature.com/articles/s41591-018-0335-9

主要内容

Fig.01

  1. 提出了一套「疾病确认」的计算框架,用于对儿科疾病进行自动化分类。如上图:
  • EHRs: 数据源EHRs(电子健康记录)包括「主属、现病史、各种检验检查报告」;
  • knowledge-based text: ,从病历中筛选出的医学词汇+医学术语库,经过医生确认构建了「词汇表」,做为分词工具的「词表资源」;
  • Fully structureed database:EHR经过NLP处理后得到的「特征」,以便用于下一步的分类;
  • Disease classifier:基于「特征」进行疾病分类,使用了逻辑回归方法;

Fig.2

  1. 疾病分类采用多层级逐层分类,如上图第一步按人体器官进行划分,然后再逐层细分。文章对不同层级疾病进行效果评估,评估方式是机器识别和初级医师、高级医生进行对比,结果显示机器分类性能优于初级医师。

重点:Methods

Extended Data 2
此图是文章所用方法的重点

  • 0 从raw data中找出候选vocab,结合第三方医学词库,人工review后构建vocab词表;

  • 1 以vocab作为分词工具的词表资源,对输入的raw data进行分词,得到token;

  • 2 使用word2vec对tokens进行语义训练,得到token对应的embedding;

  • 3 使用LSTM网络框架对<Query-rawdata, Ans>进行建模,模型输出做为特征

    • 3.1 人工设计N个Queries,对每条raw data进行query回答,结果可以是「0/1」或者「器官部位」等,可以看着是个分类问题;
    • 3.2 N个query和M个raw data,可以构建N*M条样本,人工从中选取若干条进行标注,作为模型训练样本;
    • 3.3 对每条raw data与N个Query构建Query-rawdata作为样本,过LSTM模型后的结果作为rawdata的「特征向量」;
    • 3.4 对raw data的「特征」使用LR模型进行「疾病分类」;
  • 4 「疾病分类」采用多层分类方案,逐层分类,每层给出独立的效果评估;

疑问:

  • 1 文章没有找到设计Query的量,这个量关系到rawdata的特性向量长度;
  • 2 EHR数据量很大,对应了rawdata的量,与query叉乘后作为样本池,这个量就更大了,rawdata对应query「是或否」的结果,目测应该是「负样本量远大于正样本」,文章只选用了6000+多条作为样本标注,感觉这个量太少了;
  • 3 在Extended Data2中是以「句子」作为输入的,「主诉和检验报告单」通常一两句描述,但「现病史」往往文本较长,文章没有讲「句子」如何选取?
  • 4 LSTM模型讲引用了「Effictive approaches to attention-based neural machine translation」这篇论文,但该篇论文主要讲了「翻译模型中的attention方法」,感觉文章中的LSTM模型更多应该是「多分类」模型。

价值:

  • 1 使用<Query-rawdata, Ans>构建特征值得借鉴;
  • 2 疾病确认的分层分类方法,结合医学知识如「一级分类器官」,这种分类思路值得关注;

这篇关于【NLP+医学】Evaluation and accurate diagnoses of pediatric diseases using artificial intelligence的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/404135

相关文章

Python实现NLP的完整流程介绍

《Python实现NLP的完整流程介绍》这篇文章主要为大家详细介绍了Python实现NLP的完整流程,文中的示例代码讲解详细,具有一定的借鉴价值,感兴趣的小伙伴可以跟随小编一起学习一下... 目录1. 编程安装和导入必要的库2. 文本数据准备3. 文本预处理3.1 小写化3.2 分词(Tokenizatio

如何将卷积神经网络(CNN)应用于医学图像分析:从分类到分割和检测的实用指南

引言 在现代医疗领域,医学图像已经成为疾病诊断和治疗规划的重要工具。医学图像的类型繁多,包括但不限于X射线、CT(计算机断层扫描)、MRI(磁共振成像)和超声图像。这些图像提供了对身体内部结构的详细视图,有助于医生在进行准确诊断和制定个性化治疗方案时获取关键的信息。 1. 医学图像分析的挑战 医学图像分析面临诸多挑战,其中包括: 图像数据的复杂性:医学图像通常具有高维度和复杂的结构

【python 走进NLP】两两求相似度,得到一条文本和其他文本最大的相似度

应用场景: 一个数据框里面文本,两两求相似度,得到一条文本和其他文本最大的相似度。 content source_id0 丰华股份军阀割据发生的故事大概多少w 11 丰华股份军阀割据发生的故事大概多少 22 丰华股份军阀割据发生的故事大概多少 33 丰华股份军阀割据发生的故事大概多少

【Python 走进NLP】NLP词频统计和处理停用词,可视化

# coding=utf-8import requestsimport sysreload(sys)sys.setdefaultencoding('utf-8')from lxml import etreeimport timetime1=time.time()import bs4import nltkfrom bs4 import BeautifulSoupfrom

【java 走进NLP】simhash 算法计算两篇文章相似度

python 计算两篇文章的相似度算法simhash见: https://blog.csdn.net/u013421629/article/details/85052915 对长文本 是比较合适的(超过500字以上) 下面贴上java 版本实现: pom.xml 加入依赖 <dependency><groupId>org.jsoup</groupId><artifactId>jsoup</a

【python 走进NLP】simhash 算法计算两篇文章相似度

互联网网页存在大量的重复内容网页,无论对于搜索引擎的网页去重和过滤、新闻小说等内容网站的内容反盗版和追踪,还是社交媒体等文本去重和聚类,都需要对网页或者文本进行去重和过滤。最简单的文本相似性计算方法可以利用空间向量模型,计算分词后的文本的特征向量的相似性,这种方法存在效率的严重弊端,无法针对海量的文本进行两两的相似性判断。模仿生物学指纹的特点,对每个文本构造一个指纹,来作为该文本的标识,从形式上来

【python 走进NLP】文本相似度各种距离计算

计算文本相似度有什么用? 1、反垃圾文本的捞取 “诚聘淘宝兼职”、“诚聘打字员”…这样的小广告满天飞,作为网站或者APP的运营者,不可能手动将所有的广告文本放入屏蔽名单里,挑几个典型广告文本,与它满足一定相似度就进行屏蔽。 2、推荐系统 在微博和各大BBS上,每一篇文章/帖子的下面都有一个推荐阅读,那就是根据一定算法计算出来的相似文章。 3、冗余过滤 我们每天接触过量的信息,信息之间存在大量

【python 走进NLP】句子相似度计算--余弦相似度

余弦相似度,又称为余弦相似性,是通过计算两个向量的夹角余弦值来评估他们的相似度。余弦相似度将向量根据坐标值,绘制到向量空间中,如最常见的二维空间。 github 参考链接:https://github.com/ZhanPwBibiBibi/CHlikelihood # -*- coding: utf-8 -*-import jiebaimport numpy as npimpor

【python 走进NLP】从零开始搭建textCNN卷积神经网络模型

无意中发现了一个巨牛的人工智能教程,忍不住分享一下给大家。教程不仅是零基础,通俗易懂,而且非常风趣幽默,像看小说一样!觉得太牛了,所以分享给大家。点这里可以跳转到教程。人工智能教程 1、众所周知,tensorflow 是一个开源的机器学习框架,它的出现大大降低了机器学习的门槛,即使你没有太多的数学知识,它也可以允许你用“搭积木”的方式快速实现一个神经网络,即使没有调节太多的参数,模型的表现一般还

AI基础 L1 Introduction to Artificial Intelligence

什么是AI Chinese Room Thought Experiment 关于“强人工智能”的观点,即认为只要一个系统在行为上表现得像有意识,那么它就真的具有理解能力。  实验内容如下: 假设有一个不懂中文的英语说话者被关在一个房间里。房间里有一本用英文写的中文使用手册,可以指导他如何处理中文符号。当外面的中文母语者通过一个小窗口传递给房间里的人一些用中文写的问题时,房间里的人能够依