基于语音识别的智能电子病历(一)

2024-05-01 11:12

本文主要是介绍基于语音识别的智能电子病历(一),希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

引子

A:“上周开年会了!”

俺:“有啥新的动向?”

A:“今年计划开发基于语音识别的智能电子病历。老板说这个算是国内首创!”

俺:“嗯,俺做这个20多年了。”

A:“语言识别 加 AI 的电子病历!”

俺:“明白,俺都做了20多年了,这个的弯弯绕绕、潮起潮落俺都门清。给你说说?”

起初

说起基于语音识别的智能电子病历来,就不得不说一个医疗的小行业“医疗转录”。医疗转录,是指根据医生的口述录音,利用文字处理软件程序对记录医疗过程的档案文件进行信息转录。医疗转录是一个准确并迅速转录口述的医疗报告等资料的过程,包括对历史记录、体检报告、临床诊断、办公笔记、手术报告、会诊记录、出院小结、信件、精神性评估、实验报告、X光报告和病理报告等资料的转录。我们来分析一下医疗转录服务,数据源头来自医生的语音,最终的结果是电子病历的内容,这不就是基于语音识别的智能电子病历的一个业务实现吗?

医疗转录是如何形成一个小行业的?

这个要从美国的医生开始说起。美国医生的地位非常高,成为一个外科医生,大学最短也要读11年,拿到博士学位,之后还有再读几年医科。俺刚参加工作时,有一次在文字中称呼医生为Doctor,同事指出了俺的错误,应该称呼对方为M.D.(Medicinae Doctor) ,称呼对方为Doctor,是一种不尊重。那么,让一个读了11年大学,学费都超过70万美元的外科医生,一个字母一个字母的录入电子病历,是一件很浪费的事情。于是,有了精细化的分工 ,医疗转录服务 来了最初的时候医生是通过录音磁带或者电话,把语音发给医疗转录服务公司。然后这些公司就根据这些语音生成电子病历的内容。

时间来到了1996年,俺当初工作过那就公司诞生了。这是一家提供医疗转录服务 的公司。2017年拿过全美医疗转录质量评比的第一名。拿过NIST的4次认证。2019年被M*Modal 收购。

时间到了2000-07-15,俺入职了。

概述

系统构成

如果说基于语音识别的智能电子病历是一种思路,那么医疗转录服务就是这个思路的具体实现。我我们先从语音说起,在实际的业务中,一般分2两种业务模式。

  • 整体录音(下图的Full Dictation部分),这种方式每个语音文件包含一个或者多个报告,时长也比较长,3到8分钟长的语音比较多。最终产生的也是一个或者多个医疗报告
  • 局部录音(下图的Partial Dictation部分),这种方式一般是和结构化的电子病历一起使用。语音的内容是电子病历中的一段或者一部分。

医生是如何使用的呢?

整体录音(Full Dictation),通常有有些几种方式接入

  • 医院或者医生通过接口或者网站上传语音文件
  • 医生使用电话进行录音,医生拨打电话进行录音。有T1线路+语音卡,也有网络电话的接入。
  • 医生使用手机APP进行录音。例如这个是2009年发布IOS的APP,android下的APP的界面类似。

         

  • 医生在电脑上访问网站或者使用应用软件进行录音。

局部录音(Partial Dictation),一般是和结构化电子病历或者HIS 做对接。

病人的相关数据也需要和医院对接。这个我们自己开发了一个平台用于和医院对接数据。

上面说的2部分,在下面的图上就是最左边的 Input 和 Dictation

数据的来源处理好后,就进入了WMS(Workflow Management System)部分。这部分是核心,包含的东西特别多。从功能上来说有这么几部分:

  • 医疗行业的特定人群的语音识别
  • 富文本报告编辑器
  • 结构化电子病历(CDA)编辑器
  • 和编辑器互联并支持3键脚踏板的语音播放器
  • 医疗行业的语义分析
  • 整合医疗数据的输入法
  • 语音识别的自动再训练
  • 语义分析的自动再训练
  • 基于医疗知识的拼写检查和内容检查
  • 多级质检系统
  • 报告系统

每个部分其实都有很多可以讲的东西,以后再说。

生成好的报告或者电子病历,有时还要进行电子签名。电子签名的技术简单,就是业务复杂。电子签名一般 Dictator 、Attend 、Ordering 、Referring 、PCP、 DictatorFor  等多个角色 。每个角色都有可能有替代医生。签名规则也比较多 。有些医院的某些报告需要多个角色的合签。有的合签还规定了不同的角色签名的前后顺序。之前做过一次梳理,业务上 240多种不同的业务分支。

最后一步就是把数据送回医院,除了和医院的系统对接之外(每个医院都有不同的接口方式)。还有其他Email 、传真、打印、发布到APP 等方式。传真在国内用的不多,但是在美国还是有很多地方在用。

运营模式

实施一般不收费,公司是根据服务量收费,古早的时候 一般每行是6-8美分。有些复杂的甚至能谈到1毛。现在随着语音识别和AI的运用,价格已经降低了到了4-6美分。这个还分本土服务和国际服务。

  • 本土服务:数据不流出美国本土 。价格会贵1-2分。
  • 国际服务:报告在印度、菲律宾等国家完成。价格便宜。

语音识别和人工智能在这个行业能够很早使用,也是和这种运营模式分不开的。每个公司千方百计的提高工作效率。在同样的工作时长,完成的报告行数越多,报告的质量越好,公司越有竞争力。因为安装一般不收钱,报价比其他公司少1分钱,就可以抢走其他公司的客户。

行业发展

2000年之后 Nuance (已被微软用197亿美元)是第一个大规模使用语音识别的公司。Nuance最早的识别引擎是基于隐含马尔科夫链。对于特定人群来说,基于隐含马尔科夫链还是不错的。因为是为每个医生训练模型,隐马的效果还是不错的。这个版本的内部代号是Dragon,在帮助文件的后半部分都是程序员的照片和聚会照片,是个很特别的帮助。

2010年之后M*Modal(其开发团队被3M用8亿美元收购,2亿现金加6亿股份)开始快速发展,很快成为行业第2。M*Modal的优势主要有以下2点:

  • 结构化电子CDA编辑器和CDA发布
  • 识别的再训练

2020之后出现了一家新的公司Soniox 。这家公司的语义分析不错,特别是对于新报告的处理。

上面说的 M*Modal、 Nuance、Soniox ,我们都长期合作过。另外我们自己也有一个引擎,而且可以兼容 M*Modal、 Nuance的数据格式。能够平滑替代M*Modal和Nuance的服务。目前我们每个月会处理400万分钟的医生的录音。

这篇关于基于语音识别的智能电子病历(一)的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/951537

相关文章

嵌入式QT开发:构建高效智能的嵌入式系统

摘要: 本文深入探讨了嵌入式 QT 相关的各个方面。从 QT 框架的基础架构和核心概念出发,详细阐述了其在嵌入式环境中的优势与特点。文中分析了嵌入式 QT 的开发环境搭建过程,包括交叉编译工具链的配置等关键步骤。进一步探讨了嵌入式 QT 的界面设计与开发,涵盖了从基本控件的使用到复杂界面布局的构建。同时也深入研究了信号与槽机制在嵌入式系统中的应用,以及嵌入式 QT 与硬件设备的交互,包括输入输出设

阿里开源语音识别SenseVoiceWindows环境部署

SenseVoice介绍 SenseVoice 专注于高精度多语言语音识别、情感辨识和音频事件检测多语言识别: 采用超过 40 万小时数据训练,支持超过 50 种语言,识别效果上优于 Whisper 模型。富文本识别:具备优秀的情感识别,能够在测试数据上达到和超过目前最佳情感识别模型的效果。支持声音事件检测能力,支持音乐、掌声、笑声、哭声、咳嗽、喷嚏等多种常见人机交互事件进行检测。高效推

让树莓派智能语音助手实现定时提醒功能

最初的时候是想直接在rasa 的chatbot上实现,因为rasa本身是带有remindschedule模块的。不过经过一番折腾后,忽然发现,chatbot上实现的定时,语音助手不一定会有响应。因为,我目前语音助手的代码设置了长时间无应答会结束对话,这样一来,chatbot定时提醒的触发就不会被语音助手获悉。那怎么让语音助手也具有定时提醒功能呢? 我最后选择的方法是用threading.Time

智能交通(二)——Spinger特刊推荐

特刊征稿 01  期刊名称: Autonomous Intelligent Systems  特刊名称: Understanding the Policy Shift  with the Digital Twins in Smart  Transportation and Mobility 截止时间: 开放提交:2024年1月20日 提交截止日

基于 YOLOv5 的积水检测系统:打造高效智能的智慧城市应用

在城市发展中,积水问题日益严重,特别是在大雨过后,积水往往会影响交通甚至威胁人们的安全。通过现代计算机视觉技术,我们能够智能化地检测和识别积水区域,减少潜在危险。本文将介绍如何使用 YOLOv5 和 PyQt5 搭建一个积水检测系统,结合深度学习和直观的图形界面,为用户提供高效的解决方案。 源码地址: PyQt5+YoloV5 实现积水检测系统 预览: 项目背景

AI(文生语音)-TTS 技术线路探索学习:从拼接式参数化方法到Tacotron端到端输出

AI(文生语音)-TTS 技术线路探索学习:从拼接式参数化方法到Tacotron端到端输出 在数字化时代,文本到语音(Text-to-Speech, TTS)技术已成为人机交互的关键桥梁,无论是为视障人士提供辅助阅读,还是为智能助手注入声音的灵魂,TTS 技术都扮演着至关重要的角色。从最初的拼接式方法到参数化技术,再到现今的深度学习解决方案,TTS 技术经历了一段长足的进步。这篇文章将带您穿越时

【C++学习笔记 20】C++中的智能指针

智能指针的功能 在上一篇笔记提到了在栈和堆上创建变量的区别,使用new关键字创建变量时,需要搭配delete关键字销毁变量。而智能指针的作用就是调用new分配内存时,不必自己去调用delete,甚至不用调用new。 智能指针实际上就是对原始指针的包装。 unique_ptr 最简单的智能指针,是一种作用域指针,意思是当指针超出该作用域时,会自动调用delete。它名为unique的原因是这个

单片机毕业设计基于单片机的智能门禁系统的设计与实现

文章目录 前言资料获取设计介绍功能介绍程序代码部分参考 设计清单具体实现截图参考文献设计获取 前言 💗博主介绍:✌全网粉丝10W+,CSDN特邀作者、博客专家、CSDN新星计划导师,一名热衷于单片机技术探索与分享的博主、专注于 精通51/STM32/MSP430/AVR等单片机设计 主要对象是咱们电子相关专业的大学生,希望您们都共创辉煌!✌💗 👇🏻 精彩专栏 推荐订

基于人工智能的智能家居语音控制系统

目录 引言项目背景环境准备 硬件要求软件安装与配置系统设计 系统架构关键技术代码示例 数据预处理模型训练模型预测应用场景结论 1. 引言 随着物联网(IoT)和人工智能技术的发展,智能家居语音控制系统已经成为现代家庭的一部分。通过语音控制设备,用户可以轻松实现对灯光、空调、门锁等家电的控制,提升生活的便捷性和舒适性。本文将介绍如何构建一个基于人工智能的智能家居语音控制系统,包括环境准备

Spring Boot集成PDFBox实现电子签章

概述 随着无纸化办公的普及,电子文档的使用越来越广泛。电子签章作为一种有效的身份验证方式,在很多场景下替代了传统的纸质文件签名。Apache PDFBox 是一个开源的Java库,可以用来渲染、生成、填写PDF文档等操作。本文将介绍如何使用Spring Boot框架结合PDFBox来实现电子签章功能。 准备工作 环境搭建:确保你的开发环境中安装了JDK 8或更高版本,并且配置好了Maven或