（二）医学影像放射设备集成语音输入模块（硬件模块）(前期研发的调研工作)

本文主要是介绍（二）医学影像放射设备集成语音输入模块（硬件模块）(前期研发的调研工作)，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

第一章、基本要求

1.1、使用场景或环境

1.2、支持声音识别、声纹识别

1.3、支持多国语言的语音识别

1.4、支持SDK二次开发

1.5、支持灵活输入

1.6、模块具有丰富的外部接口

1.7、支持定制功能、提供样品

1.8、系统性能要求。

第二章、性价比（公司对比）

第三章、科大讯飞

第一章、基本要求

1.1、使用场景或环境

医学影像放射设备搭载语音输入模块，在室内/室外条件下，医护人员在边检查边进行语音指令输入。
语音输入模块根据语音指令，转成对应的文字指令。
医疗设备的软件系统，根据文字指令，执行其他功能操作。

1.2、支持声音识别、声纹识别

要求可以识别人类发出的声音，并识别声音的内容。
要求可以识别声音的属性，比如是谁发出的声音指令。
要求可识别同一语言的不同方言。

1.3、支持多国语言的语音识别

可以识别中文、英文等主流语言的声音。

1.4、支持SDK二次开发

模块具备一定的内存。
模块支持自定义输入功能。

1.5、支持灵活输入

比如支持长语音、段语音输入。
比如支持语音的断断续续输入。

1.6、模块具有丰富的外部接口

比如网口、串口、USB接口、SD卡接口、CAN接口、SPI接口等等。
电源供电接口等等。

1.7、支持定制功能、提供样品

模块的规格尺寸可定制。
模块的功能可定制、扩展。
产品的开发阶段，希望提供样品。

1.8、系统性能要求。

安全性：
可靠性：具备高抗电磁干扰、高抗噪声干扰等等能力。
实时性：语言指令转文字指令，时延<200ms。
其他等等

第二章、性价比（公司对比）

参考以下链接与客服咨询之后，得到下面的表格

http://www.vic18.com/plus/view.php?aid=2128

http://www.elecfans.com/d/841906.html

http://m.elecfans.com/article/603651.html

串口

USB

接口

离线

在线

自定义语言

自定义指令

规格

尺寸

存储

容量

应用场景

声纹识别

实时性（ms）

价格

和商务沟通结果

科大讯飞

（002230）

输出

供电

只支持中文

支持中英

不

支

持

支持简单的自定义指令

医疗设备

/PC端

不

支

持

500

发了商务一封邮件，对方能够及时跟进

汇顶科技

（603160）

商务未回复邮件

拓尔思

（300229）

商务未回复邮件

汉王科技

（002362）

商务未回复邮件

紫光国芯

（220049）

商务未回复邮件

士兰微

商务未回复邮件

九芯电子

商务未回复邮件

景嘉微

商务未回复邮件

思必驰

商务未回复邮件

云知声

商务未回复邮件

北京声致科技

输出

供电或用3.3V电源供电

只支持中文

支持中英

不支持

支持简单的自定义指令

128M

声纹唤醒，但不支持指令转换

200~300

该商务很不专业，打了3次电话，微信上问了4次，沟通过程很含糊，我问的问题都得不到专业的答复。最后才给我一个项目填报文档。填了文档给他发过去后，几天都不理人。从我发邮件，到填文档，前后浪费了我一个月的时间。

这家公司的产品现在一般只应用在手机，建议不要采纳这家公司的产品做Window/Linux。

对比了我以前的十几家样品的采购，这家公司服务态度真的是非常差，感觉不像一家正规的公司。

百度

未发邮件

第三章、科大讯飞

https://doc.iflyos.cn/aiui/whitepaper/、https://www.xfyun.cn/services/ring6mic

实际上，科大讯飞那边给了我两个文件，但是这两个文件并没有过多地阐述这个模块的功能。于是，我需要根据初期电话沟通支持的功能、模块说明链接https://doc.iflyos.cn/aiui/whitepaper/进一步调研科大讯飞的产品。

依据这个网站，获取的有效信息如下：

AIUI——AIUI 是科大讯飞2015年推出的一套以语音为核心的人机交互解决方案，意在使应用和设备能够快速具备能听会说，能理解会思考的能力。默认配置进场识别模式。
语音唤醒——4-6个音节的唤醒词、唤醒率超过95%、用户可自定义唤醒词、单设备最高支持8个唤醒词同时使用。唤醒模式又分为一次唤醒和持续交互唤醒。持续交互——持续交互（continue）即全双工交互，在一次唤醒后，可以保持一段时间的唤醒（一般小于60秒），在这段时间内，可以直接与机器交互，免去唤醒词以后，会使得人机交互更加自然。该模式必须用AIUI 麦克风阵列 + AIUI 评估板（量产版）。一次唤醒——即一次唤醒，一次响应。（暂时只支持android平台）
语音识别——普通话近场识别(手持语言设备录用的状态)、远场识别(1m~5m，多麦)准确率达98%、95%。远场识别率1米、3米、5米分别为95%、92%、90%，远场只提供普通话。
方言——普通话方言
全双工交互——全双工交互指在设备扬声器发声时，且不关闭麦克风的情况下，用户可以打断设备的播放，进行语音识别和语义理解。

识别模式——一种模式是按键触发录音并识别。另一种模式是，持续录音，连续识别：可以根据业务需求保持交互状态10秒~120秒，实现一次触发多次响应。

拒识——过滤无关的语音和无效的噪音进行过滤，例如嗯、啊、哦等语气词。

语义理解——将语言转成Json数据格式？？？？

自定义技能、自定义问答。

语音合成——将文字信息转化为声音信息，给产品配上“嘴巴”。

AIUI 目前支持提供多种集成模式，包含 SDK，硬件接入，HTTP 协议以及微信公众号接入的方式。SDK 目前提供 Android，iOS，Linux，Windows 平台。

远场解决方案——方案一：麦克风阵列+输出单路音频至上位机+上位机可以集成 AIUI 的 SDK。方案二： AIUI 评估板（量产版）+ 通过串口将结构化语义信息输出到上位机。

热词上传——例如“燕京啤酒”在通用领域可能会被识别成“眼睛啤酒”，但是当您上传了热词后，识别成功率会大概率提升。

SDK参数配置——Json。