自动语音识别技术(ASR)在聋哑儿童计算机辅助教学中的开发与应用

本文主要是介绍自动语音识别技术(ASR)在聋哑儿童计算机辅助教学中的开发与应用,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

自动语音识别技术(ASR)在聋哑儿童计算机辅助教学中的开发与应用

RDTE OF CAI FOR THE DEAF&DUMB CHILDREN BASED ON ASR

 

一、             课题来源及研究的目的和意义;

据有关机构抽样调查,我国有残疾人约6000万,其中聋哑人约有1300万,18岁以下应受教育的聋哑人约达100万,这是一个庞大的弱势群体。他们在学习、工作和生活上有许多难于想象的艰辛和障碍,在成长和发展的道路上要比常人付出多倍的努力。聋哑儿童的教育是一项充满爱心、充满社会主义人道精神的光辉事业。也是我们整个社会义不容辞的责任。

    欧、美、香港等一些经济发达国家和地区聋教育起步很早、水平很高。在传统的教学方法、教学手段、仪器配备等方面我国与他们差距较大。在现阶段,国内外聋教育、康复机构较注重专用设备的研究和配备,而在现代化教学技术的应用,尤其在网络、计算机、自动语音识别技术等最新科技成果应用方面,我国与国外尚存在着一定的差距,基本上处于起步阶段。事实上,现代信息以及其他科技、医学等领域的新理论、新技术和新设备应用到聋人康复、教育等方面后,必将使世界聋教育的观念发生重大改变,从而也给聋校的教育改革带来巨大的影响,我国的聋教育必须抓住机遇,深入进行改革和创新,努力提高学校的教育质量,跟上时代的步伐。

    在全世界聋哑儿童的教育领域里,从现代教育技术的应用而言,我国与国外的差距不大,这是我国聋教育事业赶超世界水平的难得机遇。本课题率先把现代信息技术、现代教育技术与聋教育的特殊需求相结合,通过将信息技术及软件开发成果应用于聋教育,并对实施对象、实施方法及效果进行研究、对比,总结出符合中国国情的现代教育技术在聋哑儿童教育领域的实施经验。

    本课题旨在利用现代教育技术和手段,基于自动语音识别技术(ASR),在聋人教育的技术层面上,进行研究、改革、实践,注重培养聋哑儿童学习的兴趣,使其掌握收集、分析和处理信息的能力,掌握自学和终身学习的现代化手段,提高自身素质和适应社会生活的能力,使其能以平等的地位和均等的机会参与社会生活,共享社会物质文化成果。

 

二、             国内外在该方向的研究现状及分析;

聋哑人语音训练的研究国外始于六十年代中期,根据反馈途径的不同,大致可以分为两类:利用聋哑人的残存听力借助助听器听取自身发音已纠正发音的听觉反馈训练系统和通过观察CRT上根据自身发音经处理后所获得的特征参数来纠正发音的视觉反馈训练系统。前者造价低,但效果较差。对重听、重度耳聋、全聋的患者效果更差或完全无效。后者由于通过视觉反馈,几乎适用于一切聋哑人,训练效果也较好。在早期研制时视觉反馈系统成分较高,随着计算机和大规模集成电路技术的发展,尤其是语音专用芯片和单片机的出现,成本已大大降低。

目前,国外已经有多种视觉辅助语音训练系统的报道。这些系统基本上都是将受训者所发语音进行处理后,提取语音的特征(例如:强度、持续时间、频谱、基频、共振峰等),与标准发音的特征同时显示在CRT上,让受训者对自己的发音与标准音进行比较,逐步纠正自己的发音。很遗憾,这种系统所显示的信息对一般的受训者来说太转业了,不易为他们,尤其是聋哑儿童所理解,因此影响了训练效果。这是这类系统的最大缺点。

至于本课题的重点,自动语音识别研究,开始于五十年代初,当时电子信号频谱分析仪器开始被用于从语音信号中识别简单、少量的音节和音素。随着计算机技术的飞速发展,进入九十年代后,语音识别的研究进一步升温,除了连续语音听写机之外,还出现了诸多实用化的研究方向。IBM公司率先推出的ViaVoice标志着大词汇量、非特定人、连续语音识别技术正趋于成熟。目前,市场上还有很多比较成熟的语音ASR产品,而且他们大多数都支持二次开发,如微软的Speech Application SDK(SASDK)、SUN公司倡导的JavaSpeechAPI、IBM的Dutty++等。他们大部分能识别英语、日语和中文等不同国家的语言,Dutty++甚至能够识别某些地区的方言,如广东的方言-粤语。从整个语音识别研究的发展前景上看,语音识别系统的鲁棒性(Robust)将是未来几年的研究重点之一。因为这是语音识别系统由实验转为实用过程中的一个最为迫切最关键的问题。而针对聋童的自动语音识别系统,将是一个不可忽视的研究重点。

我国的语音识别研究起步较晚,但由于汉语语音识别的重要性日益突出,最近十年的发展十分迅速。所以相应从九十年代开始的自动语音识别的研究,我国基本可以和国外同步。目前,国内从事这方面研究机构主要有:清华大学、中国科学院声学研究所、中国科学院自动化研究所,香港大学、中国科学技术大学、国防科技大学、北京邮电大学等等。

 

三、             主要研究内容;

ASR,英文的全称是Automated Speech Recognition,即自动语音识别技术,它是一种将人的语音转换为文本的技术。语音识别是一个多学科交叉的领域,它与声学、语音学、语言学、数字信号处理理论、信息论、计算机科学等学科紧密相连。而针对聋童教育的ASR,也将运用到包含教育学、教育技术学在内的众多学科。

本课题基于语音识别技术,即将受训者所发语音经处理后,计算与标准语音及邻近语音的发音近似率,并在CRT上显示其结果,以指导受训者的发音逐步向标准语音靠拢。该系统显示的是与标准语音及其他类似音的发音近似率,并辅以发音的口型图显示,对受训者来说,显示信息比较直观,训练效果好。

具体而言,本课题重点研究开发适合聋哑儿童计算机辅助教学中应用的自动语音识别系统,即小(特定)词汇量、非特定聋童、连续自适应语音识别系统,并且提供方便前台(计算机辅助教学平台)调用的接口。

 

四、             研究方案及进度安排,预期达到的目标;

    拟采取的研究方法和技术路线(包括研究工作的总体安排、步骤和进度等):

本课题以Java语言为基础,结合自动语音识别技术的算法原理。

采取以下方式:

阶段一:分析阶段,研究诸多已有学术成果,确定具体的算法

        2005年1月~2005年2月

阶段二:设计阶段,设计出流程图。

        2005年2月~2005年3月

阶段三:开发程序,按照设计阶段流程,编码。

        2005年3月~2005年4月

阶段四:测试维护程序,按照实际情况,进行实用测试。

        2005年4月~2005年5月

阶段五:实现产品投入,完成毕业设计任务。

其中1到3阶段并不是明确界定的,进行螺旋式开发

研究的阶段成果及最终成果:

阶段性成果:

2005年1月,提交可行性调研报告;

2005年3月,完成流程图的设计;

2005年4月,编码完成;

2005年5月,软件测试完成,提交最终的科研成果。

 

五、             为完成课题已具备和所需的条件和经费;

1.  已经具备的条件:ASR的理论研究成果、相关JSAPI文档等

2.  所需条件:开发聋童计算机辅助教学平台

3.  经费问题:在实际开发中,考虑到版权问题,可能需要购买一些相关软件,或者咨询费等。

 

六、             预计研究过程中可能遇到的困难和问题以及解决的措施;

1.  理论

问题:由于现在语音识别的理论相当成熟,但涉及的学科知识广泛,故本人在某些方面不能及时地解决

解决措施:咨询相关专家或者查阅相关资料

2.  技术

问题:现在比较成熟开发语言采用的是C/C++等,而本课题采用的是Java,可能存在参考资料少,开发困难

解决措施:使用并完善已经发布的一系列JavaSpeechAPI

 

七、             主要参考文献。

[1] 陈汝琛等 基于语音识别技术的聋哑人视觉辅导语音训练系统 中国生物医学工程学报 1996.12

[2] 李建民等 基于汉语语音特点的大词表语音识别系统的研究 计算机学报 1992.5

[3] 郝杰 基于经典隐马尔可夫模型的汉语连续语音识别系统 电子与信息学报 2002.7

[4] 王昱 语音识别自适应技术的研究与实现 硕士学位论文 2000.5

[5] 雷静 语音识别技术的研究及基本实现 硕士学位论文 2002.3.1

[6] 陈荔龙 连续语音识别搜索算法的研究与应用 硕士学位论文 2002.3.1

[7] 王志强 基于GMM的声音信号分类器研究 硕士学位论文 2003.6.30

[8] 曹枝墙 自动语音应答系统的设计与实现 硕士学位论文 2004.2.1

[9] 王越 基于HMM模型的嵌入式语音识别软件研究 硕士学位论文 2003.3.1

[10]张军 抗噪声语音识别技术的研究 博士学位论文 2003.5.1

[11]王宁 基于音素的特定人大词汇量汉语语音识别算法研究硕士学位论文 2002.2.1

[12]盛青 语音自动识别技术(ASR)及其软件实时实现 硕士学位论文 2001.3.1

[13]Sun公司 Java speech API programmer’s guide 开发指南 1998.10.26

这篇关于自动语音识别技术(ASR)在聋哑儿童计算机辅助教学中的开发与应用的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/828585

相关文章

这15个Vue指令,让你的项目开发爽到爆

1. V-Hotkey 仓库地址: github.com/Dafrok/v-ho… Demo: 戳这里 https://dafrok.github.io/v-hotkey 安装: npm install --save v-hotkey 这个指令可以给组件绑定一个或多个快捷键。你想要通过按下 Escape 键后隐藏某个组件,按住 Control 和回车键再显示它吗?小菜一碟: <template

中文分词jieba库的使用与实景应用(一)

知识星球:https://articles.zsxq.com/id_fxvgc803qmr2.html 目录 一.定义: 精确模式(默认模式): 全模式: 搜索引擎模式: paddle 模式(基于深度学习的分词模式): 二 自定义词典 三.文本解析   调整词出现的频率 四. 关键词提取 A. 基于TF-IDF算法的关键词提取 B. 基于TextRank算法的关键词提取

水位雨量在线监测系统概述及应用介绍

在当今社会,随着科技的飞速发展,各种智能监测系统已成为保障公共安全、促进资源管理和环境保护的重要工具。其中,水位雨量在线监测系统作为自然灾害预警、水资源管理及水利工程运行的关键技术,其重要性不言而喻。 一、水位雨量在线监测系统的基本原理 水位雨量在线监测系统主要由数据采集单元、数据传输网络、数据处理中心及用户终端四大部分构成,形成了一个完整的闭环系统。 数据采集单元:这是系统的“眼睛”,

Hadoop企业开发案例调优场景

需求 (1)需求:从1G数据中,统计每个单词出现次数。服务器3台,每台配置4G内存,4核CPU,4线程。 (2)需求分析: 1G / 128m = 8个MapTask;1个ReduceTask;1个mrAppMaster 平均每个节点运行10个 / 3台 ≈ 3个任务(4    3    3) HDFS参数调优 (1)修改:hadoop-env.sh export HDFS_NAMENOD

csu 1446 Problem J Modified LCS (扩展欧几里得算法的简单应用)

这是一道扩展欧几里得算法的简单应用题,这题是在湖南多校训练赛中队友ac的一道题,在比赛之后请教了队友,然后自己把它a掉 这也是自己独自做扩展欧几里得算法的题目 题意:把题意转变下就变成了:求d1*x - d2*y = f2 - f1的解,很明显用exgcd来解 下面介绍一下exgcd的一些知识点:求ax + by = c的解 一、首先求ax + by = gcd(a,b)的解 这个

hdu1394(线段树点更新的应用)

题意:求一个序列经过一定的操作得到的序列的最小逆序数 这题会用到逆序数的一个性质,在0到n-1这些数字组成的乱序排列,将第一个数字A移到最后一位,得到的逆序数为res-a+(n-a-1) 知道上面的知识点后,可以用暴力来解 代码如下: #include<iostream>#include<algorithm>#include<cstring>#include<stack>#in

嵌入式QT开发:构建高效智能的嵌入式系统

摘要: 本文深入探讨了嵌入式 QT 相关的各个方面。从 QT 框架的基础架构和核心概念出发,详细阐述了其在嵌入式环境中的优势与特点。文中分析了嵌入式 QT 的开发环境搭建过程,包括交叉编译工具链的配置等关键步骤。进一步探讨了嵌入式 QT 的界面设计与开发,涵盖了从基本控件的使用到复杂界面布局的构建。同时也深入研究了信号与槽机制在嵌入式系统中的应用,以及嵌入式 QT 与硬件设备的交互,包括输入输出设

OpenHarmony鸿蒙开发( Beta5.0)无感配网详解

1、简介 无感配网是指在设备联网过程中无需输入热点相关账号信息,即可快速实现设备配网,是一种兼顾高效性、可靠性和安全性的配网方式。 2、配网原理 2.1 通信原理 手机和智能设备之间的信息传递,利用特有的NAN协议实现。利用手机和智能设备之间的WiFi 感知订阅、发布能力,实现了数字管家应用和设备之间的发现。在完成设备间的认证和响应后,即可发送相关配网数据。同时还支持与常规Sof

阿里开源语音识别SenseVoiceWindows环境部署

SenseVoice介绍 SenseVoice 专注于高精度多语言语音识别、情感辨识和音频事件检测多语言识别: 采用超过 40 万小时数据训练,支持超过 50 种语言,识别效果上优于 Whisper 模型。富文本识别:具备优秀的情感识别,能够在测试数据上达到和超过目前最佳情感识别模型的效果。支持声音事件检测能力,支持音乐、掌声、笑声、哭声、咳嗽、喷嚏等多种常见人机交互事件进行检测。高效推

【专题】2024飞行汽车技术全景报告合集PDF分享(附原数据表)

原文链接: https://tecdat.cn/?p=37628 6月16日,小鹏汇天旅航者X2在北京大兴国际机场临空经济区完成首飞,这也是小鹏汇天的产品在京津冀地区进行的首次飞行。小鹏汇天方面还表示,公司准备量产,并计划今年四季度开启预售小鹏汇天分体式飞行汽车,探索分体式飞行汽车城际通勤。阅读原文,获取专题报告合集全文,解锁文末271份飞行汽车相关行业研究报告。 据悉,业内人士对飞行汽车行业