拓展聋哑儿童交流的空间和渠道---基于Kinect的手语实时翻译系统

本文主要是介绍拓展聋哑儿童交流的空间和渠道---基于Kinect的手语实时翻译系统,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

本文转自 ----- 专访Kinect手语翻译系统团队:网状手语图模型是实现实时翻译的关键
原文链接在这里->http://www.csdn.net/article/2013-12-17/2817828
看到这篇文章,真的非常感动。技术改变生活,不是一句空话。而那些聋哑儿童更加需要社会的关爱。这项技术拓展了聋哑儿童交流的空间和渠道,使他们更好的融入到社会中来。这个项目真是太有意义了,祝这个项目可以取得更加好的成绩。


十月底的一天,TNW报道了微软亚洲研究院的一项新研究——基于Kinect的手语翻译系统,微软的这个研究让Kinect化身成了一个手语翻译器,它可以把手语实时翻译成口语,当然反之也亦然。

CSDN对此也进行了报道,随后网友对于Kincet这个新用途,也纷纷发表了自己的看法,有的赞到这真的是聋哑人的福音,有的人感叹这个创意真的挺不错,想了解这个项目的研发过程和技术实现细节,当然也有人对基于Kinect的手语翻译系统表示质疑,不看好其应用前景……为此,CSDN特意采访了基于Kinect的手语翻译系统的项目团队,希望能给大家释疑。

以下是本次专访内容:

基于Kinect的手语翻译系统项目的缘起

CSDN:通过计算机来识别手语然后进行翻译,这个很好的想法一开始是来自哪里?微软亚洲研究院是怎么和中国科学院走到一起的?后来是什么因素促使你们决定做这个项目? 

项目团队:2009年,微软亚洲研究院自然语言计算组主任周明博士在一个聚会上碰见了北京联合大学特殊教育学院的李晗静老师。李老师向周明提出,微软能不能通过技术让自己的聋哑学生能和不懂手语的老师进行交流。因为这些学生特别渴望听到名教授讲课,但一来他们听不见声音,二来那些教授也不懂手语,非常可惜。

周明忽然想到自己的师弟、中国科学院计算技术研究所(下称“中科院计算所”)的陈熙霖教授,他研究手语识别技术已经有十多年历史。经过沟通,周明得知中科院的手语识别项目遇到瓶颈,正停滞不前,他立刻想到微软的Kinect摄像头及相关系统可以对这个项目有帮助,于是双方一拍即合。在整个项目中,北京联合大学也充分支持,请聋哑学生帮助进行数据采集,大大提高了样本数据量。

几个重要的成功因素:

  • 微软亚洲研究院鼓励学术合作的氛围与机制,以及学术合作部专门促进与高校、科研机构的合作。通过学术合作部,此项目不仅申请到一些资金的支持,并成为Kinect领域当年亚洲唯一一个获得微软研究院全球资助的研究项目。
  • 中科院计算所陈熙霖、柴秀娟带领的研究团队在手语识别领域拥有深厚的研究积淀与成果。
  • 北京联合大学特殊教育学院拥有丰富的手语数据资源用于采集与验证。
  • 微软亚洲研究院的研究方向与专长在此项目中有用武之地:周明的自然语言计算组擅长语言模型,童欣的网络图形团队能够实现手语合成,都是这个项目所需的核心技术。

CSDN:在这个项目中,哪家科研机构是主体?

项目团队:所有通过微软亚洲研究院学术合作部开展的项目,主体科研机构都是合作方,在这个项目中就是中国科学院计算技术研究所。微软亚洲研究院也非常积极地参与项目,并在技术与设备层面都做出了很大贡献。

CSDN:一共有多少人参与到项目中?两家科研机构是怎么分工的?为什么这样分工?另外从立项到项目完成,你们一共用了多久?工作量如何?


基于Kinect的手语翻译系统的项目团队

项目团队:该项目参与人员包括十余人,其中包括微软亚洲研究院多个领域的资深研究员,中科院计算所的研究员和学生,以及北京联合大学的师生。

分工:

  • 微软亚洲研究院:提供Kinect设备及相关系统,构建语言模型,实现手语的图形合成
  • 中国科学院计算技术研究所:手语识别
  • 北京联合大学特殊教育学院:手语数据采集

目前此项目尚未完成,还有很多可以提升和优化的空间

CSDN:在合作的众多日夜中,最让你们记忆犹新的事是什么?可否分享下?

项目团队:在合作的过程中,合作单位为了手语识别这一共同的目标,群策群力,发挥各自的资源优势,进行有效的整合,在很短的时间里实现了稳定可靠的展示系统,这是非常难能可贵的。

微软亚洲研究院对整个项目的把控和支持,中科院计算所对手语识别算法的精心设计和验证,联合大学的师生对数据采集和系统测试的付出,所有的一切都是项目成功的基础。今年7月份在项目展示前夕,为了搭建一个稳定可靠的系统,项目的每个人都全力以赴。微软的周明老师在项目例会上不断地给大家鼓劲;联合大学的学生也是不辞辛苦,每次都要坐1个多小时的地铁来进行测试;计算所负责算法设计和系统集成的研究人员更是辛苦地加班,将系统结构进行全面的优化,终于使得新的系统取得了令人满意的精度、速度。

基于Kinect的手语翻译系统项目技术实现过程

CSDN:能不能简单介绍下整个手语翻译系统的工作原理和过程?其中,最重要的是哪一环?

项目团队:简单来说包括模型的训练和识别两个阶段:

  • 在模型的训练阶段,每一个手语词采集多个训练样本,然后通过特征提取,生成一个统一的模型,作为该手语词的描述。
  • 在识别阶段,对输入的视频序列,用同样的特征提取方法,生成轨迹和手型两个通道的特征描述,与Gallery中的所有词汇模型进行匹配,获得候选词汇集。在得到手语单个词汇的识别结果之后,由于不可能保证所有的词汇都识别正确,因此可以根据语言模型对识别结果进行修正,得到更为合理和正确的结果。

可以说,手语识别和翻译的每一个步骤对最终的结果都是至关重要的。如果一定要对其重要性进行排序,那么应该是手语的建模。一个适合手语识别时序问题的模型,对于建立手语词汇的有效描述以及最终取得好的识别结果是非常关键的。

CSDN:在这个项目之前,手语识别领域都存在哪些挑战?在识别上,你们都试验了多少个输入传感器?最后为什么选择Kinect?它识别率是最高的吗?

项目团队:在本项目之前,手语识别问题确实已经陷入了瓶颈。一方面,基于数据手套的手语识别,准确率高,看似已接近实用,但数据手套设备昂贵,携带不便,难以普及和推广;另一方面,纯粹的基于视觉的手语识别,对任意情况下的手部检测、跟踪和分割非常困难,这些使得手语识别只能在特定的场景下进行。

在识别上,我们曾经使用过数据手套,颜色手套,普通的2D摄像头,立体视相机等输入设备。如前所述,我们要综合考虑各种设备的优势和劣势,寻求设备和性能的平衡。因此,比较而言,Kinect是最为合适的用于手语识别的输入设备。目前看来,与性能最好的基于数据手套的方法相比,还有一点差距。但我们相信,通过后续的努力,基于Kinect的手语识别性能,一定可以与基于数据手套的性能相比,并得到更好的推广。

CSDN:在整体识别率上(手语和语音),你们还做了哪些努力?

项目团队:我们在手语识别率上所做的努力有以下:

  1. 数据采集量大:北京联合大学特殊教育学院的学生们知道这个技术是要帮助聋哑人的,对数据采集就特别有激情,志愿为我们采集了很多的数据。同样的一个词会采集10份、20份、甚至30份数据来表达手势的变形,以前做手语不会采用这么大的数据。
  2. 识别方法先进:中科院计算所陈熙霖教授的团队在做手语识别上已经有十年经验了,方法本身就很先进。其次,微软亚洲研究院提供了语言模型,保证词与词之间的识别有一定的约束;Kinect摄像头以及最新的开发包,使识别精度大幅度提高;还有世界领先的手语合成技术。

而在语音识别率上,主要进行的是去噪,将口语或停顿、罗嗦的话恢复成有逻辑有意义的句子。

CSDN:在解决了手语识别问题之后,剩下的工作中哪部分最具有挑战性?为什么?

项目团队:我们现在提供了手语识别问题的一种可能的解决方案。手语识别是模式识别、计算机视觉等领域的挑战性问题,其本身又可以衍生出很多其他的问题,非特定人手语识别即是一个典型的问题,也是极具挑战性的。

我们知道,对于同一个手语词,每个人习惯的打法可能会不太一样,这可以类比于语音识别中的方言问题。如何对于不同人打出的手语词都能够准确的进行识别,无疑是极具挑战性的。

CSDN:整个项目都应用了哪些技术?其中,你们为项目中哪个技术的实现最为自豪?能否分享下解决过程?

项目团队:手语的识别过程包括前处理和模型匹配两个关键步骤。前处理步骤主要包括结合深度图和彩色图的人手分割技术,整段视频的关键帧提取技术。模型匹配步骤采用融合了手型,轨迹和位置的多维度特征,并结合提出的网状手语图模型来描述每个用于识别的手语词,进而计算其相似度。

我们觉得网状手语图模型具有独创性,它能充分利用关键帧的优势,快速对每个手语词进行建模和相应的识别。

在手语识别中,特征维度高,单词数量大,因此计算代价一直是困扰我们的难题,在连续手语识别中尤为突出。常用的模板匹配方法计算一个词往往需要花费“秒”级别的时间,这意味着一个句子可能几秒就结束了,而识别却得花费几倍的时间,这样是不可能达到实时的。在参考隐马尔科夫模型之后,我们建立了基于关键帧的网状手语模型。这个模型对一个手语词的几个训练样本的信息进行统计,获得可变的状态数目,状态先验,跳转概率和似然值,它比传统的隐马尔科夫模型更加适合我们的基于关键帧的手语识别问题。在此算法基础上,系统也顺利的实现了实时的目标。

基于Kinect的手语翻译系统面临的挑战

CSDN:Kinect手语翻译系统目前还存在哪些问题有待解决?

项目团队:目前系统是基于标准中国手语的,已经验证了1000个词汇,能够完成孤立词的识别。因此一方面词汇量需要再提升,覆盖整个标准中国手语词汇集合,另一方面还要继续完善连续句子识别,这是非常有难度的。

如何将Kinect小型化,更便于听障人士随时随地使用。

CSDN:有人质疑Kinect不太容易携带,因此实用性大大打了折扣,对此你们是怎么看的?其次,在可穿戴设备概念如此流行的今天,你们有没有考虑做成类似Google Glass的设备?

项目团队:相对于传统的数据手套而言,用户戴着手套打手语是有约束的,从用户体验的角度来讲,数据手套不一定比Kinect更好,因为用Kinect时使用者是自由的,没有任何约束。有些人质疑Kinect不便于携带,因此实用性大打折扣,我们承认目前Kinect确实还没有做到便携的程度,其实用性会受影响,但在一些特殊的场合如医院、银行、机场等,通过Kinect进行手语识别看起来是完全可行的。

从长远角度看,毫无疑问,Kinect设备的小型化是一个必然的趋势。如果未来可以把数字手套做得很轻便灵敏,比如可以贴在手指上,那也会有很大的发展前途,所以我们不排斥未来考虑将类似的想法用在我们的手语翻译系统上。

CSDN:有业内专家表示,该项目最难的地方是在手语识别,因为手语上也有各地方言,而且差异较大,这会影响到Kinect的推广应用,对此你们将怎么解决?

项目团队:如前所述,我们会先着重于解决目前基于标准中国手语的系统的词汇量提升与连续词和句子的识别。

上述问题解决之后,才能谈不同手语系统之间如何互动。这相对来讲能快一些,因为一种手语的问题解决了,其他的手语可以类推,一些类似Transfer Learning的技术可以应用进来。

基于Kinect的手语翻译系统的未来

CSDN:有人说微软内部很多创新都很不错,但就是转化不了实际应用,对于Kinect手语翻译系统你们目前有没有什么商用或推广计划?其次,你们觉得大概在什么时候能正式的商用?

项目团队:这个系统是微软亚洲研究院与高校的合作研究项目,而非商用产品的开发,知识产权归高校所有。微软希望Kinect设备所提供的全新人机交互技术,能够为各行各业的开发和研究人员提供一个更为广阔的平台和创新思路,实现更多的可能性。

技术工作者都有一个梦,就是让自己的技术为大众所用,服务更多人,现在Kinect还略显笨重,不能携带,项目本身也还有很多挑战要克服,但是循着这个梦往前走,也许有一天能达到我们期待的状态。那时这些技术储备都能够用到,所以要及早储备,及早研究才好。

CSDN:对于这个系统的未来,你们有什么期待?

项目团队:我们希望能够加快研究进程,使可识别的手语词汇范畴覆盖整个标准中国手语词汇,尽快完善和提升连续句子识别算法性能,使该系统真正可以服务于听障人士,提高他们的生活质量。

CSDN:这个项目必将给听障人士带来巨大帮助,除此之外,这个项目的成功在其它领域会不会也带来巨大价值?比如说视觉信息处理领域?等等……

微软亚洲研究院“基于Kinect的手语翻译系统”项目团队(图片由蒲东峰拍摄)

项目团队:手语识别涉及到模式识别,计算机视觉领域的很多方法。基于Kinect的手语识别,致力于研究如何将2D颜色信息和3D深度信息有效的融合,共同生成时序模型来对手语词汇进行刻画及识别。其中的诸多关键技术,如多通道信息的融合,时序模型的建立,鲁棒的分类方法等都是视觉信息处理领域的通用技术,因此,该项目的成功同时也会为其他相关的领域和应用提供借鉴或指导作用。

这篇关于拓展聋哑儿童交流的空间和渠道---基于Kinect的手语实时翻译系统的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/207185

相关文章

不懂推荐算法也能设计推荐系统

本文以商业化应用推荐为例,告诉我们不懂推荐算法的产品,也能从产品侧出发, 设计出一款不错的推荐系统。 相信很多新手产品,看到算法二字,多是懵圈的。 什么排序算法、最短路径等都是相对传统的算法(注:传统是指科班出身的产品都会接触过)。但对于推荐算法,多数产品对着网上搜到的资源,都会无从下手。特别当某些推荐算法 和 “AI”扯上关系后,更是加大了理解的难度。 但,不了解推荐算法,就无法做推荐系

基于人工智能的图像分类系统

目录 引言项目背景环境准备 硬件要求软件安装与配置系统设计 系统架构关键技术代码示例 数据预处理模型训练模型预测应用场景结论 1. 引言 图像分类是计算机视觉中的一个重要任务,目标是自动识别图像中的对象类别。通过卷积神经网络(CNN)等深度学习技术,我们可以构建高效的图像分类系统,广泛应用于自动驾驶、医疗影像诊断、监控分析等领域。本文将介绍如何构建一个基于人工智能的图像分类系统,包括环境

水位雨量在线监测系统概述及应用介绍

在当今社会,随着科技的飞速发展,各种智能监测系统已成为保障公共安全、促进资源管理和环境保护的重要工具。其中,水位雨量在线监测系统作为自然灾害预警、水资源管理及水利工程运行的关键技术,其重要性不言而喻。 一、水位雨量在线监测系统的基本原理 水位雨量在线监测系统主要由数据采集单元、数据传输网络、数据处理中心及用户终端四大部分构成,形成了一个完整的闭环系统。 数据采集单元:这是系统的“眼睛”,

康拓展开(hash算法中会用到)

康拓展开是一个全排列到一个自然数的双射(也就是某个全排列与某个自然数一一对应) 公式: X=a[n]*(n-1)!+a[n-1]*(n-2)!+...+a[i]*(i-1)!+...+a[1]*0! 其中,a[i]为整数,并且0<=a[i]<i,1<=i<=n。(a[i]在不同应用中的含义不同); 典型应用: 计算当前排列在所有由小到大全排列中的顺序,也就是说求当前排列是第

嵌入式QT开发:构建高效智能的嵌入式系统

摘要: 本文深入探讨了嵌入式 QT 相关的各个方面。从 QT 框架的基础架构和核心概念出发,详细阐述了其在嵌入式环境中的优势与特点。文中分析了嵌入式 QT 的开发环境搭建过程,包括交叉编译工具链的配置等关键步骤。进一步探讨了嵌入式 QT 的界面设计与开发,涵盖了从基本控件的使用到复杂界面布局的构建。同时也深入研究了信号与槽机制在嵌入式系统中的应用,以及嵌入式 QT 与硬件设备的交互,包括输入输出设

JAVA智听未来一站式有声阅读平台听书系统小程序源码

智听未来,一站式有声阅读平台听书系统 🌟&nbsp;开篇:遇见未来,从“智听”开始 在这个快节奏的时代,你是否渴望在忙碌的间隙,找到一片属于自己的宁静角落?是否梦想着能随时随地,沉浸在知识的海洋,或是故事的奇幻世界里?今天,就让我带你一起探索“智听未来”——这一站式有声阅读平台听书系统,它正悄悄改变着我们的阅读方式,让未来触手可及! 📚&nbsp;第一站:海量资源,应有尽有 走进“智听

C#实战|大乐透选号器[6]:实现实时显示已选择的红蓝球数量

哈喽,你好啊,我是雷工。 关于大乐透选号器在前面已经记录了5篇笔记,这是第6篇; 接下来实现实时显示当前选中红球数量,蓝球数量; 以下为练习笔记。 01 效果演示 当选择和取消选择红球或蓝球时,在对应的位置显示实时已选择的红球、蓝球的数量; 02 标签名称 分别设置Label标签名称为:lblRedCount、lblBlueCount

【区块链 + 人才服务】可信教育区块链治理系统 | FISCO BCOS应用案例

伴随着区块链技术的不断完善,其在教育信息化中的应用也在持续发展。利用区块链数据共识、不可篡改的特性, 将与教育相关的数据要素在区块链上进行存证确权,在确保数据可信的前提下,促进教育的公平、透明、开放,为教育教学质量提升赋能,实现教育数据的安全共享、高等教育体系的智慧治理。 可信教育区块链治理系统的顶层治理架构由教育部、高校、企业、学生等多方角色共同参与建设、维护,支撑教育资源共享、教学质量评估、

软考系统规划与管理师考试证书含金量高吗?

2024年软考系统规划与管理师考试报名时间节点: 报名时间:2024年上半年软考将于3月中旬陆续开始报名 考试时间:上半年5月25日到28日,下半年11月9日到12日 分数线:所有科目成绩均须达到45分以上(包括45分)方可通过考试 成绩查询:可在“中国计算机技术职业资格网”上查询软考成绩 出成绩时间:预计在11月左右 证书领取时间:一般在考试成绩公布后3~4个月,各地领取时间有所不同

系统架构师考试学习笔记第三篇——架构设计高级知识(20)通信系统架构设计理论与实践

本章知识考点:         第20课时主要学习通信系统架构设计的理论和工作中的实践。根据新版考试大纲,本课时知识点会涉及案例分析题(25分),而在历年考试中,案例题对该部分内容的考查并不多,虽在综合知识选择题目中经常考查,但分值也不高。本课时内容侧重于对知识点的记忆和理解,按照以往的出题规律,通信系统架构设计基础知识点多来源于教材内的基础网络设备、网络架构和教材外最新时事热点技术。本课时知识