拓展聋哑儿童交流的空间和渠道---基于Kinect的手语实时翻译系统

本文主要是介绍拓展聋哑儿童交流的空间和渠道---基于Kinect的手语实时翻译系统，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

本文转自 ----- 专访Kinect手语翻译系统团队：网状手语图模型是实现实时翻译的关键

原文链接在这里->http://www.csdn.net/article/2013-12-17/2817828

看到这篇文章，真的非常感动。技术改变生活，不是一句空话。而那些聋哑儿童更加需要社会的关爱。这项技术拓展了聋哑儿童交流的空间和渠道，使他们更好的融入到社会中来。这个项目真是太有意义了，祝这个项目可以取得更加好的成绩。

十月底的一天，TNW报道了微软亚洲研究院的一项新研究——基于Kinect的手语翻译系统，微软的这个研究让Kinect化身成了一个手语翻译器，它可以把手语实时翻译成口语，当然反之也亦然。

CSDN对此也进行了报道，随后网友对于Kincet这个新用途，也纷纷发表了自己的看法，有的赞到这真的是聋哑人的福音，有的人感叹这个创意真的挺不错，想了解这个项目的研发过程和技术实现细节，当然也有人对基于Kinect的手语翻译系统表示质疑，不看好其应用前景……为此，CSDN特意采访了基于Kinect的手语翻译系统的项目团队，希望能给大家释疑。

以下是本次专访内容：

基于Kinect的手语翻译系统项目的缘起

CSDN：通过计算机来识别手语然后进行翻译，这个很好的想法一开始是来自哪里？微软亚洲研究院是怎么和中国科学院走到一起的？后来是什么因素促使你们决定做这个项目？

项目团队：2009年，微软亚洲研究院自然语言计算组主任周明博士在一个聚会上碰见了北京联合大学特殊教育学院的李晗静老师。李老师向周明提出，微软能不能通过技术让自己的聋哑学生能和不懂手语的老师进行交流。因为这些学生特别渴望听到名教授讲课，但一来他们听不见声音，二来那些教授也不懂手语，非常可惜。

周明忽然想到自己的师弟、中国科学院计算技术研究所（下称“中科院计算所”）的陈熙霖教授，他研究手语识别技术已经有十多年历史。经过沟通，周明得知中科院的手语识别项目遇到瓶颈，正停滞不前，他立刻想到微软的Kinect摄像头及相关系统可以对这个项目有帮助，于是双方一拍即合。在整个项目中，北京联合大学也充分支持，请聋哑学生帮助进行数据采集，大大提高了样本数据量。

几个重要的成功因素：

微软亚洲研究院鼓励学术合作的氛围与机制，以及学术合作部专门促进与高校、科研机构的合作。通过学术合作部，此项目不仅申请到一些资金的支持，并成为Kinect领域当年亚洲唯一一个获得微软研究院全球资助的研究项目。
中科院计算所陈熙霖、柴秀娟带领的研究团队在手语识别领域拥有深厚的研究积淀与成果。
北京联合大学特殊教育学院拥有丰富的手语数据资源用于采集与验证。
微软亚洲研究院的研究方向与专长在此项目中有用武之地：周明的自然语言计算组擅长语言模型，童欣的网络图形团队能够实现手语合成，都是这个项目所需的核心技术。

CSDN：在这个项目中，哪家科研机构是主体？

项目团队：所有通过微软亚洲研究院学术合作部开展的项目，主体科研机构都是合作方，在这个项目中就是中国科学院计算技术研究所。微软亚洲研究院也非常积极地参与项目，并在技术与设备层面都做出了很大贡献。

CSDN：一共有多少人参与到项目中？两家科研机构是怎么分工的？为什么这样分工？另外从立项到项目完成，你们一共用了多久？工作量如何？

基于Kinect的手语翻译系统的项目团队

项目团队：该项目参与人员包括十余人，其中包括微软亚洲研究院多个领域的资深研究员，中科院计算所的研究员和学生，以及北京联合大学的师生。

分工：

微软亚洲研究院：提供Kinect设备及相关系统，构建语言模型，实现手语的图形合成
中国科学院计算技术研究所：手语识别
北京联合大学特殊教育学院：手语数据采集

目前此项目尚未完成，还有很多可以提升和优化的空间

CSDN：在合作的众多日夜中，最让你们记忆犹新的事是什么？可否分享下？

项目团队：在合作的过程中，合作单位为了手语识别这一共同的目标，群策群力，发挥各自的资源优势，进行有效的整合，在很短的时间里实现了稳定可靠的展示系统，这是非常难能可贵的。

微软亚洲研究院对整个项目的把控和支持，中科院计算所对手语识别算法的精心设计和验证，联合大学的师生对数据采集和系统测试的付出，所有的一切都是项目成功的基础。今年7月份在项目展示前夕，为了搭建一个稳定可靠的系统，项目的每个人都全力以赴。微软的周明老师在项目例会上不断地给大家鼓劲；联合大学的学生也是不辞辛苦，每次都要坐1个多小时的地铁来进行测试；计算所负责算法设计和系统集成的研究人员更是辛苦地加班，将系统结构进行全面的优化，终于使得新的系统取得了令人满意的精度、速度。

基于Kinect的手语翻译系统项目技术实现过程

CSDN：能不能简单介绍下整个手语翻译系统的工作原理和过程？其中，最重要的是哪一环？

项目团队：简单来说包括模型的训练和识别两个阶段：

在模型的训练阶段，每一个手语词采集多个训练样本，然后通过特征提取，生成一个统一的模型，作为该手语词的描述。
在识别阶段，对输入的视频序列，用同样的特征提取方法，生成轨迹和手型两个通道的特征描述，与Gallery中的所有词汇模型进行匹配，获得候选词汇集。在得到手语单个词汇的识别结果之后，由于不可能保证所有的词汇都识别正确，因此可以根据语言模型对识别结果进行修正，得到更为合理和正确的结果。

可以说，手语识别和翻译的每一个步骤对最终的结果都是至关重要的。如果一定要对其重要性进行排序，那么应该是手语的建模。一个适合手语识别时序问题的模型，对于建立手语词汇的有效描述以及最终取得好的识别结果是非常关键的。

CSDN：在这个项目之前，手语识别领域都存在哪些挑战？在识别上，你们都试验了多少个输入传感器？最后为什么选择Kinect？它识别率是最高的吗？

项目团队：在本项目之前，手语识别问题确实已经陷入了瓶颈。一方面，基于数据手套的手语识别，准确率高，看似已接近实用，但数据手套设备昂贵，携带不便，难以普及和推广；另一方面，纯粹的基于视觉的手语识别，对任意情况下的手部检测、跟踪和分割非常困难，这些使得手语识别只能在特定的场景下进行。

在识别上，我们曾经使用过数据手套，颜色手套，普通的2D摄像头，立体视相机等输入设备。如前所述，我们要综合考虑各种设备的优势和劣势，寻求设备和性能的平衡。因此，比较而言，Kinect是最为合适的用于手语识别的输入设备。目前看来，与性能最好的基于数据手套的方法相比，还有一点差距。但我们相信，通过后续的努力，基于Kinect的手语识别性能，一定可以与基于数据手套的性能相比，并得到更好的推广。

CSDN：在整体识别率上（手语和语音），你们还做了哪些努力？

项目团队：我们在手语识别率上所做的努力有以下：

数据采集量大：北京联合大学特殊教育学院的学生们知道这个技术是要帮助聋哑人的，对数据采集就特别有激情，志愿为我们采集了很多的数据。同样的一个词会采集10份、20份、甚至30份数据来表达手势的变形，以前做手语不会采用这么大的数据。
识别方法先进：中科院计算所陈熙霖教授的团队在做手语识别上已经有十年经验了，方法本身就很先进。其次，微软亚洲研究院提供了语言模型，保证词与词之间的识别有一定的约束；Kinect摄像头以及最新的开发包，使识别精度大幅度提高；还有世界领先的手语合成技术。

而在语音识别率上，主要进行的是去噪，将口语或停顿、罗嗦的话恢复成有逻辑有意义的句子。

CSDN：在解决了手语识别问题之后，剩下的工作中哪部分最具有挑战性？为什么？

项目团队：我们现在提供了手语识别问题的一种可能的解决方案。手语识别是模式识别、计算机视觉等领域的挑战性问题，其本身又可以衍生出很多其他的问题，非特定人手语识别即是一个典型的问题，也是极具挑战性的。

我们知道，对于同一个手语词，每个人习惯的打法可能会不太一样，这可以类比于语音识别中的方言问题。如何对于不同人打出的手语词都能够准确的进行识别，无疑是极具挑战性的。

CSDN：整个项目都应用了哪些技术？其中，你们为项目中哪个技术的实现最为自豪？能否分享下解决过程？

项目团队：手语的识别过程包括前处理和模型匹配两个关键步骤。前处理步骤主要包括结合深度图和彩色图的人手分割技术，整段视频的关键帧提取技术。模型匹配步骤采用融合了手型，轨迹和位置的多维度特征，并结合提出的网状手语图模型来描述每个用于识别的手语词，进而计算其相似度。

我们觉得网状手语图模型具有独创性，它能充分利用关键帧的优势，快速对每个手语词进行建模和相应的识别。

在手语识别中，特征维度高，单词数量大，因此计算代价一直是困扰我们的难题，在连续手语识别中尤为突出。常用的模板匹配方法计算一个词往往需要花费“秒”级别的时间，这意味着一个句子可能几秒就结束了，而识别却得花费几倍的时间，这样是不可能达到实时的。在参考隐马尔科夫模型之后，我们建立了基于关键帧的网状手语模型。这个模型对一个手语词的几个训练样本的信息进行统计，获得可变的状态数目，状态先验，跳转概率和似然值，它比传统的隐马尔科夫模型更加适合我们的基于关键帧的手语识别问题。在此算法基础上，系统也顺利的实现了实时的目标。

基于Kinect的手语翻译系统面临的挑战

CSDN：Kinect手语翻译系统目前还存在哪些问题有待解决？

项目团队：目前系统是基于标准中国手语的，已经验证了1000个词汇，能够完成孤立词的识别。因此一方面词汇量需要再提升，覆盖整个标准中国手语词汇集合，另一方面还要继续完善连续句子识别，这是非常有难度的。

如何将Kinect小型化，更便于听障人士随时随地使用。

CSDN：有人质疑Kinect不太容易携带，因此实用性大大打了折扣，对此你们是怎么看的？其次，在可穿戴设备概念如此流行的今天，你们有没有考虑做成类似Google Glass的设备？

项目团队：相对于传统的数据手套而言，用户戴着手套打手语是有约束的，从用户体验的角度来讲，数据手套不一定比Kinect更好，因为用Kinect时使用者是自由的，没有任何约束。有些人质疑Kinect不便于携带，因此实用性大打折扣，我们承认目前Kinect确实还没有做到便携的程度，其实用性会受影响，但在一些特殊的场合如医院、银行、机场等，通过Kinect进行手语识别看起来是完全可行的。

从长远角度看，毫无疑问，Kinect设备的小型化是一个必然的趋势。如果未来可以把数字手套做得很轻便灵敏，比如可以贴在手指上，那也会有很大的发展前途，所以我们不排斥未来考虑将类似的想法用在我们的手语翻译系统上。

CSDN：有业内专家表示，该项目最难的地方是在手语识别，因为手语上也有各地方言，而且差异较大，这会影响到Kinect的推广应用，对此你们将怎么解决？

项目团队：如前所述，我们会先着重于解决目前基于标准中国手语的系统的词汇量提升与连续词和句子的识别。

上述问题解决之后，才能谈不同手语系统之间如何互动。这相对来讲能快一些，因为一种手语的问题解决了，其他的手语可以类推，一些类似Transfer Learning的技术可以应用进来。

基于Kinect的手语翻译系统的未来

CSDN：有人说微软内部很多创新都很不错，但就是转化不了实际应用，对于Kinect手语翻译系统你们目前有没有什么商用或推广计划？其次，你们觉得大概在什么时候能正式的商用？

项目团队：这个系统是微软亚洲研究院与高校的合作研究项目，而非商用产品的开发，知识产权归高校所有。微软希望Kinect设备所提供的全新人机交互技术，能够为各行各业的开发和研究人员提供一个更为广阔的平台和创新思路，实现更多的可能性。

技术工作者都有一个梦，就是让自己的技术为大众所用，服务更多人，现在Kinect还略显笨重，不能携带，项目本身也还有很多挑战要克服，但是循着这个梦往前走，也许有一天能达到我们期待的状态。那时这些技术储备都能够用到，所以要及早储备，及早研究才好。

CSDN：对于这个系统的未来，你们有什么期待？

项目团队：我们希望能够加快研究进程，使可识别的手语词汇范畴覆盖整个标准中国手语词汇，尽快完善和提升连续句子识别算法性能，使该系统真正可以服务于听障人士，提高他们的生活质量。

CSDN：这个项目必将给听障人士带来巨大帮助，除此之外，这个项目的成功在其它领域会不会也带来巨大价值？比如说视觉信息处理领域？等等……

微软亚洲研究院“基于Kinect的手语翻译系统”项目团队（图片由蒲东峰拍摄）

项目团队：手语识别涉及到模式识别，计算机视觉领域的很多方法。基于Kinect的手语识别，致力于研究如何将2D颜色信息和3D深度信息有效的融合，共同生成时序模型来对手语词汇进行刻画及识别。其中的诸多关键技术，如多通道信息的融合，时序模型的建立，鲁棒的分类方法等都是视觉信息处理领域的通用技术，因此，该项目的成功同时也会为其他相关的领域和应用提供借鉴或指导作用。

这篇关于拓展聋哑儿童交流的空间和渠道---基于Kinect的手语实时翻译系统的文章就介绍到这儿，希望我们推荐的文章对编程师们有所帮助！