本文主要是介绍读论文,第十天:Emerging Wearable Interfaces and Algorithms for Hand Gesture Recognition: A Survey,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
手在广泛的日常活动中是至关重要的,阻碍手部功能的神经系统疾病会显著影响生活质量。可穿戴的手势界面有望恢复和辅助手的功能,并增强人机通信和人机通信。本文综述的目的是综合目前新的手势识别传感接口和算法,应用范围包括康复、假肢控制、增强外骨骼、手语识别、人机交互和用户认证。结果表明,电、机械、声学/振动和光学感知是手势识别界面的主要输入方式。我们确定了两类算法:1)预定义的固定手部姿势的分类算法和2)连续手指和腕关节角度的回归算法。传统的机器学习算法,包括线性判别分析、支持向量机、随机森林和非负矩阵分解,已广泛应用于各种手势识别应用,和深度学习算法最近被应用于进一步促进传感器信号和多关节手势之间的复杂关系。未来的研究应集中于通过更大的手势数据集来提高识别准确性,提高实验室外日常使用的可靠性和鲁棒性,以及开发更柔软、不那么显眼的接口。
介绍
手对于进行日常活动是必不可少的,包括抓起杯子或向他人传递信息,比如挥手告别。随着全球人口老龄化,神经系统疾病的发病率导致手部功能丧失的增加,导致生活质量下降,[1],[2]。自动手势识别可以与游戏集成,以帮助评估康复进展,通过主动参与[3]或结合矫形器[4]来支持抓握力量。同样,上肢截肢者通常保留意图和神经运动控制[5],手势识别界面可以解码人类意图命令,用于假肢操作运动控制[6]或抓握力控制[7],实现独立生活。这些手势识别接口不仅支持基于家庭的日常活动,而且还减轻了医院的专业临床医生的负担。
手是听力受损者[8]的主要交流形式,手势识别界面可以通过自动手语翻译[9]与未受损者进行交流。手势识别还显示出为各种新兴的人机交互应用[10]提供更直观通信的潜力,包括与智能手机[11]的手势交互[11]、虚拟现实(VR)/增强现实(AR)[12],以及车载菜单控制,以避免在驾驶[13]时视觉搜索控制。新材料、新的传感技术和嵌入式系统的小型化可以使更直观和舒适的可穿戴界面,而机器学习算法的进步为更准确、强大和鲁棒的分类和跟踪性能提供了希望。
近年来,手势识别的算法能力有了显著的提高。以往基于简单阈值控制或模糊逻辑的方法主要依赖于人类知识;相比之下,机器学习近年来变得更加占主导地位,包括期望最大化和最大后验[14]等统计学习方法。深度学习技术[15],广泛用于图像分类,包括卷积神经网络(CNN)[16]、迁移学习[17]和元学习[18]也出现在手势识别应用中,以提高性能、不依赖先验知识和解决生物差异问题。
本文综述的目的是全面分析近年来出现的新型可穿戴接口和算法手势识别和识别目前阻碍实际使用的现有挑战。选定的论文使用了可穿戴传感方法附着在人体以下的一个或多个位置:上肢、手腕、手背和手指。手势和/或姿态跟踪至少要执行以下操作之一:对静态手势类别进行分类,估计动态手指弯曲角度,或对手部运动轨迹进行分类。基于计算机视觉方法或基于数据手套的手势识别的文章被排除在外,因为这些一直是最近的评论[8],[19],[20]的主题。第二节概述了基于手部功能的可穿戴手势识别的应用。第三节描述了接口和传感原理的类别,并讨论了它们的优点和局限性。在第四节中,我们介绍了传统的和新兴的新的解码算法,最后,在第五节中,我们提出了手势识别的潜在研究方向。
应用范围
修复
神经系统疾病,如中风和脑瘫、脊髓损伤和臂丛神经损伤,可导致长期运动功能损伤[22],[23]。手部运动功能与日常生活活动(ADLs)密切相关,显著影响生活质量[24]。因此,患有手部运动功能障碍的患者需要进行有效的康复治疗应该是目标导向的、密集的和重复的[25]。传统的康复在很大程度上依赖于临床医生和物理治疗师的指导和帮助,这是劳动密集型和昂贵的。因此,康复可能会给临床医生、物理治疗师和患者带来重大负担。此外,由于在无监督环境[26]中重复、无趣的康复方案,出院患者难以坚持有效的家庭康复。为了克服这些问题,许多研究集中在开发手部功能康复[1],[2]。对于神经系统疾病患者,虽然手部运动部分受到脑意图的抑制,但现有的神经信息可以通过可穿戴界面检测到。检测到的信息可以反映康复阶段的评估或帮助使外骨骼辅助adl。有两种主要方法:中高手功能患者的非辅助康复系统和中低功能患者的辅助主动康复。
假体控制
对于上肢截肢者,残肢中往往仍然存在神经信号,对这些神经信号进行解码可以反映人类的手势意图,这对假肢的直观控制至关重要。这可以解决日常生活中的问题,包括饮用水和在没有护理人员帮助的情况下抓东西。由于截肢者失去了手,传统的基于视觉的方法无法解码他们的意图,目前商业上的假肢主要基于开关控制,操作繁琐,只有简单的开环功能。在这种情况下,可穿戴界面可以作为一种直观的方式来解码截肢者的手势意图,以更多的自由度控制机器人假肢(dof)。可穿戴界面是实现闭环功能控制的关键,这是[39]研究的前沿趋势。它们可以帮助实现对假肢手指角度的连续控制,或通过连续的力水平控制(也称为比例控制),使假肢得到更灵活的控制,并在他们的日常生活中提供更好的体验。目前,可穿戴界面在假体控制区占主导地位,主要通过神经信号实现,包括肌[5]或患者残臂的部分力/变形信息。在这种假肢控制应用中,目标手势控制命令不仅包含可见的信息,如位置/角度,而且还处理不可见的信息,包括扭矩和力。大多数目标手势的动机是为日常抓取活动的假肢能力[40]。因此,许多研究者根据场景和需求定义自己的目标手势并开发自己的数据集,这可能会使不同研究之间的直接和公平的比较困难,从而给新研究者造成混淆。幸运的是,仍然有一些流行的开放数据集,它们不仅可以作为应用程序方面的实验协议设计的好例子,而且为关注算法方面的研究人员提供了良好的途径。流行的公共开放数据集包括NinaPro[41]、CSL-HDEMG[42]和CapMyo[43]。对这些数据集的详细总结和描述可以在[4中找到
与截肢者一样,一些中风患者的运动功能障碍太严重,无法恢复,这可能会导致终身残疾。这些患者需要辅助设备来帮助完成ADLs[25]。与康复系统相比,这些日常辅助设备更像是假体,对患者的日常生活[24]更不可或缺。因此,触及和抓意图的检测成为相关研究的关键。一种轻的、可穿戴的软机器人矫形器来支持adl。将imu置于手背、尺茎突和指指骨上,对伸手和抓握意图进行分类,并尽快发现抓握意图。然后,这就触发了矫形器来支持患者的握力[4]。基于前臂表面肌电图的意图检测也被用于控制辅助外骨骼或手假体[45]。大部分运动来自临床评估量表,与adl高度相关,包括腕部屈曲、腕伸、肿块屈曲、肿块伸展、钩状抓握、反对(手捏)和拇指
用于增强的外骨骼
虽然外骨骼的主要应用仍是在中风患者的康复中,但它们也可以作为提高健全人群能力的有效途径。由于手是人类的主要操纵者,手势识别技术可以用于能力增强的直观控制。身体健全群体的能力增强可分为两个方面:力量增强和功能增强。为了增强力量,Al-Fahaam等人[47]提出了一种基于人工肌肉的外骨骼,以减少工人抓取物体的体力。在功能增强方面,额外的机器人技术,包括额外的手臂[21]、第三只手和额外的手指,可以帮助扩展人类的功能,实现人机共生[48]的愿景。手外骨骼的未来发展应集中在制造轻、软、低成本、高负载容量系统[49]-[51]。
手势语言
人机交互
消费电子产品的一个重要方面是基于手势的人机交互,这是一种直观的表达用户想法的方式,可以增强人类和智能设备之间的理解。VR/AR技术的最新进展增加了对用户和设备之间更自然和身临其境的交互的需求。由于基于视觉的手势识别存在无触觉反馈、摄像机外目标、遮挡等固有缺陷,可穿戴界面不仅可以从感知角度克服遮挡问题,还可以与触觉反馈相结合,形成闭环沉浸式体验。然而,目前大多数可用的商用VR集由一个头戴式显示器、两个控制器和一个基站[67]组成,只能识别基于imu或摄像机的6自由度运动。然而,最新的VR游戏需要手指运动识别,只有少数领先的产品,如Oculus触摸和阀门指数能够识别一些简单的手指动作,比如射击和抓取。与传统的操纵杆输入设备相比,手势控制直观、相关
用户鉴别
隐私和安全是通信过程中的重要问题。近年来,基于面部和虹膜的生物识别密码已被应用于现实生活中,而其他基于生物识别的新模式包括脑电图[72]、步态[73]等已在研究领域越来越受欢迎。由于生物信号的个体独特性,手势也可以用作电子设备的密码(用户认证/识别)。对于可穿戴设备,目前的研究主要集中在表面肌电信号[74]、[75];其他传感模式,如电阻抗断层扫描(EIT)[76]和
传感方式
手势的变化是由手臂和手腕的肌肉收缩和肌腱滑脱引起的,并伴有血管变形和骨骼运动。在手和手指的运动过程中,许多生物和物理特征都发生了变化。这些变化可以通过电、机械、声学/振动或光学传感方法来捕获,并用作分类和回归算法的输入。在本节中,将介绍每一种类型的传感原理,以及具有代表性的传感模式、测量的生物特性和界面位置(表I)。
电信号
肌肉收缩由电信号触发,导致阻抗分布发生变化(图2)。这些电信号和阻抗分布可以通过表面肌电信号和EIT记录下来。由于信息传输速率高、信息传输效率高时间分辨率,表面肌电图是可穿戴手势识别中研究最广泛、最深入的方法。表面肌电图通过放置在皮肤上或肌肉组织内的电极来监测和记录电信号的变化。它包含了肌肉收缩的重要信息,驱动手部运动。表面肌电号主要有三种不同的布局:肌肉目标布局(在每个特定肌肉上放置一个表面肌电信号传感器来监测其收缩[9])、低密度表面电极布局(在腕带中组装多个表面肌电号传感器来识别手势或运动[6],[10])和高密度电极布局(使用几十个紧密间隔的电极来收集[79]区域的表面肌电信号)。表面肌电图方法的当前和潜在的应用包括假体控制[146]、游戏或计算机控制(MYO腕带)、用户认证[74]、[75]。表面肌电图方法的优点是它是神经肌肉测量,包含丰富的肌肉收缩的基本信息。此外,作为最常用的手势识别方法之一,众多商用表面肌电信号采集设备公司
EIT是一种广泛应用于医学领域的非侵入性断层扫描方法。人体组织具有电阻抗,随身体结构而变化,可以通过皮肤[150]上的表面电极进行监测。在此基础上,Yang等人[82]提出了一个使用EIT方法来识别手势的原型。EIT方法高度依赖于主题。EIT方法的当前和潜在的应用还包括用户身份验证[83]。EIT方法的优点是在识别具有相似肌肉收缩[76]、[85]的手势时具有较高的识别精度。EIT方法的缺点是EIT对环境干扰高度敏感(荧光光镇流器会引起持续的电磁干扰),并会阻碍与皮肤[82]的接触。
一些手势可能会导致皮肤变形,这也可以作为识别手势的一个特征。有两种类型的电传感方法,可以捕获这种变形:电接触电阻传感和电容传感。电接触电阻取决于接触的形状、尺寸和机械接触负载[151]的大小。川口等[87]提出了一种电接触感应手势识别方法,利用相应的阻力依赖性来检测皮肤变形来识别手势。电接触电阻方法的当前或潜在应用包括指关节角度估计[87]。电接触电阻法的优点是重量轻(0.067kg),舒适(不需要强烈的接触压力),使设备被用户接受。电接触电阻法的缺点是,它会受到腕部、肘部和前臂[87]的无关运动的严重干扰。电容传感是一种电传感方法,其原理是皮肤变形会导致两个电极(附着在皮肤上,或者在某些情况下,皮肤也作为电极)之间的距离发生变化,并导致电容[88]的变化。电容传感的当前或潜在的应用包括游戏控制、手语翻译和对象控制[89]。电容传感的优点是它是超低功率的,在每次使用[89]之前不需要再训练。电容传感的缺点是,传感性能可能会受到温度、湿度和皮肤状况变化的干扰。此外,在长期使用后,电极可能会被皮肤污染,从而导致电容值[55]的降低。
机械传感
机械传感可分为四种类型:FMG、惯性测量传感、应变传感和弯曲传感器传感(图3)。FMG是力域内肌肉活动的记录,可以从传感器位置的局部压力变化来测量。力敏电阻器是最常用的方法[92],[152]。此外,力传感器也可以是一个空气压力传感器封装在一个气囊[98]或覆盖一个弹性橡胶(TakkkTile,美国)。FMG传感器通常有一个像腕带一样的布局来识别手势或手指屈曲的角度,[95],[96]。当前或潜在的应用还包括假体控制[153]。这个FMG方法的优点是,与表面肌电信号相比,FMG在分类/回归方面具有更好的性能,并被用户[153]主观地所青睐。此外,FMG不会像表面肌电图那样遭受皮肤状况的改变。FMG方法的缺点是,每个FMG传感器都需要一个适当的初始压力,这意味着用户必须仔细调整腕带,以避免它变得太紧(导致超程误差)或太松(导致严重的接触错误)。在假肢控制中,这意味着FMG传感器阵列需要根据残肢的形状进行定制。此外,力敏电阻也有漂移问题,并容易受到电磁干扰问题[154]。
惯性测量传感是一种运动学传感方法,以IMU为例,IMU由3轴加速度计、3轴陀螺仪,有时是三轴磁强计组成。IMU方法的当前或潜在应用包括两个主要布局:在每个手移动的DoF[106]上放置一个IMU,或使用单个IMU作为传感器融合系统的一部分,以帮助处理动态手势[10]。此外,IMU的组件也可以单独使用(例如,磁性传感器可以放在手指上,以监测手指的运动,并作为手写输入设备[155])。IMU方法的优点是灵敏度高,在动态手势识别中普遍具有较高的精度。此外,IMU传感器价格便宜,使用方便。如果受试者按照一个标准协议进行手势,IMU信号将几乎没有个体差异。imu的识别精度在很大程度上取决于传感器的磨损位置。当做相同的手势时,不同的身体位置(如手指、手腕、前臂)将具有明显不同的运动学特征,这可能导致dif
应变传感器通常附着在手指和手的皮肤上。由于应变传感器与皮肤紧密相连,任何手指或手的运动都会导致应变传感器的读数发生变化,从而可以识别手势。一个理想的应变传感器应该是便宜、隐形、薄、轻质、可伸缩的,并且很容易安装在皮肤[111]上。潜在的应用包括智能手套。应变传感器的优点是,它们通常具有更高的分辨率[111]和更高的鲁棒性(不容易受到电极位移和来自环境的电子干扰)[65]。应变传感器的缺点是,由于材料和制造的限制,这些特性(廉价、隐形、薄、轻量级、可伸缩和可安装)通常不能同时实现,从而阻碍了实际采用。此外,应变传感器有时会出现液体泄漏问题[109]、稳定性差(传感特性会随着使用次数的增加而变化)[111]、[156]、短使用寿命(仅几周)[110]、[157]和大规模生产问题[109]。
挠性传感器是一种薄的条状的电阻器,可以用来测量弯曲的角度,不同的角度会引起不同程度的电阻。柔性传感器通常嵌入在智能手套中,对应每个手指[116]-[118]的弯曲传感器。Jani等人.[117]报道的一个潜在应用是手语翻译。柔性传感器的优点是它是便宜,易于制造,易于使用。该柔性传感器的缺点是其角度测量精度相对较低
声学/振动传感
手腕和前臂的物理结构的变化会导致外部源设备或肌肉本身产生不同的回声声学特征,因此声学传感器可以用于手势识别。目前,声学传感主要有三种方法:超声成像、机械肌力成像和骨传导声传感(图4)。超声成像可用于检测高时空分辨率[125]、[158]的肌肉形态学变化。超声成像有两种:a型(便携式一维超声造影)[119]和b型(高分辨率二维超声造影)[125]。由于浅表和深层肌肉都控制着手部的运动,与表面肌电图不同,超声可以同时捕捉深层肌肉活动和浅表肌肉活动。该超声方法的优点是具有较高的空间分辨率和识别精度[125]、[159]、[160]。超声波方法的缺点是,该设备通常体积庞大和昂贵,耗电,并需要一个耦合介质[123]。
手指或手的运动会导致手腕几何结构的改变并产生振动[161],这在一定程度上也可以看作是声音[128]。机械肌电图(MMG)是骨骼肌[162]产生的低频振动记录,与肌肉收缩和手部运动高度相关。MMG可以通过加速度计[163](加速度计用于测量振动)、麦克风[70]、[164]和压电传感器[165]来记录。MMG方法的优点是它不受像汗液这样的皮肤状况,可以作为补充sEMG [149].MMG方法的缺点是它具有运动伪影和低信噪比,并且经常受到背景噪声[166]、[167]的干扰。
骨传导声音感知是一种基于主动振动的手势识别方法。与MMG不同,骨骨传导的声音感应需要一个主动的振动源,而不仅仅是测量由肌肉结构变形内在产生的声音和振动。骨传导声音传感由接触接收器(麦克风或压电设备)和振动执行器组成。肌肉的形态变化会影响主动振动的扩散,并导致接收到的振动的振幅[129]、[131]、[133]和功率谱密度[71]等特性发生变化。骨传导的声音感知的优点是,通过同时使用不明显的振动(使感知成为可能)和明显的振动(提供触觉反馈)进行[133],骨传导的声音感知可以更容易地实现沉浸式的人机交互配置。骨传导声音感应的缺点是产生的声音可以被人类听到,从而变得噪音和烦人。
光学传感
光学传感功能轻、便携,易于集成到智能手表等消费电子产品中(图5)。最具代表性的光学传感传感方法是PPG。PPG传感器是一种常见的光学传感器,几乎可以在每一块智能手表的背面看到,并被用于监测脉冲率。PPG传感器由一个用来产生光的LED(发光二极管)和一个用来监测反射光的光强传感器组成。来自LED的光会被血管中的血液吸收,因此血管越大,它吸收的光就越多,反射的光就越少。Zhao等人的[69]发现,手的运动会压缩动脉的几何形状,并对血流造成明显的运动伪影。这些运动伪影可以通过PPG传感器进行监测,并可以从其中提取与手势相关的信号。PPG方法的潜在应用是,它可以在商业智能手表上作为一种低成本的精细获取的手势识别方法。PPG的一个巨大优势其方法是,它价格便宜,重量轻,而且通常会安装在智能手表上。
基于同样的理论,在其他领域使用的光学传感器,如果可以捕捉到与手势相关的特征,也可以用于手势识别。近红外光谱(NIRS)是一种常用的组织氧合和血流动力学[168]动态监测的化学成分分析方法。手势的变化会导致血管变形,并引起血流动力学的变化,因此,它们可以被近红外传感器捕获,并被NIRS分析[134]识别。飞行时间(ToF)传感器是另一种常用的测量距离的光学传感器,它以前曾被用于测量图像的深度信息。由于肌肉和骨骼与皮肤相连,手势会导致皮肤变形[142]。通过测量皮肤与传感器之间的距离,可以确定皮肤的变形,从而可以估计手势[140]。需要注意的是,本文将一些使用近红外传感器的[138]-[140]研究归类为ToF方法,因为这些研究仅仅使用近红外传感器来测量距离,而不是分析in的光学特性
这些方法是手势识别的新方法,缺乏进一步的研究。然而,这些光学传感方法有几个常见的缺点,包括对环境光噪声[135]的干扰敏感和对传感器位置的高灵敏度(因此,每次使用前必须重新校准),皮肤状况和强烈的身体运动(如咳嗽)[112],[137],[144]。这些缺点使得光学传感方法在实际应用中难以保持识别精度。然而,光学传感器通常结构紧凑,易于集成到消费电子产品中,这使光学传感成为商业可穿戴手势识别的理想潜在解决方案。
对比
为了更好地理解这些传感模式的优缺点,本段对上述传感模式进行了简要的比较。比较将在三个方面进行:敏感性、耐穿戴性和成熟度。在灵敏度方面,表面肌电图(电)、EIT(电)、FMG(机械)、超声成像(声学)、NIRS(光学)和PPG(光学)方法直接测量肌肉运动,因此具有较高的灵敏度和分辨率。IMU和应变传感方法的灵敏度取决于器件的设置。对于imu来说,放置在手指段上的传感器对手势有很高的灵敏度,但放置在手腕上的传感器则不会。对于应变传感,它取决于所使用的材料,并且可以有很大的变化。测量皮肤变形的方法(电接触电阻传感,电容传感,ToF)或具有低信噪比(MMG,骨传导声音感知)通常不那么敏感。为了提高可穿戴性,光学传感方法通常具有最小的尺寸,并且可以很容易地集成到商业设备中。电气方法,FMG、MMG和骨传导声音传感可以制成腕带类型,这也可以接受。应变传感、弯曲传感器和手套布局IMU传感器通常被制成手套形状;这是可以接受的患者和工业应用,但对消费者来说很难使用。超声成像方法具有最低的耐磨性;虽然超声波探头和处理电路越来越小,但它仍然需要一个耦合介质。为了保证成熟,表面肌电图、FMG、imu、柔性传感器和超声成像等方法有大量的研究和商业设备,这将使研究人员更容易进行实验。然而,其他方法如电接触电阻传感、电容传感、应变传感、MMG、骨传导声传感和光纤FMG仅处于概念验证阶段。其他传感模式如EIT、NIRS、PPG和ToF在其他领域有成熟的应用,但手势的应用
算法
手势识别算法通常可以分为解决手的姿态/轨迹的分类问题(例如手手势的确定符号或手移动的循环形式)或连续参数的回归(例如,连续手指弯曲角度或连续手腕偏差角度)。算法一般可以分为两种类型:传统的模式识别技术和深度学习技术(图6)。
传统的机器学习
传统的分类和回归技术使用原始信号、手工制作的特征提取、模型训练和测试方案。
数据预处理包括滤波、归一化和窗口分割,是原始信号和特征提取过程之间可选的。例如,对于人类表面肌电信号信号,有效频谱通常为20-500Hz,因此,应用带通滤波器和陷波滤波器来消除低频漂移或功率线噪声。归一化使原始信号的范围达到相同的尺度,通常可以加速训练过程。有两种规范化:最小最大规范化,映射功能一定范围像[−1、1]转移传感器值从不同的传感模式到相同的规模,和z-score规范化,将特性转移到相似的分布(平均0和标准差1)缩短训练收敛时间。窗口分割通常用于将连续的数据分割成基本的分析单元。然后在分段窗口内执行以下所有步骤。对于所有数据的连续处理,分割后的窗口可以在有重叠的时间序列数据上滑动,其长度会影响输出频率和相邻窗口内的相似性。
深度学习
然而,手工制作的特性不能保证全局优化,有时会根据不同选择的特性导致较大的性能变化。此外,手工制作的功能主要依赖于专家知识,而且通常只有提取浅层特征,导致满填充简单任务的能力有限。随着深度学习技术的进步,越来越多的研究使用了基于卷积神经网络的解决方案。神经网络结构的灵活性可以使目标输出成为一个分类问题,一个回归问题[179],或一个组合[180]。CNN已经被证明在图像识别问题上优于大多数传统的基于统计学习的方法,并且最初被设计用于图像分类或自然语言处理[181],[182]。因此,在可穿戴手势识别领域直接采用深度学习技术可能并不能保证比传统方法更好的性能。在评估是否采用深度学习时,应考虑以下因素:1)数据集的数量,2)任务的复杂度,3)在分类或回归精度之外的其他需求(包括鲁棒性或少镜头学习),4)实时计算费用。
评估结束后,手势可以随时间变化,从界面记录的信号也可以随时间变化,这可以通过常用的时间序列处理程序进行处理。因此,一维CNN[183]或递归神经网络,包括长短期记忆(LSTM)[184],通常是一个合适的选择,对于通道有限(通常小于10)的空间稀疏信号源是非常常见的。例如,Panwar等人[30]提出了一种具有两个1D-CNN层的算法来处理前臂上的一个IMU信号,对3个半自然的前臂运动达到了97.89%的准确率。Zhu等人[185]使用双向LSTM算法解码智能手表上的一个IMU数据,成功识别了5个手势,准确率为96%。Kim等人[186]记录了来自可穿戴频带的一个IMU信号,然后使用卷积层和门控循环单元(GRU)层相结合的架构来识别9个手臂手势,准确率为96.20%。然而,这些方法可能会忽略维度之间的依赖关系,因此不能完成具有挑战性的任务[187]。
另一个解决方案是寻找如何将低维可穿戴传感器数据转换为适当形式的高维“图像”数据,以无缝地利用深度学习技术。答案根据信号类型的不同而不同,下面的部分介绍了一些具有代表性的探索。扩展低维数据的一种可能的方法是包含更长时间的数据来扩展图像高度。例如,在电容传感方面,霍达班德鲁等人[90]使用24电容传感器阵列,并结合之前的序列来构建二维阵列。然后,利用基于注意力的GRU神经网络,对12个手势的准确率达到96%。类似地,Truong等人[87]用4秒的时间框架扩展了15通道数据,得到了100×15矩阵,然后使用CNN实现了15个手势的f1分数为0.95,而随机森林为0.886。Zakia等人[188]提出了基于FMG的2D-CNN算法,通过重新排列的数据格式到16×25,识别6个抓取手势,准确率为96%,表示传感器编号和采样窗口维度。
新兴研究方向
对于更大的手势集,具有更高的精度
虽然某些应用程序的分类精度很高,但手势的总数往往是有限的[10]、[71]、[92]、[98]。然而,有限的手势集不能实现对手的各种和直观的控制,因为手很灵巧,不仅手指有21个自由度,而且在手腕上有3个自由度平移和3个自由度旋转。当手势数量增加时,实现高精度是一个挑战,因为手部结构紧凑,三维形态结构,将传感器放置在某个位置不能完全检测潜在的变化,特别是对于一些类似的美国手语中的字母U和V。为了在保持高精度的同时增加手势集,以下几点值得研究。1)寻找更强大的传感技术有助于提高传感能力。例如,McIntosh等人[123]最近研究了以前用于医学成像领域的超声模式B,通过实时肌肉变化实现静态手姿态识别99%的准确率。此外,高密度表面肌电图传感器在研究肌肉收缩[202]的生理过程方面非常强大,但目前在实验室或医学应用方面很有限。未来的研究有可能根据需求定制局部高密度[99],从而提高传感能力。有了更详细的信息,如形态肌肉结构或高密度传感器,其能力可以进一步扩展。2)多传感融合可能是提高能力的另一个潜在的解决方案,因为使用更多的传感模式可以潜在地克服单一传感的局限性,从而保证更高的能力。目前,有一些针对[78]、[203]方向的初步研究,比如从硬件角度融合sEMG和FMG,以及从算法角度融合视觉数据与应变数据,[56]。特别是在手语识别领域,多感知融合不仅有助于更准确的手势识别,而且可以整合来自人脸表情[53]的信息。3)标准化的协议和数据集可以促进探索和采用
很明显,更多的数据对于先进的算法和模式识别的最终性能是至关重要的。阻碍大数据采集的一个关键问题是缺乏针对实验设置和协议的通用标准。由于传感模式的不同,每个研究小组都建立自己的硬件并收集自己的数据,因此需要一个通用的标准。ImageNet不仅提高了分类精度,而且提高了研究界,可以为可穿戴手势识别提供有用的见解;具体来说,需要大量和标准的数据集来推动这项研究。像ResNet这样更先进的算法可以用来扩展每只手运动的复制能力。
增强的鲁棒性
虽然第一个由表面肌电图控制的假体是在上个世纪发展出来的,但在人类开发的假体和人的手之间仍然存在着巨大的差距。鲁棒性仍然是阻碍可穿戴手势识别设备广泛应用和实际应用的主要障碍之一。在这篇综述中,“鲁棒性”一词被定义为对不利因素保持识别准确性的能力。由于用于手势识别的生物信号具有高度的主题特异性,改变用户或佩戴位置将需要对模型进行再训练,这通常需要很长时间,并且很容易降低用户体验。对于运动障碍患者,肢体运动能力的缺陷会导致更高的识别错误,因此可能需要额外的方法来提高识别精度[204]。
传感器融合是一种很有前途的方法,可以产生更丰富的信号内容,并提高用户侧的鲁棒性。例如,对于sEMG-FMG,它的优点是它包含了与肌肉激活直接相关的丰富信息,而FMG的优点是它更稳定,对不良的皮肤状况(如汗液)[78]免疫。同时,力信号对低强度手势(握力水平小于10kg)更敏感,而肌电信号对高强度手势(握力水平大于20kg)[203]更敏感。
手势识别的鲁棒性与每个应用程序选择的相应机器学习算法密切相关。大多数机器学习方法都基于一个基本假设,即训练数据和测试数据来自相同的特征空间,并具有相同的分布[17]。然而,这一假设并不总是适用于生物信号,特别是当面对电极移位或不同的用户场景时。为了保持高性能,它实际上需要收集大量的数据,并为单个用户训练一个新的模型,这是非常耗时和劳动密集型的。迁移学习可以通过两种方式来解决这一问题:1)基于参数/模型的迁移学习可以用来调整现有的模型参数或改革结构以适应新的任务,这可以节省从头开始训练模型的成本,提高识别精度[205]。2)领域自适应(基于特征的迁移学习),可用于解决由用户间[206]、[207]、会话间[207]、[208]或界面位置移位[209]、[210]引起的数据分布问题,以减少训练时间,提高重新编码
软系统
手势识别设备未来发展的另一个重要方向是软系统。传统的可穿戴设备是由硬质金属和塑料组件组成的。然而,人体组织是软的,因此硬的界面可能会引入几个问题。1)由于设备与皮肤硬度不匹配,用户在长期使用后可能会感到不舒服。2)硬界面会导致与弯曲、柔软的人体皮肤接触不足,从而导致性能下降。3)由于硬材料的杨氏模量与皮肤的数量级不相似,因此硬界面不能与皮肤平滑地拉伸和移动,因此无法测量皮肤应变等某些关键特性。有趣的是,软系统和原型机的新进步提供了新的途径,可以提供比传统的手腕和臂章更舒适,甚至难以察觉的界面(图7)。Kim等人[230]早期提出了表皮电子的概念,作为电子皮肤[56]、[65]、[114]和电子纹身[203]的前沿应用的基础,[231],[232],用于传感应用。对于触觉反馈,Yu等人[228]引入了一种可以提供局部机械振动的皮肤集成界面,Chossat等人[233]提出了一种用于增强本体感受反馈的软皮肤拉伸装置。柔性电子器件的进步使开发软电路[226],[227]成为可能,使用户更友好的原型。在供电方面,一些试点研究甚至集成了基于太阳能[229]或表皮摩擦电纳米发电机[234]的能量收集系统。
结论
可穿戴手势识别设备不仅在VR/AR交互中发挥了重要作用,而且在康复、假肢控制、手语识别等人机交互领域也显示出了显著的潜力。本文深入回顾了基于手的功能的潜在应用领域,以及人机通信与人机通信之间的差距。讨论了各种先进的传感接口,讨论和分类的传感原理。此外,无论感知原理如何,通用的传统机器学习算法和新兴的深度学习方法都进行了回顾。最后,讨论了未来的潜在发展方向,包括更大的手势集、增强的鲁棒性和软系统。本文可以为读者提供对手势识别的可穿戴界面的详细理解和见解。
这篇关于读论文,第十天:Emerging Wearable Interfaces and Algorithms for Hand Gesture Recognition: A Survey的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!