步态识别论文Dynamic Aggregated Network for Gait Recognition(1)

2024-08-27 18:04

本文主要是介绍步态识别论文Dynamic Aggregated Network for Gait Recognition(1),希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

摘要:步态识别在视频监控、犯罪现场侦查、社会安全等领域有着广泛的应用前景。然而,在实际场景中,步态识别往往受到多种外部因素的影响,如携带条件、穿着外套、视角多样等。近年来,各种基于深度学习的步态识别方法取得了可喜的成果,但它们倾向于使用固定权重的卷积网络提取显著特征之一,没有很好地考虑关键区域中步态特征之间的关系,忽略了完整运动模式的聚合

在本文中,我们提出了一个新的观点,即实际的步态特征包括多个关键区域的全局运动模式每个全局运动模式由一系列局部运动模式组成。为此,我们提出了动态聚合网络( DANet )来学习更具判别性的步态特征。具体来说,我们在相邻像素的特征之间创建了一种动态注意力机制,不仅可以自适应地关注关键区域,而且可以生成更具表现力的局部运动模式。此外,我们开发了一种自注意力机制来选择具有代表性的局部运动模式,并进一步学习鲁棒的全局运动模式。在CASIAB、OUMVLP和Gait3D 3个公开步态数据集上的大量实验表明,该方法能够有效地提高步态识别的准确率

理解

步态识别的应用价值

  • 多种应用领域:步态识别技术对于多种应用场景具有重要意义,包括但不限于视频监控、犯罪现场调查和社会安全等领域。这些领域都需要高效、准确地识别个体的步态特征,以辅助决策和行动。

面临的挑战

  • 外部因素干扰:在实际场景中,步态识别常常受到多种外部因素的干扰,如携带物品的状态、穿着外套的情况以及不同的视角等。这些因素会改变步态的外观特征,从而影响识别的准确性。
  • 现有方法的不足:尽管基于深度学习的步态识别方法已经取得了显著成果,但这些方法往往存在一些问题。例如,它们倾向于使用固定权重的卷积网络来提取单一显著特征,忽略了步态特征在关键区域内的相互关系,同时也未能有效地聚合完整的运动模式。

新方法的提出

  • 新视角:本文提出了一种新的视角,即实际的步态特征不仅包括多个关键区域内的全局运动模式,而且每个全局运动模式都是由一系列局部运动模式组成的。这一视角为步态识别提供了新的思路。
  • Dynamic Aggregation Network (DANet):为了学习更具判别性的步态特征,本文提出了DANet。该网络通过两个关键机制来实现这一目标:
    • 动态注意力机制:在相邻像素的特征之间建立动态注意力机制,该机制不仅能够自适应地关注关键区域,还能够生成更具表达力的局部运动模式。
    • 自注意力机制:用于从众多局部运动模式中选择出具有代表性的模式,并进一步学习稳健的全局运动模式。

实验验证

  • 数据集与结果:本文在三个流行的公开步态数据集(CASIAB、OUMVLP和Gait3D)上进行了广泛的实验。实验结果表明,所提出的方法在性能上显著优于当前最先进的步态识别方法。这一结果证明了DANet在提取和聚合步态特征方面的有效性和优越性

introduction

我们提出问题:如何在各种外部因素的影响下,为每个人自适应地学习更鲁棒的特征?

( I )局部运动模式。步态,或者说行走的行为,本质上是身体各部分的协调运动。在一个步态序列中,我们观察到每个部分都有一个独特的代表性运动模式,并且每个运动模式由一组局部化的子运动组成。在各种外界因素的干扰下,准确定位具有判别性的部位并获得具有代表性的局部运动模式是至关重要的。然而,先前的基于步态的方法[ 7、8、13、14、20、24、33]仅仅使用具有非线性激活的卷积网络来建模动态运动。一旦网络训练完成,参数和非线性函数就只能关注固定的模式。为此,我们提出将每个像素的特征编码为一个具有幅值和相位的向量,如图1所示,该向量允许学习聚焦相邻像素之间的动态注意力映射函数。通过对关系进行建模,网络可以进一步关注关键区域的局部运动模式。

步态与局部运动模式

  • 步态的定义:步态,即行走的动作,是身体各部分协调运动的结果。在步态序列中,我们观察到身体的每个部分都有其独特的代表性运动模式,这些模式由一系列局部子运动组成。
  • 局部运动模式的重要性:为了准确识别步态,必须能够精确地定位那些具有判别性的身体部分,并在各种外部因素的干扰下获得代表性的局部运动模式。

现有方法的局限性

  • 传统方法:之前的步态识别方法(如文献[7, 8, 13, 14, 20, 24, 33]中提到的)大多使用带有非线性激活函数的卷积网络来建模动态运动。
  • 固定模式问题:一旦网络训练完成,其参数和非线性函数就只能关注固定的运动模式。这意味着这些方法在应对不同个体、不同步态条件(如穿着、携带物品等)时的泛化能力有限。

提出的新方法

  • 特征编码:为了解决这个问题,作者提出了一种新的特征编码方式,即将每个像素的特征编码为一个包含幅度和相位的向量(如图1所示)。这种编码方式有助于捕捉像素之间的动态关系,因为幅度和相位信息能够反映信号的变化速度和方向。
  • 动态注意力机制:通过建模相邻像素之间的这种关系,网络能够进一步关注关键区域中的局部运动模式。这里的“动态注意力机制”指的是网络能够自适应地调整其关注点,以响应不同的步态特征和外部干扰。
  • 优势:与传统方法相比,这种方法具有更高的灵活性和鲁棒性,因为它不仅考虑了像素的静态特征,还考虑了像素之间的动态关系。这有助于网络更准确地识别步态中的细微差异,从而提高步态识别的准确率。

(二)全局运动模式。步态是一种周期性的运动。我们假设实际的运动模式是一维信号,如图2所示,其中局部运动模式是信号上的点。因此,有必要使用一系列局部运动模式来进一步拟合实际运动模式,以获得具有辨别力的步态特征。然而,最近的基于步态的方法[ 8、20、33 ]仅使用基于Max或Mean的方法来提取其中一个重要的局部特征。这些方法容易受到干扰,不能贴合实际的运动模式。根据信号处理理论中的奈奎斯特-香农采样定理[ 37、39 ],当以大于信号频率2倍的频率对连续信号进行采样时,原始信号的信息被完好地保留下来。对此,我们提出构建全局注意力模型,并利用该模型动态选择预设数量的可区分局部运动模式(绿色箭头),同时排除噪声(红色箭头)的影响。通过选择足够具有判别性的局部运动模式,网络可以进一步获得鲁棒的全局运动模式

全局运动模式的重要性

  • 周期性运动:步态是一种周期性运动,意味着其运动模式在一定时间内会重复出现。因此,将步态视为一种一维信号(如图2所示)是有意义的,其中局部运动模式可以看作是信号上的点。
  • 全局视角:为了获得具有判别性的步态特征,需要使用一系列局部运动模式来拟合实际的全局运动模式。这是因为全局运动模式能够更全面地反映步态的特性和变化。

现有方法的局限性

  • 提取方法:近期的一些步态识别方法(如文献[8, 20, 33]中提到的)仅使用最大值(Max-based)或平均值(Mean-based)等方法来提取其中一个显著的局部特征。这种方法虽然简单,但容易受到干扰的影响,无法准确拟合实际的全局运动模式。

提出的解决方案

  • 信号采样定理:作者引用了信号处理理论中的奈奎斯特-香农采样定理(Nyquist-Shannon Sampling Theorem),该定理指出当连续信号以大于信号频率两倍的频率进行采样时,可以保留原始信号的完整信息。这为从局部运动模式中提取全局运动模式提供了理论依据。
  • 全局注意力模型:为了克服现有方法的局限性,作者提出了构建一个全局注意力模型。该模型能够动态地选择一定数量的可区分局部运动模式(用绿色箭头表示),同时排除噪声的影响(用红色箭头表示)。这种选择过程是基于全局视角的,有助于捕获更具代表性的步态特征。
  • 获得全局运动模式:通过选择足够多的判别性局部运动模式,网络能够进一步获得稳健的全局运动模式。这些全局运动模式能够更准确地反映步态的特性和变化,从而提高步态识别的准确性和鲁棒性。

在此分析的驱动下,我们提出了一种新颖有效的用于步态识别的动态聚合网络( DANet )。如图3所示,DANet由两个部分组成,设计良好的组件,I.E .,局部Conv -混合块( Lcmb )和全局运动模式聚集器( Gmpa )。首先,我们将每个像素的特征编码到包含幅度和相位的复数域中,其中幅度项表示上下文信息相位项用于建立每个向量之间的关系。局部运动模式是通过聚合相邻聚焦区域中矢量的幅度和相位来产生的。其次,我们利用GMPA模型中的自注意力机制,动态地选择足够有判别力的局部运动模式,并进一步学习以拟合实际的步态模式。最后,通过我们提出的模块,我们获得了每个人最具有代表性的稳定步态特征,并且优于当前的状态

DANet 网络架构

  • 整体结构:DANet 由两个主要部分组成:局部Conv-混合块(Lcmb)和全局运动模式聚集器(Gmpa)。这两个组件协同工作,以提取和聚合步态的局部和全局特征。

局部Conv-混合块(Lcmb)

  • 特征编码:首先,网络将每个像素的特征编码到复数域中,这个复数由幅度和相位组成。幅度项代表了像素的上下文信息,而相位项则用于建立不同像素向量之间的关系。这种编码方式有助于捕捉像素间的动态变化。
  • 局部运动模式生成:通过聚合相邻聚焦区域中矢量的幅度和相位,Lcmb 能够生成局部运动模式。这些局部模式反映了步态中身体各部分的特定运动方式。

全局运动模式聚集器(Gmpa)

  • 自注意力机制:Gmpa 利用自注意力机制动态地选择那些具有足够判别力的局部运动模式。这种选择过程是基于全局视角的,能够排除噪声和不必要的干扰,专注于对步态识别最有贡献的特征。
  • 模式拟合:被选中的局部运动模式被进一步学习和组合,以拟合实际的步态模式。这一过程有助于构建稳定且具有代表性的全局步态特征。

网络的优势

  • 代表性步态特征:通过Lcmb 和 Gmpa 的协同作用,DANet 能够为每个人提取出最具有代表性的稳定步态特征。这些特征不仅具有高度的判别性,还能够应对不同个体、不同步态条件下的变化。
  • 性能提升:与当前最先进的方法相比,DANet 在步态识别任务上表现出色,能够提供更高的识别准确率和鲁棒性。

我们的主要贡献可以概括如下:

·我们提出了一种新颖的LCMB来提取具有代表性的局部运动模式,它可以动态地建模相邻像素特征之间的关系,然后准确地定位关键区域。

·我们设计了一种有效的GMPA来选择具有判别力的局部运动模式,然后将它们聚合以获得鲁棒的全局表示。据我们所知,这是首次尝试在该任务中探索自注意力模型的潜力。

·实验结果表明了所提方法的有效性,在CASIA - B [ 56 ]、OUMVLP [ 41 ]和Gait3D [ 59 ]数据集上的表现优于SOTA方法。此外,CASIA-B [ 56 ]上的许多严格的消融实验也进一步验证了该方法的有效性

这篇关于步态识别论文Dynamic Aggregated Network for Gait Recognition(1)的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1112382

相关文章

使用PyTorch实现手写数字识别功能

《使用PyTorch实现手写数字识别功能》在人工智能的世界里,计算机视觉是最具魅力的领域之一,通过PyTorch这一强大的深度学习框架,我们将在经典的MNIST数据集上,见证一个神经网络从零开始学会识... 目录当计算机学会“看”数字搭建开发环境MNIST数据集解析1. 认识手写数字数据库2. 数据预处理的

Pytorch微调BERT实现命名实体识别

《Pytorch微调BERT实现命名实体识别》命名实体识别(NER)是自然语言处理(NLP)中的一项关键任务,它涉及识别和分类文本中的关键实体,BERT是一种强大的语言表示模型,在各种NLP任务中显著... 目录环境准备加载预训练BERT模型准备数据集标记与对齐微调 BERT最后总结环境准备在继续之前,确

SpringBoot利用dynamic-datasource-spring-boot-starter解决多数据源问题

《SpringBoot利用dynamic-datasource-spring-boot-starter解决多数据源问题》dynamic-datasource-spring-boot-starter是一... 目录概要整体架构构想操作步骤创建数据源切换数据源后续问题小结概要自己闲暇时间想实现一个多租户平台,

讯飞webapi语音识别接口调用示例代码(python)

《讯飞webapi语音识别接口调用示例代码(python)》:本文主要介绍如何使用Python3调用讯飞WebAPI语音识别接口,重点解决了在处理语音识别结果时判断是否为最后一帧的问题,通过运行代... 目录前言一、环境二、引入库三、代码实例四、运行结果五、总结前言基于python3 讯飞webAPI语音

使用Python开发一个图像标注与OCR识别工具

《使用Python开发一个图像标注与OCR识别工具》:本文主要介绍一个使用Python开发的工具,允许用户在图像上进行矩形标注,使用OCR对标注区域进行文本识别,并将结果保存为Excel文件,感兴... 目录项目简介1. 图像加载与显示2. 矩形标注3. OCR识别4. 标注的保存与加载5. 裁剪与重置图像

Python爬虫selenium验证之中文识别点选+图片验证码案例(最新推荐)

《Python爬虫selenium验证之中文识别点选+图片验证码案例(最新推荐)》本文介绍了如何使用Python和Selenium结合ddddocr库实现图片验证码的识别和点击功能,感兴趣的朋友一起看... 目录1.获取图片2.目标识别3.背景坐标识别3.1 ddddocr3.2 打码平台4.坐标点击5.图

如何通过海康威视设备网络SDK进行Java二次开发摄像头车牌识别详解

《如何通过海康威视设备网络SDK进行Java二次开发摄像头车牌识别详解》:本文主要介绍如何通过海康威视设备网络SDK进行Java二次开发摄像头车牌识别的相关资料,描述了如何使用海康威视设备网络SD... 目录前言开发流程问题和解决方案dll库加载不到的问题老旧版本sdk不兼容的问题关键实现流程总结前言作为

C# dynamic类型使用详解

《C#dynamic类型使用详解》C#中的dynamic类型允许在运行时确定对象的类型和成员,跳过编译时类型检查,适用于处理未知类型的对象或与动态语言互操作,dynamic支持动态成员解析、添加和删... 目录简介dynamic 的定义dynamic 的使用动态类型赋值访问成员动态方法调用dynamic 的

阿里开源语音识别SenseVoiceWindows环境部署

SenseVoice介绍 SenseVoice 专注于高精度多语言语音识别、情感辨识和音频事件检测多语言识别: 采用超过 40 万小时数据训练,支持超过 50 种语言,识别效果上优于 Whisper 模型。富文本识别:具备优秀的情感识别,能够在测试数据上达到和超过目前最佳情感识别模型的效果。支持声音事件检测能力,支持音乐、掌声、笑声、哭声、咳嗽、喷嚏等多种常见人机交互事件进行检测。高效推

poj 2349 Arctic Network uva 10369(prim or kruscal最小生成树)

题目很麻烦,因为不熟悉最小生成树的算法调试了好久。 感觉网上的题目解释都没说得很清楚,不适合新手。自己写一个。 题意:给你点的坐标,然后两点间可以有两种方式来通信:第一种是卫星通信,第二种是无线电通信。 卫星通信:任何两个有卫星频道的点间都可以直接建立连接,与点间的距离无关; 无线电通信:两个点之间的距离不能超过D,无线电收发器的功率越大,D越大,越昂贵。 计算无线电收发器D