步态识别论文Dynamic Aggregated Network for Gait Recognition(1)

2024-08-27 18:04

本文主要是介绍步态识别论文Dynamic Aggregated Network for Gait Recognition(1),希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

摘要:步态识别在视频监控、犯罪现场侦查、社会安全等领域有着广泛的应用前景。然而,在实际场景中,步态识别往往受到多种外部因素的影响,如携带条件、穿着外套、视角多样等。近年来,各种基于深度学习的步态识别方法取得了可喜的成果,但它们倾向于使用固定权重的卷积网络提取显著特征之一,没有很好地考虑关键区域中步态特征之间的关系,忽略了完整运动模式的聚合

在本文中,我们提出了一个新的观点,即实际的步态特征包括多个关键区域的全局运动模式每个全局运动模式由一系列局部运动模式组成。为此,我们提出了动态聚合网络( DANet )来学习更具判别性的步态特征。具体来说,我们在相邻像素的特征之间创建了一种动态注意力机制,不仅可以自适应地关注关键区域,而且可以生成更具表现力的局部运动模式。此外,我们开发了一种自注意力机制来选择具有代表性的局部运动模式,并进一步学习鲁棒的全局运动模式。在CASIAB、OUMVLP和Gait3D 3个公开步态数据集上的大量实验表明,该方法能够有效地提高步态识别的准确率

理解

步态识别的应用价值

  • 多种应用领域:步态识别技术对于多种应用场景具有重要意义,包括但不限于视频监控、犯罪现场调查和社会安全等领域。这些领域都需要高效、准确地识别个体的步态特征,以辅助决策和行动。

面临的挑战

  • 外部因素干扰:在实际场景中,步态识别常常受到多种外部因素的干扰,如携带物品的状态、穿着外套的情况以及不同的视角等。这些因素会改变步态的外观特征,从而影响识别的准确性。
  • 现有方法的不足:尽管基于深度学习的步态识别方法已经取得了显著成果,但这些方法往往存在一些问题。例如,它们倾向于使用固定权重的卷积网络来提取单一显著特征,忽略了步态特征在关键区域内的相互关系,同时也未能有效地聚合完整的运动模式。

新方法的提出

  • 新视角:本文提出了一种新的视角,即实际的步态特征不仅包括多个关键区域内的全局运动模式,而且每个全局运动模式都是由一系列局部运动模式组成的。这一视角为步态识别提供了新的思路。
  • Dynamic Aggregation Network (DANet):为了学习更具判别性的步态特征,本文提出了DANet。该网络通过两个关键机制来实现这一目标:
    • 动态注意力机制:在相邻像素的特征之间建立动态注意力机制,该机制不仅能够自适应地关注关键区域,还能够生成更具表达力的局部运动模式。
    • 自注意力机制:用于从众多局部运动模式中选择出具有代表性的模式,并进一步学习稳健的全局运动模式。

实验验证

  • 数据集与结果:本文在三个流行的公开步态数据集(CASIAB、OUMVLP和Gait3D)上进行了广泛的实验。实验结果表明,所提出的方法在性能上显著优于当前最先进的步态识别方法。这一结果证明了DANet在提取和聚合步态特征方面的有效性和优越性

introduction

我们提出问题:如何在各种外部因素的影响下,为每个人自适应地学习更鲁棒的特征?

( I )局部运动模式。步态,或者说行走的行为,本质上是身体各部分的协调运动。在一个步态序列中,我们观察到每个部分都有一个独特的代表性运动模式,并且每个运动模式由一组局部化的子运动组成。在各种外界因素的干扰下,准确定位具有判别性的部位并获得具有代表性的局部运动模式是至关重要的。然而,先前的基于步态的方法[ 7、8、13、14、20、24、33]仅仅使用具有非线性激活的卷积网络来建模动态运动。一旦网络训练完成,参数和非线性函数就只能关注固定的模式。为此,我们提出将每个像素的特征编码为一个具有幅值和相位的向量,如图1所示,该向量允许学习聚焦相邻像素之间的动态注意力映射函数。通过对关系进行建模,网络可以进一步关注关键区域的局部运动模式。

步态与局部运动模式

  • 步态的定义:步态,即行走的动作,是身体各部分协调运动的结果。在步态序列中,我们观察到身体的每个部分都有其独特的代表性运动模式,这些模式由一系列局部子运动组成。
  • 局部运动模式的重要性:为了准确识别步态,必须能够精确地定位那些具有判别性的身体部分,并在各种外部因素的干扰下获得代表性的局部运动模式。

现有方法的局限性

  • 传统方法:之前的步态识别方法(如文献[7, 8, 13, 14, 20, 24, 33]中提到的)大多使用带有非线性激活函数的卷积网络来建模动态运动。
  • 固定模式问题:一旦网络训练完成,其参数和非线性函数就只能关注固定的运动模式。这意味着这些方法在应对不同个体、不同步态条件(如穿着、携带物品等)时的泛化能力有限。

提出的新方法

  • 特征编码:为了解决这个问题,作者提出了一种新的特征编码方式,即将每个像素的特征编码为一个包含幅度和相位的向量(如图1所示)。这种编码方式有助于捕捉像素之间的动态关系,因为幅度和相位信息能够反映信号的变化速度和方向。
  • 动态注意力机制:通过建模相邻像素之间的这种关系,网络能够进一步关注关键区域中的局部运动模式。这里的“动态注意力机制”指的是网络能够自适应地调整其关注点,以响应不同的步态特征和外部干扰。
  • 优势:与传统方法相比,这种方法具有更高的灵活性和鲁棒性,因为它不仅考虑了像素的静态特征,还考虑了像素之间的动态关系。这有助于网络更准确地识别步态中的细微差异,从而提高步态识别的准确率。

(二)全局运动模式。步态是一种周期性的运动。我们假设实际的运动模式是一维信号,如图2所示,其中局部运动模式是信号上的点。因此,有必要使用一系列局部运动模式来进一步拟合实际运动模式,以获得具有辨别力的步态特征。然而,最近的基于步态的方法[ 8、20、33 ]仅使用基于Max或Mean的方法来提取其中一个重要的局部特征。这些方法容易受到干扰,不能贴合实际的运动模式。根据信号处理理论中的奈奎斯特-香农采样定理[ 37、39 ],当以大于信号频率2倍的频率对连续信号进行采样时,原始信号的信息被完好地保留下来。对此,我们提出构建全局注意力模型,并利用该模型动态选择预设数量的可区分局部运动模式(绿色箭头),同时排除噪声(红色箭头)的影响。通过选择足够具有判别性的局部运动模式,网络可以进一步获得鲁棒的全局运动模式

全局运动模式的重要性

  • 周期性运动:步态是一种周期性运动,意味着其运动模式在一定时间内会重复出现。因此,将步态视为一种一维信号(如图2所示)是有意义的,其中局部运动模式可以看作是信号上的点。
  • 全局视角:为了获得具有判别性的步态特征,需要使用一系列局部运动模式来拟合实际的全局运动模式。这是因为全局运动模式能够更全面地反映步态的特性和变化。

现有方法的局限性

  • 提取方法:近期的一些步态识别方法(如文献[8, 20, 33]中提到的)仅使用最大值(Max-based)或平均值(Mean-based)等方法来提取其中一个显著的局部特征。这种方法虽然简单,但容易受到干扰的影响,无法准确拟合实际的全局运动模式。

提出的解决方案

  • 信号采样定理:作者引用了信号处理理论中的奈奎斯特-香农采样定理(Nyquist-Shannon Sampling Theorem),该定理指出当连续信号以大于信号频率两倍的频率进行采样时,可以保留原始信号的完整信息。这为从局部运动模式中提取全局运动模式提供了理论依据。
  • 全局注意力模型:为了克服现有方法的局限性,作者提出了构建一个全局注意力模型。该模型能够动态地选择一定数量的可区分局部运动模式(用绿色箭头表示),同时排除噪声的影响(用红色箭头表示)。这种选择过程是基于全局视角的,有助于捕获更具代表性的步态特征。
  • 获得全局运动模式:通过选择足够多的判别性局部运动模式,网络能够进一步获得稳健的全局运动模式。这些全局运动模式能够更准确地反映步态的特性和变化,从而提高步态识别的准确性和鲁棒性。

在此分析的驱动下,我们提出了一种新颖有效的用于步态识别的动态聚合网络( DANet )。如图3所示,DANet由两个部分组成,设计良好的组件,I.E .,局部Conv -混合块( Lcmb )和全局运动模式聚集器( Gmpa )。首先,我们将每个像素的特征编码到包含幅度和相位的复数域中,其中幅度项表示上下文信息相位项用于建立每个向量之间的关系。局部运动模式是通过聚合相邻聚焦区域中矢量的幅度和相位来产生的。其次,我们利用GMPA模型中的自注意力机制,动态地选择足够有判别力的局部运动模式,并进一步学习以拟合实际的步态模式。最后,通过我们提出的模块,我们获得了每个人最具有代表性的稳定步态特征,并且优于当前的状态

DANet 网络架构

  • 整体结构:DANet 由两个主要部分组成:局部Conv-混合块(Lcmb)和全局运动模式聚集器(Gmpa)。这两个组件协同工作,以提取和聚合步态的局部和全局特征。

局部Conv-混合块(Lcmb)

  • 特征编码:首先,网络将每个像素的特征编码到复数域中,这个复数由幅度和相位组成。幅度项代表了像素的上下文信息,而相位项则用于建立不同像素向量之间的关系。这种编码方式有助于捕捉像素间的动态变化。
  • 局部运动模式生成:通过聚合相邻聚焦区域中矢量的幅度和相位,Lcmb 能够生成局部运动模式。这些局部模式反映了步态中身体各部分的特定运动方式。

全局运动模式聚集器(Gmpa)

  • 自注意力机制:Gmpa 利用自注意力机制动态地选择那些具有足够判别力的局部运动模式。这种选择过程是基于全局视角的,能够排除噪声和不必要的干扰,专注于对步态识别最有贡献的特征。
  • 模式拟合:被选中的局部运动模式被进一步学习和组合,以拟合实际的步态模式。这一过程有助于构建稳定且具有代表性的全局步态特征。

网络的优势

  • 代表性步态特征:通过Lcmb 和 Gmpa 的协同作用,DANet 能够为每个人提取出最具有代表性的稳定步态特征。这些特征不仅具有高度的判别性,还能够应对不同个体、不同步态条件下的变化。
  • 性能提升:与当前最先进的方法相比,DANet 在步态识别任务上表现出色,能够提供更高的识别准确率和鲁棒性。

我们的主要贡献可以概括如下:

·我们提出了一种新颖的LCMB来提取具有代表性的局部运动模式,它可以动态地建模相邻像素特征之间的关系,然后准确地定位关键区域。

·我们设计了一种有效的GMPA来选择具有判别力的局部运动模式,然后将它们聚合以获得鲁棒的全局表示。据我们所知,这是首次尝试在该任务中探索自注意力模型的潜力。

·实验结果表明了所提方法的有效性,在CASIA - B [ 56 ]、OUMVLP [ 41 ]和Gait3D [ 59 ]数据集上的表现优于SOTA方法。此外,CASIA-B [ 56 ]上的许多严格的消融实验也进一步验证了该方法的有效性

这篇关于步态识别论文Dynamic Aggregated Network for Gait Recognition(1)的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1112382

相关文章

阿里开源语音识别SenseVoiceWindows环境部署

SenseVoice介绍 SenseVoice 专注于高精度多语言语音识别、情感辨识和音频事件检测多语言识别: 采用超过 40 万小时数据训练,支持超过 50 种语言,识别效果上优于 Whisper 模型。富文本识别:具备优秀的情感识别,能够在测试数据上达到和超过目前最佳情感识别模型的效果。支持声音事件检测能力,支持音乐、掌声、笑声、哭声、咳嗽、喷嚏等多种常见人机交互事件进行检测。高效推

poj 2349 Arctic Network uva 10369(prim or kruscal最小生成树)

题目很麻烦,因为不熟悉最小生成树的算法调试了好久。 感觉网上的题目解释都没说得很清楚,不适合新手。自己写一个。 题意:给你点的坐标,然后两点间可以有两种方式来通信:第一种是卫星通信,第二种是无线电通信。 卫星通信:任何两个有卫星频道的点间都可以直接建立连接,与点间的距离无关; 无线电通信:两个点之间的距离不能超过D,无线电收发器的功率越大,D越大,越昂贵。 计算无线电收发器D

AI hospital 论文Idea

一、Benchmarking Large Language Models on Communicative Medical Coaching: A Dataset and a Novel System论文地址含代码 大多数现有模型和工具主要迎合以患者为中心的服务。这项工作深入探讨了LLMs在提高医疗专业人员的沟通能力。目标是构建一个模拟实践环境,人类医生(即医学学习者)可以在其中与患者代理进行医学

论文翻译:arxiv-2024 Benchmark Data Contamination of Large Language Models: A Survey

Benchmark Data Contamination of Large Language Models: A Survey https://arxiv.org/abs/2406.04244 大规模语言模型的基准数据污染:一项综述 文章目录 大规模语言模型的基准数据污染:一项综述摘要1 引言 摘要 大规模语言模型(LLMs),如GPT-4、Claude-3和Gemini的快

论文阅读笔记: Segment Anything

文章目录 Segment Anything摘要引言任务模型数据引擎数据集负责任的人工智能 Segment Anything Model图像编码器提示编码器mask解码器解决歧义损失和训练 Segment Anything 论文地址: https://arxiv.org/abs/2304.02643 代码地址:https://github.com/facebookresear

论文翻译:ICLR-2024 PROVING TEST SET CONTAMINATION IN BLACK BOX LANGUAGE MODELS

PROVING TEST SET CONTAMINATION IN BLACK BOX LANGUAGE MODELS https://openreview.net/forum?id=KS8mIvetg2 验证测试集污染在黑盒语言模型中 文章目录 验证测试集污染在黑盒语言模型中摘要1 引言 摘要 大型语言模型是在大量互联网数据上训练的,这引发了人们的担忧和猜测,即它们可能已

OmniGlue论文详解(特征匹配)

OmniGlue论文详解(特征匹配) 摘要1. 引言2. 相关工作2.1. 广义局部特征匹配2.2. 稀疏可学习匹配2.3. 半稠密可学习匹配2.4. 与其他图像表示匹配 3. OmniGlue3.1. 模型概述3.2. OmniGlue 细节3.2.1. 特征提取3.2.2. 利用DINOv2构建图形。3.2.3. 信息传播与新的指导3.2.4. 匹配层和损失函数3.2.5. 与Super

BERT 论文逐段精读【论文精读】

BERT: 近 3 年 NLP 最火 CV: 大数据集上的训练好的 NN 模型,提升 CV 任务的性能 —— ImageNet 的 CNN 模型 NLP: BERT 简化了 NLP 任务的训练,提升了 NLP 任务的性能 BERT 如何站在巨人的肩膀上的?使用了哪些 NLP 已有的技术和思想?哪些是 BERT 的创新? 1标题 + 作者 BERT: Pre-trainin

[论文笔记]LLM.int8(): 8-bit Matrix Multiplication for Transformers at Scale

引言 今天带来第一篇量化论文LLM.int8(): 8-bit Matrix Multiplication for Transformers at Scale笔记。 为了简单,下文中以翻译的口吻记录,比如替换"作者"为"我们"。 大语言模型已被广泛采用,但推理时需要大量的GPU内存。我们开发了一种Int8矩阵乘法的过程,用于Transformer中的前馈和注意力投影层,这可以将推理所需

Clion不识别C代码或者无法跳转C语言项目怎么办?

如果是中文会显示: 此时只需要右击项目,或者你的源代码目录,将这个项目或者源码目录标记为项目源和头文件即可。 英文如下: