本文主要是介绍GAP:Skeleton-based Action Recognition,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
Generative Action Description Prompts for Skeleton-based Action Recognition解析
- 摘要
- 1.简介
- 2. Related work
- 2.1. Skeleton-based Action Recognition
- 2.2 Human Part Prior
- 2.3. Multi-modal Representation Learning
- 3. 方法介绍
- 3.1 生成动作提示框架
- 3.2. Skeleton Encoder
- 3.3. Text Encoder
- 3.4. Action Description Learning
- 骨架 - 语言对比学习:
- Multi-part 对比学习:
- 3.5 动作描述生成
论文链接:https://arxiv.org/abs/2208.05318
代码链接:https://github.com/MartinXM/GAP
论文出处:ICCV 2023
论文单位:香港理工大学
摘要
- 基于骨骼的动作识别最近受到了相当大的关注。当前基于骨架的动作识别方法通常被表述为一个热门的分类任务,并且没有充分利用动作之间的语义关系。
- 例如,“做胜利手势”和“竖起大拇指”是手势的两种动作,它们的主要区别在于手的动作。这些信息与动作类的分类编码无关,但可以从动作描述中揭示出来。
- 因此,在训练中使用动作描述可能有利于表征学习。
- 在这项工作中,我们提出了一种基于骨架的动作识别的生成动作描述提示(Generative Action-description Prompts,GAP)方法。
- 具体而言,我们采用预训练的大规模语言模型作为知识引擎,自动生成动作肢体运动的文本描述,并提出了一种多模态训练方案,利用文本编码器生成不同肢体运动的特征向量,并监督骨架编码器进行动作表征学习。
- 实验表明,我们提出的GAP方法在不增加推理计算成本的情况下,在各种基线模型上取得了显著的改进。
- GAP在流行的基于骨架的动作识别基准上实现了最新的技术水平,包括NTU RGB+D, NTU RGB+D 120和NW-UCLA。
1.简介
- 动作识别因其在人机交互、体育健康分析、娱乐等领域的广泛应用而成为一个活跃的研究课题。
- 近年来,随着Kinect、RealSense等深度传感器的出现,人体关节可以很容易地获取。
- 动作识别使用body关节等,基于骨架的动作识别由于其计算效率和对光照条件、视点变化和背景噪声的鲁棒性而受到广泛关注。
- 以往的基于骨骼的动作识别方法大多侧重于对人体关节之间的关系进行建模,采用以一系列骨骼坐标作为输入的单模态训练方案。
- 受最近图像和语言多模态训练成功的启发,我们研究了一个有趣的问题: 动作语言描述是否可以揭示动作关系并有利于基于骨架的动作识别?
- 遗憾的是,由于缺乏由骨架文本对组成的大规模数据集,构建这样的数据集将需要大量的时间和财政资源。因此,该训练方案不能直接应用于基于骨架的动作识别。
这篇关于GAP:Skeleton-based Action Recognition的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!