多人姿态估计小小的综述

2024-08-22 04:08

本文主要是介绍多人姿态估计小小的综述,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

为什么叫小小综述呢,因为不从最开始综述起。只说一说近两年比较流行的姿态估计方法,以实用为主。毕竟对于我来说,这块更多是应用。单人的不好应用,就更多的说一说多人姿态估计。希望能对想入门姿态估计的朋友有一个快速的指引

入门简介

2014年引入CNN对单人姿态估计来进行解决,但是会有很多FP出现。引入MPII数据集,是W级别,之前的FLIC和LSP数据集都是K级别。
多人关键点检测数据集COCO 、CrowdPose
视频跟踪数据集:PoseTrack

coco上的评价标准

AP评价标准
框的IOU被替换为OKS,大概是统计标骨架时每个关键点的误差。0-1,类似于IOU的物理意义

Top-Down vs. Bottom-up

两种方式

  1. Top-down
    Mask R-CNN , CPN, MSPN(COCO2018)
    高性能,点定位准,高召回(找到更多人)
  2. Bottom-up
    OpenPose, Associative Embeding
    网络框架简单,(网络)速度快(但也不一定)

二者如何结合呢?一些实验说明,把bottom-up融入Top-down是有好处的

难点与挑战

  1. 令人困惑的外观
  2. 拥挤的人群
  3. large pose 动作变化比加大
  4. 对速度需求快
    Pose的挑战

一直到2016年,随着深度学习的爆发,单人姿态估计的问题也引来了黄金时间。Convolutional Pose Machine (CPM)(以及之后的OpenPose),Hourglass。
CPN MSPN几个工作是比较好的几个网络

算法

CPM

是CMU的工作,OpenPose的基础,端到端的模型,输入图片的batch,输出带有空间信息的tensor,channel的个数为关键点的个数。空间大小为原图等比例缩放。通过在heatmap上按照channel找关键点的最大相应位置。
而人脸使用landmark与之差别较大。Landmark通常使用fully connected layer for regression回归位置。速度快,任务简单。有sub-pixel的精度。
Heatmap精度是pixel级别,但是对空间位置信息保存较好。便于级联。人的姿态自由度较大,landmark对自由度限制较大。
CPM
整个网路多个stage,在MPII上达到88.5

OpenPose

2016年COCO冠军,以CPM为组件,关键点+Part Affinity Field来组装
把CPM找到的所有左手腕和左手肘拿出来建立二分图,边权值是基于PAF的场来计算。匹配成功则为同一个人。

Hourglass 和 Associative Embedding

2016年,后发展为Associate Embedding 以及后续的CornerNet
Hourglass网络简单,也是bottom-up
寻找part使用Hourglass

2016年之后,更有潜力的就变成了top-dewn模型了,如下:

级联金字塔网络和多阶段姿态估计两大类

Cascade Pyramid Network

2017年冠军 CPN
级联金字塔网络

在这里插入图片描述
级联网络。第二个loss是 hard mining 的loss
检测模型mAP很低时,map上涨对关键点有用,检测map超过44.3时对关键点影响已经不大了

Multi-stage Pose Estimation

coco2018冠军
每个结构channel等宽。由于层数多,容易丢失信息,因而加入黄色的连接线。Coarse-to-fine高斯核在前面层较大,层越深,高斯核越来越小,heat map定位越来越准
在这里插入图片描述
在这里插入图片描述
stage多一些,AP确实会涨一些。
在这里插入图片描述
开源,2018年冠军
https://github.com/megvii-detection/MSPN

Learning to Refifine Human Pose Estimation(2018)

本文提出了训练一个新的模型, 来对某个pose estimation model产生的pose进行修正。文章引入了一种有效的后处理技术用于人体姿势估计中的身体关节细化任务。 由于其前馈架构,简单且端到端的可训练,高效的。提出了一个培训数据增强方案纠错,使网络能够识别错误的身体关节预测和学习方法改进它们。
在这里插入图片描述

Human Pose Estimation with Spatial Contextual Information(2019)

目前大多数网络以多阶段的方式进行训练并加以优化精细。在这个出发点上,作者提出了两个简单但有效的模块,即Cascade Prediction Fusion(CPF)网络用来预测关键点和Pose Graph Neural Network(PGNN), 用来对上级预测的关键点进行修正。
在这里插入图片描述

Cascade Feature Aggregation for Human Pose Estimation(2019)

目前这篇文章是2019年mpll数据集hpck@0.2排行榜上的冠军,相比其他论文,这篇文章创新点偏工程,达到这么高的评分,主要有三点,一是,作者把stage2到stageNheatmap的平均值作为最后输出;二是作者通过实验得出stage1把resnet101作为backbone,后面的stage采用resnet50作为backbone效果最佳;三是作者引入了AI Challenger的数据集来扩充训练数据。
在这里插入图片描述

HRNet

本模型之前通常是将图片放大来保留更多信息,计算量变大,效果也确实有提升。HRNet相比下采样,提出新结构。多个层级,但是使用保留最精细的空间信息,通过fuse下采样然后做上采样层,获得跟多的上下文信息和语义层面的信息。

PoseTrack

视频中姿态跟踪,利用上一针检测结果,merge到新一帧,避免miss,两帧之间使用OKS based相似度做人体关联。获得PoseTrack2018冠军。

应用、总结:

应用于:跌倒检测、人用动作控制机器人、学习太极等动作、(手机应用)等(检测在手机上比较难,骨架部分在手机上运算还是可以的)
总结:
Context is important for Skeleton
Coarse to fine Strategy

这两个都是Top-down的方法
Mask R-CNN中Mask指的是先将一个人Mask抠出来,再做进一步处理
级联都是基于上一层的feature map
加入跟踪、加入光流可以对关键点的抖动有一些抑制
Top-down检测到人之后会有适当的扩大框再姿态估计
人脸关键点一般FCN,对速度要求高,较快,骨架一般heat map
人脸对齐时,带眼镜墨镜,有遮挡,光照较差时结果可能会不好,而其他状态已经很好了

未来:

特殊姿态的数据较少
拥挤场景行人检测(NMS是瓶颈)
多任务学习、3D姿态估计、模型速度

后记

看完这些,希望你已经没有想看源码的冲动了。
如果是这样的话,不妨点个赞吧。

为何要点赞?

如果本文解决了你的困惑,不妨点个赞鼓励一下。
不管你信不信,也不管你同不同意,实际上,你的每一次点赞都标志着你自身的进步。而打赏乃是点赞的高级形式
曾经有无数个点赞的机会,但是我都没有好好珍惜,假如时光可以倒流,我一定为他们也为自己点赞。

这篇关于多人姿态估计小小的综述的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1095193

相关文章

数据集 3DPW-开源户外三维人体建模-姿态估计-人体关键点-人体mesh建模 >> DataBall

3DPW 3DPW-开源户外三维人体建模数据集-姿态估计-人体关键点-人体mesh建模 开源户外三维人体数据集 @inproceedings{vonMarcard2018, title = {Recovering Accurate 3D Human Pose in The Wild Using IMUs and a Moving Camera}, author = {von Marc

kaggle竞赛宝典 | Mamba模型综述!

本文来源公众号“kaggle竞赛宝典”,仅用于学术分享,侵权删,干货满满。 原文链接:Mamba模型综述! 型语言模型(LLMs),成为深度学习的基石。尽管取得了令人瞩目的成就,Transformers仍面临固有的局限性,尤其是在推理时,由于注意力计算的平方复杂度,导致推理过程耗时较长。 最近,一种名为Mamba的新型架构应运而生,其灵感源自经典的状态空间模型,成为构建基础模型的有力替代方案

数据集 Ubody人体smplx三维建模mesh-姿态估计 >> DataBall

Ubody开源人体三维源数据集-smplx-三维建模-姿态估计 UBody:一个连接全身网格恢复和真实生活场景的上半身数据集,旨在拟合全身网格恢复任务与现实场景之间的差距。 UBody包含来自多人的现实场景的1051k张高质量图像,这些图像拥有2D全身关键点、3D SMPLX模型。 UBody由国际数字经济学院(IDEA)提供。 (UBody was used for mesh r

AI文献综述神器,有这一款就够了!

我是娜姐 @迪娜学姐 ,一个SCI医学期刊编辑,探索用AI工具提效论文写作和发表。 当前的AI辅助文献综述的工具有很多,如果说功能最强大的,娜姐无疑要推SciSpace了。 SciSpace利用强大的AI算法,理解并建立研究论文之间的联系,可以大大提升文献综述的质量和效率。并且其功能还在不断更新和完善。        1 强大的语义搜索功能 传统的关键词搜索可能会遗漏相关文献,Sc

20180108文献综述书写感悟

在写文献综述理清各章节脉络的时候,发现了以下几个问题,共勉之。 1、资源对接问题:章节应该明确标注出处,来源,例如(from 百度/某篇文章链接),不写,则默认为原创。 以方便下一个接着写的同学清晰了解资料来源。 2、质量低:上任对发展史做了整理,但并没有输出成原创性文字,重新阅读加大理解成本,并且思路不新不全局不清晰,需要重新绘之。

Netty源码解析4-Handler综述

Netty中的Handler简介 Handler在Netty中,占据着非常重要的地位。Handler与Servlet中的filter很像,通过Handler可以完成通讯报文的解码编码、拦截指定的报文、 统一对日志错误进行处理、统一对请求进行计数、控制Handler执行与否。一句话,没有它做不到的只有你想不到的 Netty中的所有handler都实现自ChannelHandler接口。按照输入

如何快速写文献综述

真实参考文献的AI论文生成器:AIPaperDone - AI 万字论文生成 在本文中,你将学习如何为不同的学术领域撰写文献综述。 请注意: 文献综述并不是关于小说或诗歌等文学作品的。当我们说"文献",我们指的是某个领域的"研究"。撰写文献综述意味着收集你主题的关键资料,对它们进行概述,并分析它们之间的关系。 以下是如何快速完成的方法。 什么是文献综述? 文献综述是一篇学术论

【在Unity完成三维场景多人在线同时操作的实现方式】

在 Unity 中实现三维场景多人在线同时操作可以通过以下方式: 一、网络架构选择 客户端 / 服务器(C/S)架构 服务器负责管理游戏状态和处理玩家输入,确保所有客户端保持同步。 客户端负责渲染游戏场景和接收服务器的状态更新,向服务器发送玩家操作指令。 优点:可以更好地控制游戏状态,安全性高,减少作弊可能性。 缺点:服务器的开发和维护成本较高。对等网络(P2P)架构 每个客户端既作为服务器又

零样本学习(zero-shot learning)——综述

-------本文内容来自对论文A Survey of Zero-Shot Learning: Settings, Methods, and Applications 的理解和整理,这里省去了众多的数学符号,以比较通俗的语言对零样本学习做一个简单的入门介绍,用词上可能缺乏一定的严谨性。一些图和公式直接来自于论文,并且省略了论文中讲的比较细的东西,如果感兴趣建议还是去通读论文 注1:为了方便,文中

卷积神经网络综述

摘要 本文对卷积神经网络(Convolutional Neural Network,CNN)进行了全面综述。首先介绍了卷积神经网络的发展历程,包括早期的理论基础和关键突破。接着详细阐述了卷积神经网络的结构组成,包括卷积层、池化层、全连接层等,分析了各层的作用和特点。然后探讨了卷积神经网络在图像识别、目标检测、语义分割等多个领域的应用,并介绍了一些典型的应用案例。此外,还讨论了卷积神经网络的训练方