Simple Baselines for Human Pose Estimation and Tracking

2023-11-06 09:40

本文主要是介绍Simple Baselines for Human Pose Estimation and Tracking,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

介绍

微软神作,pose track 的新base line 

比ICCV Pose track 冠军在mAP上高15个点,在MOTA上高6个点

姿态估计

一个简单的ResNet 结构

  • 三个卷积层+BN+ReLU
  • 中间一个1*1的卷积层产生pose的heatmap
  • 后面接了3个反卷积和卷积交替的网络获得高分辨率的heatmat
  • 使用Mean Squared Error(MSE) loss, 目标的heatmat 是通过在目标位置附近使用一个2D高斯分布。

对比另外两种主流获取关键点heatmap 的架构:

左边的是Hourglass框架:

Newell, A., Yang, K., Deng, J.: Stacked hourglass networks for human pose estimation. In: European Conference on Computer Vision, Springer (2016) 483-499

右边的是Cascaded pyramid network(CPN), COCO2017 关键点挑战的领先方案:

Chen, Y., Wang, Z., Peng, Y., Zhang, Z., Yu, G., Sun, J.: Cascaded pyramid network for multi-person pose estimation. arXiv preprint arXiv:1711.07319 (2017)

论文中,作者指出这三种框架中,本文所提更简洁,从结果来看,本文方法虽然简单,但是结果棒棒的。作者没有指明为嘛他们的简单网络实现姿态估计的效果更好。结果对比如下图所示

姿态跟踪

问题描述:

前一帧检测结果以及ID已经确定:P_{k-1} = {p_i},p_i=(joints_i,id_i)

当前帧的检测结果已经有了,确定当前帧的ID:P_k = {p_j},p_j=(joints_j,id_j=None)

 

论文里首先分析了ICCV'17 PoseTrack 挑战冠军是怎么做的:

Girdhar, R., Gkioxari, G., Torresani, L., Paluri, M., Tran, D.: Detect-and-track:Efficient pose estimation in videos. arXiv preprint arXiv:1712.09184 (2017)

  • 首先对每一帧用Mask-RCNN估计人体姿态
  • 然后在帧间进行在线的跟踪,使用的是一个贪婪的二分匹配算法:
  1. 对于前一帧和当前帧的结果进行相似计算s(p_i,p_j)
  2. s(p_i,p_j)进行排序,选择相似度最高一对p_i,p_jp_j继承p_i的ID,然后这两个结果从集合中剔除
  3. 在剩下的集合元素中继续找相似度最高的匹配,重复2,直到没有了
  4. 在当前帧的结果中,如果还有剩余没有匹配的,就各自发一个新的ID

本文参考这种做法,但在细节上又两点不同:

  • 本文的人体框有两种来源,一种是当前帧的检测结果(Mask-RCNN),另外一种的上一帧的结果,通过光流wrap到当前帧的,如下图所示,右边图中,黑色框的当前帧检测结果,蓝色的是上一帧wrap过来的。这样做是为了弥补当前帧检测漏检问题。

给定上一帧的结果P_{k-1} =\{p_i\},p_i=(joints_i,id_i),以及两帧间的光流F(I_{k-1},I_k),估计上一帧的目标在当前帧的结果\hat{P}_k = \{\hat{p}_j\},\hat p_j=(\hat{joints}_j,\hat{id}_j):

  1. 通过光流把上一帧的关节点wrap到当前帧
  2. 用一个适当扩大的边界框包含该目标在当前帧的关键点

  • 另外是两个框的相似计算,提出使用一个基于流的姿态相似度量指标

首先介绍两种可以参考的相似度度量:

  1. 使用边界框的IOU去定义s(p_i,p_j),会在目标快速运动时产生问题,IOU比较低
  2. 一个更细粒的度量是姿态相似,姿态相似计算两个人体之间同一关节的距离 , One Keypoint Similarity(OKS),这方法的问题在于人的姿态是会变化的和前面的IOU相似

从上面的warp结果,我们得到了帧k目标p_i在帧l的目标\hat{p_i},显然这个通过光流wrap得到的\hat{p_i}蕴含了该目标在当前帧应有的位置以及样子

给定帧k的一系列目标P_k = \{p_i\},和帧l的一系列目标P_l = \{p_j\},基于流的姿态相似度度量定义为:

S_{Flow}(P_k,P_l) = OKS(\hat{P}_k,P_l)

由于遮挡问题,相邻两帧的wrap并不能很好的解决由于遮挡产生的丢失问题,因此需要通过多相隔帧进行wrap。

最后的算法流程图

结果:

COCO-Pose Estimation:达到顶尖,提升不多

Pose-Track - Pose Estimation: 达到顶尖,高10个点,刷新了baseline

Pose-Track - Pose Track: 达到顶尖,比baseline高6个点

重点看这个warp对于结果的影响从结果上看,通过wrap虽然不能改善精度,但是召回提升还是特别明显的,在不同的检测框架下均有5到6个点的提升

这篇关于Simple Baselines for Human Pose Estimation and Tracking的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/355854

相关文章

uva 10014 Simple calculations(数学推导)

直接按照题意来推导最后的结果就行了。 开始的时候只做到了第一个推导,第二次没有继续下去。 代码: #include<stdio.h>int main(){int T, n, i;double a, aa, sum, temp, ans;scanf("%d", &T);while(T--){scanf("%d", &n);scanf("%lf", &first);scanf

MonoHuman: Animatable Human Neural Field from Monocular Video 翻译

MonoHuman:来自单目视频的可动画人类神经场 摘要。利用自由视图控制来动画化虚拟化身对于诸如虚拟现实和数字娱乐之类的各种应用来说是至关重要的。已有的研究试图利用神经辐射场(NeRF)的表征能力从单目视频中重建人体。最近的工作提出将变形网络移植到NeRF中,以进一步模拟人类神经场的动力学,从而动画化逼真的人类运动。然而,这种流水线要么依赖于姿态相关的表示,要么由于帧无关的优化而缺乏运动一致性

使用django-simple-captcha遇到的坑

使用django-simple-captcha遇到的坑 一站点gongshare.com在做注册功能时验证码采用的django-simple-captcha,因为笔者开发环境采用的Windows 64bit系统,结果安装使用的时候接二连三遇到好几个坑。 django-simple-captcha需要依赖django1.3+、PIL1.1.7+或者Pillow2.0+,根据文档安装后开始使用时,

HYPERCASUAL - Simple Characters(卡通游戏火柴人物模型)

介绍HyperCasual - 简单角色! 一套低多边形角色资源,用于创建超休闲风格的游戏。 包含演示场景 角色(x10) 生化人、小丑、Flaty_Boss、女孩、守门员、英雄、亚马逊女战士、男人、红衣男人、修理工 每个网格大约有700-2000个顶点 角色设置与Mecanim兼容(本包中不包含动画) 着色器适用于可编写脚本的渲染管线(HD + LW) 下载:​​Unity资源商店链接资源

【HDU】4975 A simple Gaussian elimination problem. 网络流——行列建边

传送门:【HDU】4975 A simple Gaussian elimination problem. 题目分析:这题和某一场的多校的题目出奇的像啊!重要的是我一开始还以为不可能会出一样的题。。结果迟迟没写啊。。。后来觉得实在想不出什么对策了,虽然觉得给的是0~9很特殊,但是利用不起来,果断还是敲了网络流了。。首先建图很简单,源点向行建边,容量为行和,列向汇点建边,容量为列和,然后所有的

Splay树(区间更新)—— POJ 3468 A Simple Problem with Integers

对应POJ 题目:点击打开链接 A Simple Problem with Integers Time Limit: 5000MS Memory Limit: 131072KTotal Submissions: 72765 Accepted: 22465Case Time Limit: 2000MS Description You have N integers, A1

大文件上传vue插件vue-simple-uploader

https://www.cnblogs.com/xiahj/p/vue-simple-uploader.html

TCNN:Modeling and Propagating CNNs in a Tree Structure for Visual Tracking

TCNN:Modeling and Propagating CNNs in a Tree Structure for Visual Tracking arXiv 16 Hyeonseob Nam∗ Mooyeol Baek∗ Bohyung Han 韩国POSTECH大学 Bohyung Han团队的论文,MDNet,BranchOut的作者。 Movtivation 本文的motiv

Learning Policies for Adaptive Tracking with Deep Feature Cascades

Learning Policies for Adaptive Tracking with Deep Feature Cascades ICCV17 shotlight 作者:Chen Huang, CMU postdoctor,导师 Deva Ramanan summary 文章主要贡献在于速度与精度的权衡(AUC 0.638,fps 23),通过强化学习策略,来控制网络的深度,使得精度和

论文笔记:Estimating future human trajectories from sparse time series data

sigspatial 2023 humob竞赛paper hiimryo816/humob2023-MOBB (github.com) 1 数据集分析 这里只分享了HuMob数据集1的内容 1.1 假日分析 对HuMob数据集#1地理数据的方差分析显示了非工作日的模式 在某些天的y坐标方差中有显著的峰值,这是非工作日的象征【x坐标有相似的模式】 ——>识别了任务1数据集中最有可能是