【论文阅读-姿态估计】Differentiable Hierarchical Graph Grouping for Multi-Person Pose Estimation

本文主要是介绍【论文阅读-姿态估计】Differentiable Hierarchical Graph Grouping for Multi-Person Pose Estimation，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

本文将介绍发表在ECCV 2020的一篇基于图模型的多人姿态估计方法，作者来自香港大学、商汤科技、南京大学和悉尼大学。
论文链接： https://arxiv.org/abs/2007.11864v1
代码链接： 尚未公开

主要思想：

现有的多人姿态估计模型一般分为一般分为两大类：top-down和bottom-up方法。Top-down的模型先对输入的图像进行目标检测，检测出图像中每个人的bounding box之后，通过单人姿态估计模型对每个人的姿态进行检测。而bottom-up的方法则是先通过关键点检测模型检测出图像中所有人的所有关键点，然后对其进行聚类分组等操作，将检测出的关键点与每个人对应起来。本文提出了一个基于图模型的bottom-up方法，即通过一个可训练的层级图结构（HGG，Hierarchical Graph Grouping）来对前一阶段检测到的关键点进行分组。在训练阶段，HGG部分与关键点检测部分是端到端一起训练的。

模型结构

主要框架图
如上图所示，本文的模型分为关键点提取（Keypoint Candidate Proposal）和基于图的关键点聚类（Hierarchical Graph Grouping
）两部分。其中关键点提取部分采用的是四组堆叠的沙漏网络结构，输出为关键点的Heatmap和点对关系特征图。而用于关键点分组的Hierarchical Graph Grouping部分就是本文的主要创新点，其主要结构如下图所示：
HGG结构
HGG部分主要由三部分组成：