手势识别2020(一)Weakly-supervised Domain Adaptation via GAN and Mesh Model for Estimating 3D Hand Poses

本文主要是介绍手势识别2020(一)Weakly-supervised Domain Adaptation via GAN and Mesh Model for Estimating 3D Hand Poses,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

《Weakly-supervised Domain Adaptation via GAN and Mesh Model for Estimating 3D Hand Poses Interacting Objects》论文解读

  • Abstract
  • 1. Introduction
  • 2. Domain Adaptation Framework
    • 2.1. Training
      • 2.1.1. 2D heatmap supervision L~Heat~
      • 2.1.2. Image-level supervision L~Img~&&L~d~
      • 2.1.3. 3D skeleton supervision L~Pos~
    • 2.2. Testing

在这里插入图片描述

原文:Weakly-supervised Domain Adaptation via GAN and Mesh Model for Estimating 3D Hand Poses Interacting Objects
收录:CVPR2020
代码:Will be available soon.


Abstract

        尽管最近在手部姿态估计方面取得成功,但是 基于RGB图像的3D手部姿态估计(HPE)方法手-物交互(HOI) 场景中仍然存在挑战,因为存在严重自遮挡以及背景杂乱等问题。最近这段时间,不论是在真实领域还是在合成领域,基于RGB的HOI数据都一直在被收集,但是数据集的大小还远远不够我们去处理人手交互问题,而且也缺乏真实样本的3D姿态标注,尤其是在遮挡情况下。
        该论文提出了一个端到端可训练的网络,在手物交互领域能够适应单手的手物交互,同时学习HPE。

 
※论文核心思想

  1. 通过 生成对抗网络(GAN)的2D像素级引导网格渲染器(MR)的3D网格引导,图像空间发生域自适应(Domain Adaptation);
  2. GAN能准确地对齐双手,MR能有效地填充被遮挡的像素点;

 


1. Introduction

  • 一个优秀的手部姿态估计方法具备以下属性:
  1. 有一个能够学习2D-3D高度非线性映射的深度学习方法;
  2. 有一个能够充分训练卷积神经网络(CNNs)的可用大型数据集。
  • 对于手物交互也存在挑战,即:
  1. 严重的自遮挡
  2. 复杂的背景;
  3. 3D数据集标注以及大小。
  • 现阶段,一个完整的、并且能自动去标注有着严重遮挡问题3D关节点位置的网络不存在。因此对于数据集3D标注,有以下方法:
  1. 需要大量的人力来不断检查和改进标签;
  2. 使用磁性传感器或者数据手套;
  3. 使用合成数据。

        由于数据集包含 纯手部 以及 HOI ,在一些工作中对这两种数据集来进行测试,对比两者的手姿态估计器的准确性。分别使用 HOI 以及 hand-only 来训练的手部姿态估计模型,最后发现在纯手部测试图像上使用 HOI 数据集训练的模型表现并不好,但在 HOI 测试图像上的精度提高。

        工作主要目标就是 在手物交互(HOI)域实现单手交互。


 
主要贡献:

  • 提出了一种新的端到端学习框架:用于同时进行域自适应和HPE。利用2D目标分割掩模和hand-only数据的3D位姿标签,在弱监督下训练域自适应网络。没有使用带3D注释的HOI数据,但提高了HOI下的手姿态估计的精度;
  • 域自适应在图像空间中通过两种导向实现。首先研究两种图像生成的方法:①GAN; ②使用估计好的3D网格(Mesh) 和纹理(Texture) 的网格渲染器。最后实现将输入的HOI图像转换为分割和去遮挡的hand-only图像,有效地提高了HPE的精度;

 


2. Domain Adaptation Framework

在这里插入图片描述
        上图是3D手部姿态估计框架示意图。域自适应网络输入一个 HOI 的RGB图像 x,并提取该图像的2D特征图 f 和关节点热图 h (通过2D特征和姿态估计器 gFPE 来实现)。在此基础上,网格渲染器 gMR 来重构相应的3D网格 m 和纹理 t,然后得到一个初始的 hand-only 图像 x’ 。然后分别从 xx’ 中提取2D map {f,h} 、 {f’,h’} ,然后都输入到GAN的生成器 gGAN,生成一个更精细的hand-only图像 x’’。最后,对 x’’ 应用 gFPEgMR 生成网格 m’’,然后分为两路:1) 生成对应的 hand-only 图像 z ; 2) 生成骨关节姿态 y,绿色和蓝色箭头分别表示数据处理和监督。
在这里插入图片描述


notationsizemeaning
X256×256×3RGB图像 ( x、x’、x’’、z)
Y21×33D骨关节空间姿态 ( x、x’、x’’、z)
F128×32×322D特征空间
H21×32×322D热图空间
M778×15383D网格空间(778个顶点×1538个面)
T1538×3网格纹理(3×1538个面)
gFPEX → F×H2D特征和位姿估计器
gHMEF×H → M手网格估计
gTexF×H → T纹理估计
gNRM×T → XNeural renderer
gRegM → Y手关节回归
gMRF×H →X×Y网格渲染器
gGANF×H×F×H → XGAN 生成器
d1GAN、d2GANX → RGAN 判别器
fDANX → X×Y域自适应网络
  • fDANgMRgFPE 组成;
  • gMRgHMEgTexgNRgReg 组成。
     

2.1. Training

        采取弱监督的学习方式的,因为它没有使用3D骨骼关节的GT值或HOI图像的hand-only 分割掩码。当然,若为HOI图像提供3D关节标注,算法也可以选择性地利用它们。

        使用的数据集如下:
在这里插入图片描述

2.1.1. 2D heatmap supervision LHeat

在这里插入图片描述

  • hGT :hand-only 图像的2D热图GT值;
  • gFPE :该结构初始权重采用 Zimmermann and Brox 的网络权值。

 

2.1.2. Image-level supervision LImg&&Ld

        训练数据集D中的每个输入图像 x 都有相应的2D分割掩模 s,其用于提取手部区域 x ⊙ s x\odot s xs,其中 ⊙ \odot 代表两个大小相同矩阵对应的元素相乘。
在这里插入图片描述
其中后面两个式子在使用数据集 D H O I R = ( x , s H O I ) D_{HOI}^{R}={(x,s_{HOI})} DHOIR=(x,sHOI) 时等于0,因为该数据集没有 sHand

在这里插入图片描述

  • D H O I S D_{HOI}^{S} DHOIS:含 sHand、sHOI,而 D H O I R 、 D H a n d R 、 D H a n d S D_{HOI}^{R}、D_{Hand}^{R}、D_{Hand}^{S} DHOIRDHandRDHandS只含其中之一。

 

2.1.3. 3D skeleton supervision LPos

在这里插入图片描述

  • yGT :hand-only 图像的3D骨架GT值。

 


2.2. Testing

       将训练好的DAN网络应用到测试图像 x 上,测试时除了不提供监督外,其流程与训练过程相同,参数向量用 p 来表示,那么其更新规则如何?
在这里插入图片描述

  • [y]XY :参数为p(t)时输出的3D关节空间位置 y 在图像上的投影;
  • j :通过x’'上估计的2D热图h”获得的2D骨关节。

这篇关于手势识别2020(一)Weakly-supervised Domain Adaptation via GAN and Mesh Model for Estimating 3D Hand Poses的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/317714

相关文章

无人叉车3d激光slam多房间建图定位异常处理方案-墙体画线地图切分方案

墙体画线地图切分方案 针对问题:墙体两侧特征混淆误匹配,导致建图和定位偏差,表现为过门跳变、外月台走歪等 ·解决思路:预期的根治方案IGICP需要较长时间完成上线,先使用切分地图的工程化方案,即墙体两侧切分为不同地图,在某一侧只使用该侧地图进行定位 方案思路 切分原理:切分地图基于关键帧位置,而非点云。 理论基础:光照是直线的,一帧点云必定只能照射到墙的一侧,无法同时照到两侧实践考虑:关

阿里开源语音识别SenseVoiceWindows环境部署

SenseVoice介绍 SenseVoice 专注于高精度多语言语音识别、情感辨识和音频事件检测多语言识别: 采用超过 40 万小时数据训练,支持超过 50 种语言,识别效果上优于 Whisper 模型。富文本识别:具备优秀的情感识别,能够在测试数据上达到和超过目前最佳情感识别模型的效果。支持声音事件检测能力,支持音乐、掌声、笑声、哭声、咳嗽、喷嚏等多种常见人机交互事件进行检测。高效推

usaco 1.3 Mixing Milk (结构体排序 qsort) and hdu 2020(sort)

到了这题学会了结构体排序 于是回去修改了 1.2 milking cows 的算法~ 结构体排序核心: 1.结构体定义 struct Milk{int price;int milks;}milk[5000]; 2.自定义的比较函数,若返回值为正,qsort 函数判定a>b ;为负,a<b;为0,a==b; int milkcmp(const void *va,c

MiniGPT-3D, 首个高效的3D点云大语言模型,仅需一张RTX3090显卡,训练一天时间,已开源

项目主页:https://tangyuan96.github.io/minigpt_3d_project_page/ 代码:https://github.com/TangYuan96/MiniGPT-3D 论文:https://arxiv.org/pdf/2405.01413 MiniGPT-3D在多个任务上取得了SoTA,被ACM MM2024接收,只拥有47.8M的可训练参数,在一张RTX

SAM2POINT:以zero-shot且快速的方式将任何 3D 视频分割为视频

摘要 我们介绍 SAM2POINT,这是一种采用 Segment Anything Model 2 (SAM 2) 进行零样本和快速 3D 分割的初步探索。 SAM2POINT 将任何 3D 数据解释为一系列多向视频,并利用 SAM 2 进行 3D 空间分割,无需进一步训练或 2D-3D 投影。 我们的框架支持各种提示类型,包括 3D 点、框和掩模,并且可以泛化到不同的场景,例如 3D 对象、室

MVC(Model-View-Controller)和MVVM(Model-View-ViewModel)

1、MVC MVC(Model-View-Controller) 是一种常用的架构模式,用于分离应用程序的逻辑、数据和展示。它通过三个核心组件(模型、视图和控制器)将应用程序的业务逻辑与用户界面隔离,促进代码的可维护性、可扩展性和模块化。在 MVC 模式中,各组件可以与多种设计模式结合使用,以增强灵活性和可维护性。以下是 MVC 各组件与常见设计模式的关系和作用: 1. Model(模型)

Clion不识别C代码或者无法跳转C语言项目怎么办?

如果是中文会显示: 此时只需要右击项目,或者你的源代码目录,将这个项目或者源码目录标记为项目源和头文件即可。 英文如下:

模具要不要建设3D打印中心

随着3D打印技术的日益成熟与广泛应用,模具企业迎来了自建3D打印中心的热潮。这一举措不仅为企业带来了前所未有的发展机遇,同时也伴随着一系列需要克服的挑战,如何看待企业引进增材制造,小编为您全面分析。 机遇篇: 加速产品创新:3D打印技术如同一把钥匙,为模具企业解锁了快速迭代产品设计的可能。企业能够迅速将创意转化为实体模型,缩短产品从设计到市场的周期,抢占市场先机。 强化定制化服务:面

数据集 3DPW-开源户外三维人体建模-姿态估计-人体关键点-人体mesh建模 >> DataBall

3DPW 3DPW-开源户外三维人体建模数据集-姿态估计-人体关键点-人体mesh建模 开源户外三维人体数据集 @inproceedings{vonMarcard2018, title = {Recovering Accurate 3D Human Pose in The Wild Using IMUs and a Moving Camera}, author = {von Marc

论文精读-Supervised Raw Video Denoising with a Benchmark Dataset on Dynamic Scenes

论文精读-Supervised Raw Video Denoising with a Benchmark Dataset on Dynamic Scenes 优势 1、构建了一个用于监督原始视频去噪的基准数据集。为了多次捕捉瞬间,我们手动为对象s创建运动。在高ISO模式下捕获每一时刻的噪声帧,并通过对多个噪声帧进行平均得到相应的干净帧。 2、有效的原始视频去噪网络(RViDeNet),通过探