EventCap: Monocular 3D Capture of High-Speed Human Motionsusing an Event Camera论文笔记

本文主要是介绍EventCap: Monocular 3D Capture of High-Speed Human Motionsusing an Event Camera论文笔记,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

论文翻译

Abstract

高帧率是捕捉快速人体运动的关键要求。在这种情况下,现有的基于无标记图像的方法受到照明要求、高数据带宽和随之而来的高计算开销的限制。在这篇文章中,我们提出了event cap——第一个使用单个事件摄像机对高速人体运动进行三维捕捉的方法。我们的方法结合了基于模型的优化和基于CNN的人体姿态检测来捕捉高频运动细节并减少跟踪中的漂移。因此,与使用高帧率视频相比,我们可以以毫秒级分辨率捕获快速运动,数据效率显著提高。在我们新的基于事件的快速人体运动数据集上的实验证明了我们方法的有效性和准确性,以及它对严苛光照条件的鲁棒性。

1. Introduction

随着虚拟现实和增强现实(VR和AR)最近的流行,对可靠的3D人体运动捕捉的需求越来越大。作为广泛使用的基于标记和传感器的解决方案的低成本替代方案,基于无标记视频的运动捕捉减轻了对身体佩戴运动传感器和标记的需求。这一研究方向在过去几年里受到了越来越多的关注[13,21,54,64,68]。

在本文中,我们将重点放在高速运动的无标记动作捕捉上,这对于许多应用是必不可少的,例如体操、体育和舞蹈的训练和表现评估。对于现有方法,以高帧速率捕获运动会导致非常高的数据带宽以及算法复杂性。虽然当前基于marker和sensor-based的解决方案可以支持超过每秒400帧(fps) [63,66,44],但关于无标记高帧率运动捕捉的文献很少。

最近的几个工作[30,71]揭示了高帧速率摄像机系统对于跟踪快速运动的重要性。然而,它们仍然存在上述基本问题——高帧率会导致原始数据量过大,数据处理需要大量带宽(例如,从单个视图中以1000 fps的速度捕获VGA分辨率的RGB流,一分钟会产生51.5GB的数据)。此外,两种方法[30,71]都假设:1) 光线充足的场景,用于补偿高帧速率下的短曝光时间。2) 由于基于红外的深度传感器的限制,只能在室内进行捕捉。

在这篇文章中,我们提出了一种通过使用事件摄像机来解决上述问题的方法。这种受生物启发的动态视觉传感器[32]异步测量像素强度变化,与传统相机相比具有多种优势,包括高时间分辨率、高动态范围(140分贝)、低功耗和低数据带宽。这些属性允许以high data efficiency并且可以在一般的在照明条件下捕获非常快的运动。然而,使用事件摄像机进行动作捕捉仍然具有挑战性。首先,算法的高时间分辨率导致每个帧间隔中的测量(事件)非常稀疏,因为帧间强度变化是微小的。由此产生的低信噪比使得很难鲁棒地跟踪运动。第二,由于事件流仅编码时间强度变化,因此难以初始化跟踪和防止漂移。一种简单的解决方案是通过累积事件以高帧速率重建图像,并将现有方法应用于重建图像。这样的方法会使数据再次变得密集,并且事件中编码的时间信息会丢失。

为了应对这些挑战,我们提出了EventCap——第一个基于单目事件的三维人体运动捕捉方法(见图1的概述)。更具体地说,我们设计了一种混合异步运动捕捉算法,该算法在联合优化框架中利用来自事件摄像机的事件流和低帧率强度图像流。我们的方法包括三个阶段:首先,我们以异步方式跟踪2D空间中的事件,并重建每个相邻强度图像之间的连续时空事件轨迹。通过均匀分割连续事件轨迹,我们以期望的高帧速率实现了2D事件跟踪。其次,我们使用基于batch的优化算法来估计演员的3D运动。为了解决由于单目设置固有的跟踪误差和深度模糊的累积而导致的漂移,我们基于 batch处理的优化不仅支持跟踪事件的轨迹,但也支持基于CNN的强度图像的2D和3D姿态估计。最后,我们基于从异步事件流中获得的边界信息来细化捕获的高速运动。总之,本文的主要贡献包括:

1)我们提出了第一种基于事件摄像机的三维人体运动捕捉的单目方法。

2)为了应对低信噪比、漂移和初始化困难的挑战,我们提出了一种新的混合异步batch-based处理优化算法。

3)我们提出了基于事件摄像机的快速人体运动捕捉评估数据集,并以1000 fps的速度提供高质量的运动捕捉结果。

2. Related Work 

3D人体运动捕捉

Marker-based的多视图运动捕捉工作室在工业界和学术界都被广泛使用[66,63,44],它可以以高帧速率(例如960 fps)捕捉快速运动[44]。这些系统通常成本很高,而且用户佩戴标记物套件会很麻烦。无标记多摄像机运动捕捉算法克服了这些问题[5,58,37,22,16,51,52,54,25,67]。最近的工作[2,6,14,47,48,42,53]甚至证明了强大的离线运动捕捉。尽管成本大幅降低,同步和校准多摄像机系统仍然很麻烦。此外,当以高帧速率捕获快速运动时[30],来自多个摄像机的大量数据不仅成为计算的瓶颈,也成为数据处理和存储的瓶颈 。

商用深度相机的出现使得低成本的动作捕捉无需复杂的多视角设置[50,3,65,70,19]。为了捕捉快速运动,Yuan等人[71]将高帧率动作相机与商品30fps的RGB-D相机相结合,产生了240fps的合成深度相机。然而,基于红外的相机不适合户外拍摄,其高功耗限制了移动应用。

最近,随着深度神经网络的出现,提出了纯粹基于RGB的单目三维人体姿态估计方法[23,49,11,61,29]。这些方法或者从单个图像回归身体关节的相对于root-relative的三维位置[31,56,72,34,57,41,35],或者将2D检测提升到三维[4,73,10,69,24]。这些工作中使用的三维位置表示不适合制作三维虚拟角色的动画。为了解决这个问题,最近的工作直接从图像中回归关节角度[26,28,39,43,55]。理论上,这些方法可以直接应用于高帧率视频,实现快速运动捕捉。实际上,跟踪误差通常大于帧间运动,这导致精细运动细节的丢失。结合数据驱动的三维位姿估计和图像引导配准的方法缓解了这一问题,可以获得更高的精度[68,20]。然而,数据冗余仍然是一个问题。

此外,当捕捉高帧率RGB视频时,场景必须光线充足,因为曝光时间不能长于帧间隔。继[68]之后,我们将数据驱动方法与批量优化相结合。不同的是,我们不是使用高帧率RGB视频,而是利用事件流和来自事件摄像机的低帧率强度图像流。与基于RGB的方法相比,我们的方法更具数据效率,并且在更广泛的照明条件下工作良好。

使用事件摄像机进行跟踪。

由于其高动态范围、无运动模糊和低功耗,事件摄像机正在引起计算机视觉的范式转变。有关基于事件的视觉应用的详细调查,请参考[17]。与我们最密切相关的设置可以在事件流中的对象跟踪工作中找到。

 事件摄像机的特定特性使其非常适合跟踪快速移动的对象。大多数相关的工作集中在跟踪2D物体上,如已知的2D单元[38,36],角[62]和线[15]。Piatkowska等人[45]提出了一种从立体事件摄像机跟踪多人bounding box的技术。Valeiras等人[60]用一组与simulated springs相连的高斯追踪器追踪像人脸这样的复杂物体。

第一种三维跟踪方法是在[46]中提出的,它估计刚性物体的三维姿态估计。从已知姿势的已知对象形状开始,他们的方法通过将事件与最近的可见对象边缘相关联来增量更新姿势。最近,Calabrese等人[7]提供了第一种基于多事件摄像机的基于事件的3D人体运动捕捉方法。训练神经网络以使用来自每个视图的事件流来检测2D人体关节。然后,通过三角测量来估计三维身体姿态。在他们的方法中,事件随着时间的推移而累积,形成图像帧作为网络的输入。因此,事件相机的异步和高时间分辨率特性被破坏,这阻止了该方法用于高帧速率运动捕捉。

3. EventCap Method

我们在这篇文章中的目标是使用单事件摄像机捕捉3D中的高速人体运动。为了捕捉快速运动中的精细细节,高时间分辨率是必要的。这里,我们的目标是1000 fps的跟踪帧速率。

图2提供了EventCap的概述。我们的方法依赖于预处理步骤来重建演员的模板网格。在跟踪过程中,我们优化模板的骨架参数,以匹配单个事件摄像机的观察,包括事件流和低帧率强度图像流。我们的跟踪算法由三个阶段组成:首先,我们在两个相邻的强度图像之间生成稀疏的事件轨迹,这些轨迹从事件流中提取异步时空信息。然后,执行批量优化方案,以使用事件轨迹和来自强度图像流(秒)的基于中枢神经系统的身体关节检测来优化1000fps的骨骼运动。最后,我们基于从异步事件流(Sec)获得的边界信息来细化捕获的骨骼运动。

模板网格获取。

我们使用3D身体扫描仪[59]来生成演员的模板网格。为了用参数化骨架装配模板网格,我们通过优化身体形状和姿势参数,将蒙皮多人线性模型(SMPL)[33]拟合到模板网格,然后将SMPL权重转移到我们的扫描网格。如果3D扫描仪不可用,还可以使用基于图像的人体形状估计算法,例如[26],来获得SMPL网格作为模板网格。这两种方法的比较见第2节.4.1。为了达到类似身体关节约束,我们降低了SMPL骨骼的自由度。我们的骨架参数集S = [θ,R,t]包括NJ骨架的关节角θ ∈ R27,root的全局旋转R∈R3和平移t∈R3。

事件摄像机模型。

事件相机是受生物启发的传感器,可以在每个像素独立测量对数亮度L(u,t)的变化,并提供微秒级分辨率的异步事件流。当对数亮度变化达到阈值时,事件ei= (ui,ti,ρi)表示像素ui在t时间ti被触发。


3.1 异步事件的轨迹生成

这篇关于EventCap: Monocular 3D Capture of High-Speed Human Motionsusing an Event Camera论文笔记的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/381341

相关文章

无人叉车3d激光slam多房间建图定位异常处理方案-墙体画线地图切分方案

墙体画线地图切分方案 针对问题:墙体两侧特征混淆误匹配,导致建图和定位偏差,表现为过门跳变、外月台走歪等 ·解决思路:预期的根治方案IGICP需要较长时间完成上线,先使用切分地图的工程化方案,即墙体两侧切分为不同地图,在某一侧只使用该侧地图进行定位 方案思路 切分原理:切分地图基于关键帧位置,而非点云。 理论基础:光照是直线的,一帧点云必定只能照射到墙的一侧,无法同时照到两侧实践考虑:关

AI hospital 论文Idea

一、Benchmarking Large Language Models on Communicative Medical Coaching: A Dataset and a Novel System论文地址含代码 大多数现有模型和工具主要迎合以患者为中心的服务。这项工作深入探讨了LLMs在提高医疗专业人员的沟通能力。目标是构建一个模拟实践环境,人类医生(即医学学习者)可以在其中与患者代理进行医学

【学习笔记】 陈强-机器学习-Python-Ch15 人工神经网络(1)sklearn

系列文章目录 监督学习:参数方法 【学习笔记】 陈强-机器学习-Python-Ch4 线性回归 【学习笔记】 陈强-机器学习-Python-Ch5 逻辑回归 【课后题练习】 陈强-机器学习-Python-Ch5 逻辑回归(SAheart.csv) 【学习笔记】 陈强-机器学习-Python-Ch6 多项逻辑回归 【学习笔记 及 课后题练习】 陈强-机器学习-Python-Ch7 判别分析 【学

系统架构师考试学习笔记第三篇——架构设计高级知识(20)通信系统架构设计理论与实践

本章知识考点:         第20课时主要学习通信系统架构设计的理论和工作中的实践。根据新版考试大纲,本课时知识点会涉及案例分析题(25分),而在历年考试中,案例题对该部分内容的考查并不多,虽在综合知识选择题目中经常考查,但分值也不高。本课时内容侧重于对知识点的记忆和理解,按照以往的出题规律,通信系统架构设计基础知识点多来源于教材内的基础网络设备、网络架构和教材外最新时事热点技术。本课时知识

论文翻译:arxiv-2024 Benchmark Data Contamination of Large Language Models: A Survey

Benchmark Data Contamination of Large Language Models: A Survey https://arxiv.org/abs/2406.04244 大规模语言模型的基准数据污染:一项综述 文章目录 大规模语言模型的基准数据污染:一项综述摘要1 引言 摘要 大规模语言模型(LLMs),如GPT-4、Claude-3和Gemini的快

论文阅读笔记: Segment Anything

文章目录 Segment Anything摘要引言任务模型数据引擎数据集负责任的人工智能 Segment Anything Model图像编码器提示编码器mask解码器解决歧义损失和训练 Segment Anything 论文地址: https://arxiv.org/abs/2304.02643 代码地址:https://github.com/facebookresear

数学建模笔记—— 非线性规划

数学建模笔记—— 非线性规划 非线性规划1. 模型原理1.1 非线性规划的标准型1.2 非线性规划求解的Matlab函数 2. 典型例题3. matlab代码求解3.1 例1 一个简单示例3.2 例2 选址问题1. 第一问 线性规划2. 第二问 非线性规划 非线性规划 非线性规划是一种求解目标函数或约束条件中有一个或几个非线性函数的最优化问题的方法。运筹学的一个重要分支。2

MiniGPT-3D, 首个高效的3D点云大语言模型,仅需一张RTX3090显卡,训练一天时间,已开源

项目主页:https://tangyuan96.github.io/minigpt_3d_project_page/ 代码:https://github.com/TangYuan96/MiniGPT-3D 论文:https://arxiv.org/pdf/2405.01413 MiniGPT-3D在多个任务上取得了SoTA,被ACM MM2024接收,只拥有47.8M的可训练参数,在一张RTX

【C++学习笔记 20】C++中的智能指针

智能指针的功能 在上一篇笔记提到了在栈和堆上创建变量的区别,使用new关键字创建变量时,需要搭配delete关键字销毁变量。而智能指针的作用就是调用new分配内存时,不必自己去调用delete,甚至不用调用new。 智能指针实际上就是对原始指针的包装。 unique_ptr 最简单的智能指针,是一种作用域指针,意思是当指针超出该作用域时,会自动调用delete。它名为unique的原因是这个

查看提交历史 —— Git 学习笔记 11

查看提交历史 查看提交历史 不带任何选项的git log-p选项--stat 选项--pretty=oneline选项--pretty=format选项git log常用选项列表参考资料 在提交了若干更新,又或者克隆了某个项目之后,你也许想回顾下提交历史。 完成这个任务最简单而又有效的 工具是 git log 命令。 接下来的例子会用一个用于演示的 simplegit