EventCap: Monocular 3D Capture of High-Speed Human Motionsusing an Event Camera论文笔记

本文主要是介绍EventCap: Monocular 3D Capture of High-Speed Human Motionsusing an Event Camera论文笔记，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

论文翻译

Abstract

高帧率是捕捉快速人体运动的关键要求。在这种情况下，现有的基于无标记图像的方法受到照明要求、高数据带宽和随之而来的高计算开销的限制。在这篇文章中，我们提出了event cap——第一个使用单个事件摄像机对高速人体运动进行三维捕捉的方法。我们的方法结合了基于模型的优化和基于CNN的人体姿态检测来捕捉高频运动细节并减少跟踪中的漂移。因此，与使用高帧率视频相比，我们可以以毫秒级分辨率捕获快速运动，数据效率显著提高。在我们新的基于事件的快速人体运动数据集上的实验证明了我们方法的有效性和准确性，以及它对严苛光照条件的鲁棒性。

1. Introduction

随着虚拟现实和增强现实(VR和AR)最近的流行，对可靠的3D人体运动捕捉的需求越来越大。作为广泛使用的基于标记和传感器的解决方案的低成本替代方案，基于无标记视频的运动捕捉减轻了对身体佩戴运动传感器和标记的需求。这一研究方向在过去几年里受到了越来越多的关注[13，21，54，64，68]。

在本文中，我们将重点放在高速运动的无标记动作捕捉上，这对于许多应用是必不可少的，例如体操、体育和舞蹈的训练和表现评估。对于现有方法，以高帧速率捕获运动会导致非常高的数据带宽以及算法复杂性。虽然当前基于marker和sensor-based的解决方案可以支持超过每秒400帧(fps) [63，66，44]，但关于无标记高帧率运动捕捉的文献很少。

最近的几个工作[30，71]揭示了高帧速率摄像机系统对于跟踪快速运动的重要性。然而，它们仍然存在上述基本问题——高帧率会导致原始数据量过大，数据处理需要大量带宽(例如，从单个视图中以1000 fps的速度捕获VGA分辨率的RGB流，一分钟会产生51.5GB的数据)。此外，两种方法[30，71]都假设：1) 光线充足的场景，用于补偿高帧速率下的短曝光时间。2) 由于基于红外的深度传感器的限制，只能在室内进行捕捉。

在这篇文章中，我们提出了一种通过使用事件摄像机来解决上述问题的方法。这种受生物启发的动态视觉传感器[32]异步测量像素强度变化，与传统相机相比具有多种优势，包括高时间分辨率、高动态范围(140分贝)、低功耗和低数据带宽。这些属性允许以high data efficiency并且可以在一般的在照明条件下捕获非常快的运动。然而，使用事件摄像机进行动作捕捉仍然具有挑战性。首先，算法的高时间分辨率导致每个帧间隔中的测量(事件)非常稀疏，因为帧间强度变化是微小的。由此产生的低信噪比使得很难鲁棒地跟踪运动。第二，由于事件流仅编码时间强度变化，因此难以初始化跟踪和防止漂移。一种简单的解决方案是通过累积事件以高帧速率重建图像，并将现有方法应用于重建图像。这样的方法会使数据再次变得密集，并且事件中编码的时间信息会丢失。

为了应对这些挑战，我们提出了EventCap——第一个基于单目事件的三维人体运动捕捉方法(见图1的概述)。更具体地说，我们设计了一种混合异步运动捕捉算法，该算法在联合优化框架中利用来自事件摄像机的事件流和低帧率强度图像流。我们的方法包括三个阶段:首先，我们以异步方式跟踪2D空间中的事件，并重建每个相邻强度图像之间的连续时空事件轨迹。通过均匀分割连续事件轨迹，我们以期望的高帧速率实现了2D事件跟踪。其次，我们使用基于batch的优化算法来估计演员的3D运动。为了解决由于单目设置固有的跟踪误差和深度模糊的累积而导致的漂移，我们基于 batch处理的优化不仅支持跟踪事件的轨迹，但也支持基于CNN的强度图像的2D和3D姿态估计。最后，我们基于从异步事件流中获得的边界信息来细化捕获的高速运动。总之，本文的主要贡献包括:

1）我们提出了第一种基于事件摄像机的三维人体运动捕捉的单目方法。

2）为了应对低信噪比、漂移和初始化困难的挑战，我们提出了一种新的混合异步batch-based处理优化算法。

3）我们提出了基于事件摄像机的快速人体运动捕捉评估数据集，并以1000 fps的速度提供高质量的运动捕捉结果。

2. Related Work

3D人体运动捕捉

Marker-based的多视图运动捕捉工作室在工业界和学术界都被广泛使用[66，63，44]，它可以以高帧速率(例如960 fps)捕捉快速运动[44]。这些系统通常成本很高，而且用户佩戴标记物套件会很麻烦。无标记多摄像机运动捕捉算法克服了这些问题[5，58，37，22，16，51，52，54，25，67]。最近的工作[2，6，14，47，48，42，53]甚至证明了强大的离线运动捕捉。尽管成本大幅降低，同步和校准多摄像机系统仍然很麻烦。此外，当以高帧速率捕获快速运动时[30]，来自多个摄像机的大量数据不仅成为计算的瓶颈，也成为数据处理和存储的瓶颈。

商用深度相机的出现使得低成本的动作捕捉无需复杂的多视角设置[50，3，65，70，19]。为了捕捉快速运动，Yuan等人[71]将高帧率动作相机与商品30fps的RGB-D相机相结合，产生了240fps的合成深度相机。然而，基于红外的相机不适合户外拍摄，其高功耗限制了移动应用。

最近，随着深度神经网络的出现，提出了纯粹基于RGB的单目三维人体姿态估计方法[23，49，11，61，29]。这些方法或者从单个图像回归身体关节的相对于root-relative的三维位置[31，56，72，34，57，41，35]，或者将2D检测提升到三维[4，73，10，69，24]。这些工作中使用的三维位置表示不适合制作三维虚拟角色的动画。为了解决这个问题，最近的工作直接从图像中回归关节角度[26，28，39，43，55]。理论上，这些方法可以直接应用于高帧率视频，实现快速运动捕捉。实际上，跟踪误差通常大于帧间运动，这导致精细运动细节的丢失。结合数据驱动的三维位姿估计和图像引导配准的方法缓解了这一问题，可以获得更高的精度[68，20]。然而，数据冗余仍然是一个问题。

此外，当捕捉高帧率RGB视频时，场景必须光线充足，因为曝光时间不能长于帧间隔。继[68]之后，我们将数据驱动方法与批量优化相结合。不同的是，我们不是使用高帧率RGB视频，而是利用事件流和来自事件摄像机的低帧率强度图像流。与基于RGB的方法相比，我们的方法更具数据效率，并且在更广泛的照明条件下工作良好。

使用事件摄像机进行跟踪。

由于其高动态范围、无运动模糊和低功耗，事件摄像机正在引起计算机视觉的范式转变。有关基于事件的视觉应用的详细调查，请参考[17]。与我们最密切相关的设置可以在事件流中的对象跟踪工作中找到。

事件摄像机的特定特性使其非常适合跟踪快速移动的对象。大多数相关的工作集中在跟踪2D物体上，如已知的2D单元[38，36]，角[62]和线[15]。Piatkowska等人[45]提出了一种从立体事件摄像机跟踪多人bounding box的技术。Valeiras等人[60]用一组与simulated springs相连的高斯追踪器追踪像人脸这样的复杂物体。

第一种三维跟踪方法是在[46]中提出的，它估计刚性物体的三维姿态估计。从已知姿势的已知对象形状开始，他们的方法通过将事件与最近的可见对象边缘相关联来增量更新姿势。最近，Calabrese等人[7]提供了第一种基于多事件摄像机的基于事件的3D人体运动捕捉方法。训练神经网络以使用来自每个视图的事件流来检测2D人体关节。然后，通过三角测量来估计三维身体姿态。在他们的方法中，事件随着时间的推移而累积，形成图像帧作为网络的输入。因此，事件相机的异步和高时间分辨率特性被破坏，这阻止了该方法用于高帧速率运动捕捉。

3. EventCap Method

我们在这篇文章中的目标是使用单事件摄像机捕捉3D中的高速人体运动。为了捕捉快速运动中的精细细节，高时间分辨率是必要的。这里，我们的目标是1000 fps的跟踪帧速率。

图2提供了EventCap的概述。我们的方法依赖于预处理步骤来重建演员的模板网格。在跟踪过程中，我们优化模板的骨架参数，以匹配单个事件摄像机的观察，包括事件流和低帧率强度图像流。我们的跟踪算法由三个阶段组成:首先，我们在两个相邻的强度图像之间生成稀疏的事件轨迹，这些轨迹从事件流中提取异步时空信息。然后，执行批量优化方案，以使用事件轨迹和来自强度图像流(秒)的基于中枢神经系统的身体关节检测来优化1000fps的骨骼运动。最后，我们基于从异步事件流(Sec)获得的边界信息来细化捕获的骨骼运动。

模板网格获取。

我们使用3D身体扫描仪[59]来生成演员的模板网格。为了用参数化骨架装配模板网格，我们通过优化身体形状和姿势参数，将蒙皮多人线性模型(SMPL)[33]拟合到模板网格，然后将SMPL权重转移到我们的扫描网格。如果3D扫描仪不可用，还可以使用基于图像的人体形状估计算法，例如[26]，来获得SMPL网格作为模板网格。这两种方法的比较见第2节.4.1。为了达到类似身体关节约束，我们降低了SMPL骨骼的自由度。我们的骨架参数集S = [θ，R，t]包括NJ骨架的关节角θ ∈ R27，root的全局旋转R∈R3和平移t∈R3。