HumanNeRF:Free-viewpoint Rendering of Moving People from Monocular Video 翻译

本文主要是介绍HumanNeRF:Free-viewpoint Rendering of Moving People from Monocular Video 翻译,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

HumanNeRF:单目视频中运动人物的自由视点绘制

引言。我们介绍了一种自由视点渲染方法- HumanNeRF -它适用于一个给定的单眼视频ofa人类执行复杂的身体运动,例如,从YouTube的视频。我们的方法可以在任何帧暂停视频,并从任意新的摄像机视点或甚至针对该特定帧和身体姿势的完整360度摄像机路径渲染主体。这项任务特别具有挑战性,因为它需要合成身体的照片级真实感细节,如从输入视频中可能不存在的各种摄像机角度看到的,以及合成诸如衣服褶皱和面部外观的精细细节。我们的方法优化了一个典型的T-姿势的人的体积表示,在演唱会的运动场,通过向后扭曲映射估计的规范表示到视频的每一帧。运动场被分解为由深度网络产生的骨架刚性运动和非刚性运动。我们显示了显着的性能改进比以前的工作,和令人信服的例子,从单目视频ofmoving人类在具有挑战性的不受控制的捕捉场景的自由视点渲染。

1 介绍

        给定人类执行活动的单个视频,例如,一个舞蹈演员的YouTube或TikTok视频,我们希望能够在任何帧暂停,并围绕表演者旋转360度,以便在那个时刻从任何角度观看他们(图1)。这个问题-移动主体的自由视点渲染-是一个长期的研究挑战,因为它涉及合成以前看不见的相机视图,同时考虑布料褶皱,头发运动和复杂的身体姿势[5,6,15,18,27,38,59,65]。这个问题是特别困难的情况下,“在野外”的视频用一个单一的摄像头(单目视频),我们在本文中地址的情况下。

图1.我们的方法将人类执行复杂运动的单目视频1作为输入,跳舞(左),并为序列中的任意帧创建自由视点渲染(右)。我们构建了一个规范的对象外观体积,以及一个从观察到规范空间的运动场映射,在视频上进行了训练。在测试时,我们只从源帧(红色正方形)中提取姿势,并合成所有输出视图,包括目标视图。请参阅项目第2页查看动画效果。 

        以前的神经渲染方法[3,33,36,37,50,66,75]通常假设多视图输入,仔细的实验室捕获,或者由于非刚体运动而对人类表现不佳。人类特定的方法通常假设SMPL模板[34]作为先验,这有助于约束运动空间,但也会引入服装中的伪影和SMPL模型无法捕获的复杂运动[49,50]。最近可变形NeRF方法[47,48,51,64]对于小变形表现良好,但对于大型全身运动(如跳舞)表现不佳。

        我们介绍了一种方法,称为HumanNeRF,它将一个移动的人的单个视频作为输入帧、现成的分割(具有一些手动清理)和自动3D姿态估计,优化了人类的规范的体积T姿态以及经由向后扭曲将估计的规范体积映射到每个视频帧的运动场。运动场将骨架刚性运动与非刚性运动相结合,每个运动都以体积表示。我们的解决方案是数据驱动的,规范的体积和运动场来自视频本身,并针对大型身体变形进行了优化,经过端到端训练,包括3D姿态优化,无需模板模型。在测试时,我们可以在视频中的任何帧处暂停,并以该帧中的姿势为条件,从任何视点渲染生成的体积表示。

        我们展示了各种示例的结果:现有的实验室数据集,我们在实验室外捕获的视频,以及从YouTube下载的(具有创建者权限)。我们的方法在数值上优于最先进的方法,并产生更高的视觉质量。请参阅项目页面以查看运动中的结果。

2 相关工作

        自由视点渲染的物理过程涉及几何和曲面属性建模,然后从新的相机视图进行渲染。然而,它仍然难以重建复杂的几何形状和微妙的照明效果。或者,基于图像的渲染[57,61]提供了基于图像域中的给定视图集渲染新视图,并在过去几十年中进行了大量研究[8,9,13,17,21,22,30,78]。

        人类特定渲染:Kanade等人的工作[27]是对人类自由视点渲染的最早研究之一。它引入了一个配备摄像头的圆顶来恢复深度图和网格,通过重新投影和混合不同的视图来渲染新的视图,以解决由于遮挡而导致的网格孔。后来,Matusik等人[38]从主体的轮廓重建了一个视觉船体,并通过仔细选择像素来渲染它,而无需辅助几何表示。Carranza等人[5]使用参数化的身体模型作为先验和组合的无标记运动捕捉和视图相关纹理[13]。后续工作介绍了非刚性变形[65],纹理扭曲[6,72]以及基于体积[12]或球体[59]的各种表示。Collet等人。[11]和Guo等人。[18]构建了一个系统和管道,可以生成高质量的可流式传输的[11]甚至是可重定向的[18]移动人物的自由视点视频。

        这些方法中的大多数依赖于多视图视频-通常是昂贵的工作室设置-而我们对简单的单目相机配置感兴趣。

        神经辐射场:NeRF [41]及其扩展[3,23,44,58,62,75,77]能够高质量地渲染静态场景的新视图。NeRF最近已扩展到动态场景[16,31,47,48,51,64,71],虽然这些方法通常假定运动很小。我们在结果部分将我们的方法与这些动态和可变形的NeRF作品进行了比较。

        人类特定的神经渲染:Liu等人的工作。[33]从预先捕获的身体模型开始,并学习对时间相关的动态纹理进行建模,并加强时间连贯性。Martin-Brualla等人。[36]训练UNet来改善体积捕获引入的伪影。Pandey等人的后续工作。[46]通过半参数学习将所需输入帧的数量减少到单个RGBD图像。Wu et al. [70]和Peng et al. [50]探索了嵌入点云(来自MVS [55])或静止网格顶点(来自SMPL [34])的学习结构化潜在代码的使用,并学习了一个附带的基于UNESCO NeRF的神经渲染器。Zhang等人。[26]将场景分解为背景和单个表演者,并用单独的NeRF表示它们,从而实现场景编辑。除了自由视点渲染之外,还有另一个相关的活跃研究领域,专注于2D [2,7,35,43,54,67,68]或3D [19,20,25,32,49,53,69,74]中的人体运动重定向。我们的方法和这些作品之间的主要区别是,我们作为输入单目视频,包含复杂的人体运动,并使高保真全3D渲染。

        此外,我们的骨骼运动公式从Weng等人提出的Vid2Actor中汲取灵感。[69],一种用于刚性动画角色的方法。相反,我们专注于自由视点应用程序和恢复姿势相关的非刚性变形,并在此应用程序中显着优于它们。

        并行工作:Xu等人。[73]共同学习隐式几何以及图像的外观。他们主要关注多视图设置,其中有一些关于单目视频的例子,其中人体运动很简单(A姿势)。Su等人。[60]使用过参数化的NeRF来严格转换NeRF特征,以优化身体姿势,从而最终渲染。非刚体运动没有明确建模,绘制质量不高。Noguchi等人也发现了类似的方法。[45]但仍然显示出有限的视觉质量。

3 将人类表示为神经场

        我们表示一个移动的人,其具有扭曲到观察到的姿势的规范外观体积Fc,以产生输出外观体积Fo:

        其中F_{c}:x →(c,σ)将位置x映射到颜色c和密度σ,并且T:(x_{o},p)→ x_{c}定义由观察到的姿势p =(J,Ω )引导的将点从观察到的空间映射回规范空间的运动场,其中J包括K个标准3D关节位置,并且Ω = {w_{i}}是表示为轴角向量w_{i}的局部关节旋转。

        我们通过将运动场分解为两个部分来处理具有复杂变形的复杂人体运动:

        其中,Tskel表示非线性驱动的变形,基本上是逆(体积)线性混合蒙皮,并且TNR从非线性驱动的变形开始并且产生到它的偏移量Δ x。实际上,Tskel提供由标准蒙皮驱动的粗略变形,并且TNR提供更非刚性的效果,例如,因为衣服变形。 

        对于“野外”图像,我们使用现成的3D身体+相机姿态估计器。由于姿态估计的不准确性,我们还求解了更好地解释观察结果的姿态校正函数P_{pose}(p),并将这种改进应用于光子驱动的变形,即,我们用T_{skel}(x,P_{pose}(p))替换等式2中的T_{skel}(x,p)

        图2给出了我们系统的组件的概述。在以下部分中,我们将详细描述这些组件。

       正则体积:我们将正则体积F_{c}表示为具有MLP的连续场,该MLP在给定点x的情况下输出颜色c和密度σ:

这篇关于HumanNeRF:Free-viewpoint Rendering of Moving People from Monocular Video 翻译的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1146761

相关文章

论文翻译:arxiv-2024 Benchmark Data Contamination of Large Language Models: A Survey

Benchmark Data Contamination of Large Language Models: A Survey https://arxiv.org/abs/2406.04244 大规模语言模型的基准数据污染:一项综述 文章目录 大规模语言模型的基准数据污染:一项综述摘要1 引言 摘要 大规模语言模型(LLMs),如GPT-4、Claude-3和Gemini的快

论文翻译:ICLR-2024 PROVING TEST SET CONTAMINATION IN BLACK BOX LANGUAGE MODELS

PROVING TEST SET CONTAMINATION IN BLACK BOX LANGUAGE MODELS https://openreview.net/forum?id=KS8mIvetg2 验证测试集污染在黑盒语言模型中 文章目录 验证测试集污染在黑盒语言模型中摘要1 引言 摘要 大型语言模型是在大量互联网数据上训练的,这引发了人们的担忧和猜测,即它们可能已

Apple quietly slips WebRTC audio, video into Safari's WebKit spec

转自:http://www.zdnet.com/article/apple-quietly-slips-webrtc-audio-video-into-safaris-webkit-spec/?from=timeline&isappinstalled=0 http://www.zdnet.com/article/apple-quietly-slips-webrtc-audio-video-

excel翻译软件有哪些?如何高效提翻译?

你是否曾在面对满屏的英文Excel表格时感到头疼?项目报告、数据分析、财务报表... 当这些重要的信息被语言壁垒阻挡时,效率和理解度都会大打折扣。别担心,只需3分钟,我将带你轻松解锁excel翻译成中文的秘籍。 无论是职场新人还是老手,这一技巧都将是你的得力助手,让你在信息的海洋中畅游无阻。 方法一:使用同声传译王软件 同声传译王是一款专业的翻译软件,它支持多种语言翻译,可以excel

MonoHuman: Animatable Human Neural Field from Monocular Video 翻译

MonoHuman:来自单目视频的可动画人类神经场 摘要。利用自由视图控制来动画化虚拟化身对于诸如虚拟现实和数字娱乐之类的各种应用来说是至关重要的。已有的研究试图利用神经辐射场(NeRF)的表征能力从单目视频中重建人体。最近的工作提出将变形网络移植到NeRF中,以进一步模拟人类神经场的动力学,从而动画化逼真的人类运动。然而,这种流水线要么依赖于姿态相关的表示,要么由于帧无关的优化而缺乏运动一致性

linux dlopen手册翻译

名称 dlclose, dlopen, dlmopen 打开和关闭一个共享对象 简介 #include <dlfcn.h>void *dlopen(const char*filename, int flags);int dlclose(void *handle);#define _GNU_SOURCE#include <dlfcn.h>void *dlmoopen(Lmid_t lm

从计组中从重温C中浮点数表示及C程序翻译过程

目录 移码​编辑  传统浮点表示格式 浮点数的存储(ieee 754)->修炼内功 例子:   ​编辑 浮点数取的过程   C程序翻译过程 移码  传统浮点表示格式 浮点数的存储(ieee 754)->修炼内功 根据国际标准IEEE(电⽓和电⼦⼯程协会)  32位 例子:    64位    IEEE754对有效数字M和

论文精读-Supervised Raw Video Denoising with a Benchmark Dataset on Dynamic Scenes

论文精读-Supervised Raw Video Denoising with a Benchmark Dataset on Dynamic Scenes 优势 1、构建了一个用于监督原始视频去噪的基准数据集。为了多次捕捉瞬间,我们手动为对象s创建运动。在高ISO模式下捕获每一时刻的噪声帧,并通过对多个噪声帧进行平均得到相应的干净帧。 2、有效的原始视频去噪网络(RViDeNet),通过探

深度评测热门翻译工具,携手你的翻译得力助手

随着互联网技术的飞速发展,全球化交流日益频繁,跨语言沟通的需求也随之激增。对于外语水平有限的朋友来说,翻译器是一个必不可少的工具。今天我就分享几款我用的翻译器吧。 1.福晰在线翻译  链接直达>>https://fanyi.pdf365.cn/doc  该网站以其高度的专业性著称,专为翻译需求而精心打造。它不仅支持用户粘贴部分文字进行即时翻译,更贴心地提供了整份PDF文档的导入翻译功能,极大

idea中配置Translation插件完成翻译功能

文章目录 idea下载插件配置有道云阿里云百度翻译开放平台 idea下载插件 idea中安装Translation插件 使用方法:右下角选择翻译引擎,鼠标选中想翻译的部分,右键翻译即可 之前一直用的微软的翻译,不需要配置,但是最近微软服务器总是抽风,无法使用,故打算配置一下国内的翻译服务。 配置 有道云 只有初始的一点额度,用完就要收费了,不推荐