Radiance Field Learners As UAVFirst-Person Viewers 翻译

2024-08-22 02:52

本文主要是介绍Radiance Field Learners As UAVFirst-Person Viewers 翻译,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

作为无人机第一人称视角的辐射场学习者

引言。第一人称视角(FPV)在无人机飞行轨迹的革新方面具有巨大的潜力,为复杂建筑结构的导航提供了一条令人振奋的途径。然而,传统的神经辐射场(NeRF)方法面临着诸如每次迭代采样单个点以及需要大量视图进行监控等挑战。UAV视频由于视点有限和空间尺度变化大而加剧了这些问题,导致不同尺度下的细节渲染不足。作为回应,我们引入了FPV-NeRF,通过三个关键方面来解决这些挑战:(1)时间一致性。利用时空连续性确保帧之间的无缝一致性;(2)全局结构。在点采样过程中结合各种全局特征保持了空间完整性;(3)局部粒度。采用综合框架和多分辨率监控进行多尺度场景特征表示,解决了无人机视频空间尺度的复杂性。此外,由于公开可用的FPV视频的稀缺性,我们引入了一种创新的视图合成方法,该方法使用NeRF从无人机镜头生成FPV视角,增强了无人机的空间感知。在无人机领域,我们的新数据集涵盖了从室外到室内的各种轨迹,与传统的NeRF场景有着显著的不同。通过包括内部和外部建筑结构的广泛实验,FPV-NeRF展示了对无人机飞行空间的上级理解,在我们精心策划的无人机数据集中优于最先进的方法。请浏览我们的项目页面以获取更多信息:https://fpv-nerf.github.io/。

关键词:计算机视觉;空间感知;神经辐射场;第一人称视角;无人机

1 引言

        在计算机视觉方面,机器人导航的进步,包括Visual-SLAM和MVS,以及计算机图形学的创新,如Novel视图合成已成为环境监测和灾难响应等应用程序的组成部分。这些需求建立了神经辐射场(NeRF)作为一种新兴的范例,使用多层感知器网络进行场景表示,并擅长从新颖的相机姿势渲染高质量的图像。

        尽管NeRF取得了成功,但由于其在训练中依赖于来自像素的单个射线,因此在UAV捕获的多尺度视频中遇到了挑战,从而限制了其有效性。首先,该模型缺乏时间一致性,导致新视图生成过程中序列不平滑。其次,NeRF努力构建一个全面的全球结构,特别是在低纹理区域,如纯色表面或草地。第三,当原始视频视角不足时,特别是在建筑物等结构周围,难以渲染局部细节。因此,当应用于从复杂的无人机轨迹生成新颖的第一人称视角时,例如从外部到内部的缩放(图1),NeRF的质量会下降,突出了其在处理不同场景和视角方面的局限性。

        在前面讨论的基础上,我们介绍FPV-NeRF,这是一个为无人机量身定制的第一人称视图合成框架,利用了神经辐射场的力量。配备第一人称视角(FPV)的无人机提供身临其境的视频,提供独特的视角,将观众直接置于行动之中。广泛的研究表明,人类从FPV视频中掌握了全面的空间理解,在第一和第三视角之间进行心理转换,并对环境进行整体把握。如果无人机可以将第三人称视角转换为第一人称视角,那么它就展示了类似于人类的空间认知能力。我们的FPV-NeRF作为无人机的强大和可解释的骨干,在多尺度空间结构识别方面表现出色,同时承认并超越了现有NeRF的局限性。

        具体来说,FPV-NeRF将整个空域划分为区域,递归地将它们分解为子区域。这种多尺度空间构造器根据无人机的飞行轨迹动态调整三维模型组成,同时考虑全局和局部视角。与以前的NeRF不同,FPV-NeRF仅依靠MLP层进行颜色预测,优化了估计的UAV飞行空间中所有点的全局局部特征。我们提出的方法包括:I)多尺度摄像机空间估计,集中于使用相邻时间帧来对环境空间建模的轨迹重构。轨迹空间经过划分,根据UAV在相邻帧中的位置和姿态应用不同的坐标畸变函数。II)利用全局-局部场景编码器的第一人称视角视频生成:i)指示每个块的一般特征的可学习的体积嵌入; ii)基于位置提供连续特征的点位置嵌入,利用各种频率分量增强多尺度编码; iii)提供用于分辨率渲染和等级之间的交叉注意的全局特征的等级嵌入。III)对于训练,我们提出了具有三项的综合损失函数,结合了用于视差对准的最优传输和用于相邻区域之间的平滑一致性的有界变化。

        从本质上讲,FPV-NeRF体现了几个吸引人的特性:首先,它实现了改进的时间一致性。视频序列中相邻帧之间的鲁棒相关定时机制和空间相干性使FPVNeRF能够构造更连续和平滑的整体结构。第二,它增强了全球结构的完整性。通过对不同分辨率之间的交叉注意力的精心设计和体积特征的获取,每个点的特征的训练都考虑了周围点的上下文,降低了忽略低上下文元素的风险。第三,它在提供本地粒度方面表现出色。将空间细分为具有不同翘曲函数的区域,结合采样点的坐标位置到包括高频分量的高维特征的变换,确保了局部细节的高保真度恢复。FPV-NeRF是一个直观而通用的分类框架;它兼容不同的基于NeRF的第一人称视图生成方法。在§4.3中,FPV-NeRF优于参数化的对等体,即:1.61-7.77的峰值信噪比和0.021-0.145的SSIM。在基于体素的架构下,FPV-NeRF在以前常用的NeRF数据集上的性能也优于SOTA方法,即,NeRF-360-V2数据集的峰值信噪比为0.03-3.07,LLFF数据集的峰值信噪比为0.01-1.65。在§4.4中,我们的多尺度摄像机空间估计方法将UAV数据集性能提高了1.52-5.23 PSNR。此外,我们的全局-局部编码器显著提高了性能(1.124.36 PSNR),并且我们的综合损失的结合进一步提高了性能(1.49-4.85 PSNR)。

这篇关于Radiance Field Learners As UAVFirst-Person Viewers 翻译的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1095037

相关文章

论文翻译:arxiv-2024 Benchmark Data Contamination of Large Language Models: A Survey

Benchmark Data Contamination of Large Language Models: A Survey https://arxiv.org/abs/2406.04244 大规模语言模型的基准数据污染:一项综述 文章目录 大规模语言模型的基准数据污染:一项综述摘要1 引言 摘要 大规模语言模型(LLMs),如GPT-4、Claude-3和Gemini的快

论文翻译:ICLR-2024 PROVING TEST SET CONTAMINATION IN BLACK BOX LANGUAGE MODELS

PROVING TEST SET CONTAMINATION IN BLACK BOX LANGUAGE MODELS https://openreview.net/forum?id=KS8mIvetg2 验证测试集污染在黑盒语言模型中 文章目录 验证测试集污染在黑盒语言模型中摘要1 引言 摘要 大型语言模型是在大量互联网数据上训练的,这引发了人们的担忧和猜测,即它们可能已

excel翻译软件有哪些?如何高效提翻译?

你是否曾在面对满屏的英文Excel表格时感到头疼?项目报告、数据分析、财务报表... 当这些重要的信息被语言壁垒阻挡时,效率和理解度都会大打折扣。别担心,只需3分钟,我将带你轻松解锁excel翻译成中文的秘籍。 无论是职场新人还是老手,这一技巧都将是你的得力助手,让你在信息的海洋中畅游无阻。 方法一:使用同声传译王软件 同声传译王是一款专业的翻译软件,它支持多种语言翻译,可以excel

速通GPT-3:Language Models are Few-Shot Learners全文解读

文章目录 论文实验总览1. 任务设置与测试策略2. 任务类别3. 关键实验结果4. 数据污染与实验局限性5. 总结与贡献 Abstract1. 概括2. 具体分析3. 摘要全文翻译4. 为什么不需要梯度更新或微调⭐ Introduction1. 概括2. 具体分析3. 进一步分析 Approach1. 概括2. 具体分析3. 进一步分析 Results1. 概括2. 具体分析2.1 语言模型

MonoHuman: Animatable Human Neural Field from Monocular Video 翻译

MonoHuman:来自单目视频的可动画人类神经场 摘要。利用自由视图控制来动画化虚拟化身对于诸如虚拟现实和数字娱乐之类的各种应用来说是至关重要的。已有的研究试图利用神经辐射场(NeRF)的表征能力从单目视频中重建人体。最近的工作提出将变形网络移植到NeRF中,以进一步模拟人类神经场的动力学,从而动画化逼真的人类运动。然而,这种流水线要么依赖于姿态相关的表示,要么由于帧无关的优化而缺乏运动一致性

linux dlopen手册翻译

名称 dlclose, dlopen, dlmopen 打开和关闭一个共享对象 简介 #include <dlfcn.h>void *dlopen(const char*filename, int flags);int dlclose(void *handle);#define _GNU_SOURCE#include <dlfcn.h>void *dlmoopen(Lmid_t lm

从计组中从重温C中浮点数表示及C程序翻译过程

目录 移码​编辑  传统浮点表示格式 浮点数的存储(ieee 754)->修炼内功 例子:   ​编辑 浮点数取的过程   C程序翻译过程 移码  传统浮点表示格式 浮点数的存储(ieee 754)->修炼内功 根据国际标准IEEE(电⽓和电⼦⼯程协会)  32位 例子:    64位    IEEE754对有效数字M和

HumanNeRF:Free-viewpoint Rendering of Moving People from Monocular Video 翻译

HumanNeRF:单目视频中运动人物的自由视点绘制 引言。我们介绍了一种自由视点渲染方法- HumanNeRF -它适用于一个给定的单眼视频ofa人类执行复杂的身体运动,例如,从YouTube的视频。我们的方法可以在任何帧暂停视频,并从任意新的摄像机视点或甚至针对该特定帧和身体姿势的完整360度摄像机路径渲染主体。这项任务特别具有挑战性,因为它需要合成身体的照片级真实感细节,如从输入视频中可能

深度评测热门翻译工具,携手你的翻译得力助手

随着互联网技术的飞速发展,全球化交流日益频繁,跨语言沟通的需求也随之激增。对于外语水平有限的朋友来说,翻译器是一个必不可少的工具。今天我就分享几款我用的翻译器吧。 1.福晰在线翻译  链接直达>>https://fanyi.pdf365.cn/doc  该网站以其高度的专业性著称,专为翻译需求而精心打造。它不仅支持用户粘贴部分文字进行即时翻译,更贴心地提供了整份PDF文档的导入翻译功能,极大

idea中配置Translation插件完成翻译功能

文章目录 idea下载插件配置有道云阿里云百度翻译开放平台 idea下载插件 idea中安装Translation插件 使用方法:右下角选择翻译引擎,鼠标选中想翻译的部分,右键翻译即可 之前一直用的微软的翻译,不需要配置,但是最近微软服务器总是抽风,无法使用,故打算配置一下国内的翻译服务。 配置 有道云 只有初始的一点额度,用完就要收费了,不推荐