41、Hallucinated Neural Radiance Fields in the Wild

2024-02-19 17:20

本文主要是介绍41、Hallucinated Neural Radiance Fields in the Wild,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

简介

主页:https://rover-xingyu.github.io/Ha-NeRF/
在这里插入图片描述
从(a)一组具有可变外观和复杂遮挡的旅游图像中恢复(b)幻觉神经辐射场(Ha-NeRF)。可以始终如一地呈现©自由遮挡视图,产生不同的外观。

论文提出了一个appearance hallucination(外观幻觉)模块,一个基于cnn的外观编码器和一个视图一致的外观损失,以转移一致的光度外观在不同的观点,并将它们转移到新的视图,并针对旅游图像遮挡复杂的问题,利用MLP学习具有抗遮挡损失的图像相关2D可见遮罩,可以在训练过程中自动分离高精度的静态组件

NeRF-W通过训练样本的优化嵌入实现了一个可控的外观(appearance embedding | latent code),这使得它在给定新图像时需要优化嵌入,并且不能产生来自其他数据集的外观幻觉

NeRF-W试图以transient volume作为输入,为每个输入图像优化瞬态体,由于瞬态遮挡的随机性,这是高度不适定的,导致了对场景的不准确的分解,进一步导致了表象和遮挡的纠缠,例如导致了瞬态量来记住晚霞。

创新点

  1. 提出了用Ha-NeRF方法从一组具有可变外观和遮挡物的图像中恢复外观幻觉辐射场
  2. 设计了外观幻觉模块,将视觉一致的外观转换为新的外观
  3. 建立了独立于图像的抗遮挡模块来感知光线可见性

实现流程

原始NeRF公式
在这里插入图片描述
在这里插入图片描述

在这里插入图片描述

在这里插入图片描述
给定图像 L i L_i Li,使用CNN将其编码为一个外观潜在向量 L i a L^a _i Lia 。通过采样位置 x 和观察相机射线的方向 d 合成图像,将它们与 L i a L^a _i Lia 输入 MLPs,产生颜色 c 和体积密度 σ,并呈现重建图像 L ^ i \hat{L}_i L^i。给定一个依赖于图像的瞬态嵌入 L i r L^r_i Lir ,使用MLP将像素位置 p 映射到可见的可能性 M i M_i Mi,这样就可以在遮挡损失的情况下解纠缠图像的静态和瞬态现象。

View-consistent Hallucination

如何从不同外观输入的新镜头中实现三维场景的幻觉,核心问题是如何将场景几何与外观分离,如何将新外观转换到重建的场景中

NeRF-W使用一个优化的外观嵌入来解释输入中依赖于图像的外观,这种嵌入需要在训练过程中进行优化,这使得它需要优化嵌入,使其在训练样本之外产生新镜头的场景,而不能产生来自其他数据集的外观
在这里插入图片描述
论文使用基于卷积神经网络的编码器 E ϕ E_\phi Eϕ 来学习解错的外观表示,其中的参数 ϕ \phi ϕ 考虑输入中不断变化的照明和光度学后处理, E ϕ E_\phi Eϕ 将每个图像 L i L_i Li 编码为一个外观潜在向量 L i a L^a_i Lia,将公式1中的辐亮度 c 推广到一个依赖于外观的辐亮度 c L i a c^{L^a_i} cLia,引入了对发射颜色的外观潜向量 L i a L^a_i Lia 的依赖

在这里插入图片描述
用未配对的图像将外观与观看方向解缠的问题本质上是不适当的,需要额外的约束,论文利用潜在回归损失来鼓励图像空间和潜在空间之间的可逆映射,使用视图一致的损失 L v L_v Lv,通过从外观编码器 E ϕ E_\phi Eϕ 中取一个外观向量 L i ( a ) L^{(a)}_i Li(a),并试图在不同的视图中重构它来实现外观和视图的解纠缠
在这里插入图片描述
L i r L^r_i Lir为渲染图像,其视图是随机生成的,外观以图像 L i L_i Li 为条件,假设重构的外观向量 E ϕ E_\phi Eϕ 应该与原始外观向量 L i a L^a_i Lia 相同,因为外观向量是跨不同视图的全局表示

利用视点一致性损失(viewconsistent loss)方法防止将图像几何内容编码到外观向量中,该方法将不同视图(也就是内容)的渲染图像编码到同一个向量中,并将体积条件设置在同一个向量上

为提高效率,在训练过程中对光线网格进行采样,并将它们组合为图像 L i r L^r_i Lir,而不是渲染整个图像,这基于一个加色:使用随机网格采样后,图像的全局外观向量将保持不变

Occlusion Handling

论文使用与图像相关的2D可见性图来消除瞬变现象,这种简化能够更准确地分割静态场景和瞬态目标,为了对映射进行建模,使用一个隐式连续函数 F ψ F_\psi Fψ,该函数将一个2D像素位置 p = (u, v) 和一个依赖于图像的瞬态嵌入 L i r L^r_i Lir 映射到一个可见的可能性 M
在这里插入图片描述
以一种无监督的方式,表示来自静态场景的光线的可见性,用遮挡损失 L o Lo Lo 来解纠缠图像的静态和瞬态现象
在这里插入图片描述
第一项是考虑到被渲染的像素和地面真实颜色之间的像素可见性的重建误差,假设一个像素属于静态现象,可见可能性M值越大,其重要性越高

第一项由第二项平衡,它对应于一个正则化器,在不可见的概率上有一个 λ 乘法器,这阻止了模型对静态现象视而不见

Optimization

为了实现Ha-NeRF,结合上述约束条件,联合训练参数
( θ , ϕ , ψ ) (\theta,\phi,\psi) (θ,ϕ,ψ) 和逐像瞬态嵌入 { L i r } i = 1 N \{L^{r}_{i}\}^N_{i=1} {Lir}i=1N,以优化全目标:
在这里插入图片描述

效果

在这里插入图片描述
在这里插入图片描述

这篇关于41、Hallucinated Neural Radiance Fields in the Wild的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/725372

相关文章

MonoHuman: Animatable Human Neural Field from Monocular Video 翻译

MonoHuman:来自单目视频的可动画人类神经场 摘要。利用自由视图控制来动画化虚拟化身对于诸如虚拟现实和数字娱乐之类的各种应用来说是至关重要的。已有的研究试图利用神经辐射场(NeRF)的表征能力从单目视频中重建人体。最近的工作提出将变形网络移植到NeRF中,以进一步模拟人类神经场的动力学,从而动画化逼真的人类运动。然而,这种流水线要么依赖于姿态相关的表示,要么由于帧无关的优化而缺乏运动一致性

数据库系统 第41节 数据库分区简介

数据库分区是一种数据库设计技术,用于将大型表或索引的数据分布到不同的物理区域,以提高查询性能、优化数据管理、简化维护任务,并提高数据的可用性。下面我将详细介绍每种分区类型,并结合伪代码或概念性的源代码来说明其实现方式。 1. 范围分区 (Range Partitioning) 范围分区是根据某个列的值范围来划分数据。例如,可以按照日期或数值范围来分区。 示例场景:一个订单表,按年份分区。

A Comprehensive Survey on Graph Neural Networks笔记

一、摘要-Abstract 1、传统的深度学习模型主要处理欧几里得数据(如图像、文本),而图神经网络的出现和发展是为了有效处理和学习非欧几里得域(即图结构数据)的信息。 2、将GNN划分为四类:recurrent GNNs(RecGNN), convolutional GNNs,(GCN), graph autoencoders(GAE), and spatial–temporal GNNs(S

OpenSNN推文:神经网络(Neural Network)相关论文最新推荐(九月份)(一)

基于卷积神经网络的活动识别分析系统及应用 论文链接:oalib简介:  活动识别技术在智能家居、运动评估和社交等领域得到广泛应用。本文设计了一种基于卷积神经网络的活动识别分析与应用系统,通过分析基于Android搭建的前端采所集的三向加速度传感器数据,对用户的当前活动进行识别。实验表明活动识别准确率满足了应用需求。本文基于识别的活动进行卡路里消耗计算,根据用户具体的活动、时间以及体重计算出相应活

Convolutional Neural Networks for Sentence Classification论文解读

基本信息 作者Yoon Kimdoi发表时间2014期刊EMNLP网址https://doi.org/10.48550/arXiv.1408.5882 研究背景 1. What’s known 既往研究已证实 CV领域著名的CNN。 2. What’s new 创新点 将CNN应用于NLP,打破了传统NLP任务主要依赖循环神经网络(RNN)及其变体的局面。 用预训练的词向量(如word2v

Show,Attend and Tell: Neural Image Caption Generation with Visual Attention

简单的翻译阅读了一下 Abstract 受机器翻译和对象检测领域最新工作的启发,我们引入了一种基于注意力的模型,该模型可以自动学习描述图像的内容。我们描述了如何使用标准的反向传播技术,以确定性的方式训练模型,并通过最大化变分下界随机地训练模型。我们还通过可视化展示了模型如何能够自动学习将注视固定在显着对象上,同时在输出序列中生成相应的单词。我们通过三个基准数据集(Flickr9k,Flickr

面试题41:和为s的两个数VS和为s的连续正数数列

问题说明: 1.和为s的两个数问题是从一个排序的数组中找出和为s的两个数; 2.原题是找出一个即可,现在全部找出; 3.和为s的连续正数数列是给定一个数找出所有连续正数数列的和为s,例如s为9,(2,3,4)就是其中一组。 (一)和为s的两个数问题 public static int findNumbersWithSum(int[] sorted, int fromIndex, in

LeetCode - 41. First Missing Positive

41. First Missing Positive  Problem's Link  ---------------------------------------------------------------------------- Mean:  给你一组整数,找出第一个空缺的正整数. 要求:时间O(n),空间O(n). analyse: 这题时间O(n)想了

Image Transformation can make Neural Networks more robust against Adversarial Examples

Image Transformation can make Neural Networks more robust against Adversarial Examples 创新点 1.旋转解决误分类 总结 可以说简单粗暴有效

吴恩达深度学习笔记:卷积神经网络(Foundations of Convolutional Neural Networks)1.9-1.10

目录 第四门课 卷积神经网络(Convolutional Neural Networks)第一周 卷积神经网络(Foundations of Convolutional Neural Networks)1.9 池化层(Pooling layers)1.10 卷 积 神 经 网 络 示 例 ( Convolutional neural network example) 第四门课