NeRF从入门到放弃3: EmerNeRF

2024-06-23 02:28
文章标签 入门 放弃 nerf emernerf

本文主要是介绍NeRF从入门到放弃3: EmerNeRF,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

https://github.com/NVlabs/EmerNeRF
该方法是Nvidia提出的,其亮点是不需要额外的2D、3Dbox先验,可以自动解耦动静field。
核心思想:
1. 动、静filed都用hash grid编码,动态filed比静态多了时间t,静态的hash编码输入是(x,y,z),动态是(x,y,z,t)。
2. 使用flow融合多帧的特征,预测当前时刻的点的前向和后向的flow,最后的动态Feature是0.25pre+0.5+0.25next
3. 用3个head分别预测正常物体、天空和阴影。

3.1 SCENE REPRESENTATIONS

1 Scene decomposition

为了实现高效的场景解耦,把4D场景分解为静态场和动态场,两者都分别由可学习的hash grid(instant NGP) Hs和hd表示。(注,下标s和d分别表示static和dynamic,下文所有表示都是此含义)
这种解耦为与时间无关的特征 hs = Hs(x) 和时变特征 hd = Hd(x, t) 提供了一种灵活紧凑的 4D 场景表示,其中 x = (x, y, z) 是查询点的 3D 位置,t 表示其时间步长。这些特征通过轻量级 MLP进一步转换为动态和静态的feature(gs和gd),和用于预测每个点的密度 (σs 和 σd)。
在这里插入图片描述
在这里插入图片描述

所以这一步得到每个3D点的feature和密度。

2 Multi-head prediction

用三个head分别预测 color sky 和shadow,动态和静态共享共一个color mlp。
该color head以 (gs, d) 和 (gd, d) 作为输入,并为每个点都输出一个静态和动态的颜色;由于天空的深度定义不明确,所以单独加一个head预测天空的深度;添加一个影子的head去表述动态物体的阴影,输出动态对象0-1的标量,调整静态场预测的颜色强度。

由此图可看出,MLP_color的输入分别是动态feature和朝向,shadow head的输入是动态feature,sky head的输入只是朝向(为什么要这么做,因为没有深度信息,不知道采样多少个点)。

在这里插入图片描述

3.2 EMERGENT SCENE FLOW

1 场景流估计(Scene flow estimation)

用flow的head对当前时刻的query点,预测前向和后向的流。最后的动态Feature是0.25pre+0.5+0.25next**

该特征聚合模块实现了三个目标:1)它将流场与场景重建损失(例如 RGB 损失)连接起来进行监督,2)它巩固特征、去噪时间属性以进行准确预测,以及 3)每个点通过其时间链接特征的共享梯度来丰富,通过共享知识提高单个点的质量

Hv和Hd应该是一样的。
在这里插入图片描述

flow部分代码:MLP的最后一层的输出是6维,前3维表示forward flow,后3维表示backwark flow。注意,最后一层mlp是没有激活函数的,以为要预测前后项的flow值,理论上有正负的,所以不能加激活函数。

# ======== Flow Field ======== #
self.flow_xyz_encoder = None
if self.cfg.enable_flow_branch:self.flow_xyz_encoder = HashEncoder(self.cfg.flow_xyz_encoder)self.flow_mlp = nn.Sequential(nn.Linear(self.flow_xyz_encoder.n_output_dims,self.cfg.base_mlp_layer_width,),nn.ReLU(),nn.Linear(self.cfg.base_mlp_layer_width, self.cfg.base_mlp_layer_width),nn.ReLU(),nn.Linear(self.cfg.base_mlp_layer_width, 6),  # 3 for forward, 3 for backward# no activation function for flow)

2 特征聚合模块(Multi-frame feature integration)

预测出forward 和backwark flow后,加到原本的位置,即得到上一阵和下一帧的位置,把上一阵和下一帧的位置都送到动态的mlp网络中。
在这里插入图片描述
上图公式中,gd是动态的mlp,Hd是hash编码,也就是说当前帧点的坐标加上前后相的光流偏移量(Δx,Δy,Δz)后,和上一帧的时间t,再次进行hash编码,然后都送到动态的mlp网络中得到上一帧和下一帧的动态feature,再和当前帧的feature加权平均。

把flow和场景重建的loss损失结合起来进行监督;增强了动态部分的特征,去噪时间属性以进行准确的预测;每个点通过其时间链接特征的共享梯度来丰富,通过共享知识提高单个点的质量。

没有用显式的监督,这种能力来自于时间聚合步骤,同时优化场景重建损失。我们的假设是,只有时间一致的特征受益于多帧特征集成,这种集成间接地将场景流场驱动到最优解——预测所有点的正确流。

3 消融实验

消融研究证实了这一点:当禁用时间聚合或停止这些附近特征的梯度时,flow无法学习有意义的结果,加入flow, psnr+1

实验细节

只用了3个相机,图片resize成640x960。25K迭代,8196。静态场景把flow和dynamic分支去掉。静态场景不加feature,加feature40分钟,动态场景不加feature2小时,加feature2.25小时。

这篇关于NeRF从入门到放弃3: EmerNeRF的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1086044

相关文章

Spring Security 从入门到进阶系列教程

Spring Security 入门系列 《保护 Web 应用的安全》 《Spring-Security-入门(一):登录与退出》 《Spring-Security-入门(二):基于数据库验证》 《Spring-Security-入门(三):密码加密》 《Spring-Security-入门(四):自定义-Filter》 《Spring-Security-入门(五):在 Sprin

数论入门整理(updating)

一、gcd lcm 基础中的基础,一般用来处理计算第一步什么的,分数化简之类。 LL gcd(LL a, LL b) { return b ? gcd(b, a % b) : a; } <pre name="code" class="cpp">LL lcm(LL a, LL b){LL c = gcd(a, b);return a / c * b;} 例题:

Java 创建图形用户界面(GUI)入门指南(Swing库 JFrame 类)概述

概述 基本概念 Java Swing 的架构 Java Swing 是一个为 Java 设计的 GUI 工具包,是 JAVA 基础类的一部分,基于 Java AWT 构建,提供了一系列轻量级、可定制的图形用户界面(GUI)组件。 与 AWT 相比,Swing 提供了许多比 AWT 更好的屏幕显示元素,更加灵活和可定制,具有更好的跨平台性能。 组件和容器 Java Swing 提供了许多

【IPV6从入门到起飞】5-1 IPV6+Home Assistant(搭建基本环境)

【IPV6从入门到起飞】5-1 IPV6+Home Assistant #搭建基本环境 1 背景2 docker下载 hass3 创建容器4 浏览器访问 hass5 手机APP远程访问hass6 更多玩法 1 背景 既然电脑可以IPV6入站,手机流量可以访问IPV6网络的服务,为什么不在电脑搭建Home Assistant(hass),来控制你的设备呢?@智能家居 @万物互联

poj 2104 and hdu 2665 划分树模板入门题

题意: 给一个数组n(1e5)个数,给一个范围(fr, to, k),求这个范围中第k大的数。 解析: 划分树入门。 bing神的模板。 坑爹的地方是把-l 看成了-1........ 一直re。 代码: poj 2104: #include <iostream>#include <cstdio>#include <cstdlib>#include <al

MySQL-CRUD入门1

文章目录 认识配置文件client节点mysql节点mysqld节点 数据的添加(Create)添加一行数据添加多行数据两种添加数据的效率对比 数据的查询(Retrieve)全列查询指定列查询查询中带有表达式关于字面量关于as重命名 临时表引入distinct去重order by 排序关于NULL 认识配置文件 在我们的MySQL服务安装好了之后, 会有一个配置文件, 也就

音视频入门基础:WAV专题(10)——FFmpeg源码中计算WAV音频文件每个packet的pts、dts的实现

一、引言 从文章《音视频入门基础:WAV专题(6)——通过FFprobe显示WAV音频文件每个数据包的信息》中我们可以知道,通过FFprobe命令可以打印WAV音频文件每个packet(也称为数据包或多媒体包)的信息,这些信息包含该packet的pts、dts: 打印出来的“pts”实际是AVPacket结构体中的成员变量pts,是以AVStream->time_base为单位的显

C语言指针入门 《C语言非常道》

C语言指针入门 《C语言非常道》 作为一个程序员,我接触 C 语言有十年了。有的朋友让我推荐 C 语言的参考书,我不敢乱推荐,尤其是国内作者写的书,往往七拼八凑,漏洞百出。 但是,李忠老师的《C语言非常道》值得一读。对了,李老师有个官网,网址是: 李忠老师官网 最棒的是,有配套的教学视频,可以试看。 试看点这里 接下来言归正传,讲解指针。以下内容很多都参考了李忠老师的《C语言非

MySQL入门到精通

一、创建数据库 CREATE DATABASE 数据库名称; 如果数据库存在,则会提示报错。 二、选择数据库 USE 数据库名称; 三、创建数据表 CREATE TABLE 数据表名称; 四、MySQL数据类型 MySQL支持多种类型,大致可以分为三类:数值、日期/时间和字符串类型 4.1 数值类型 数值类型 类型大小用途INT4Bytes整数值FLOAT4By

【QT】基础入门学习

文章目录 浅析Qt应用程序的主函数使用qDebug()函数常用快捷键Qt 编码风格信号槽连接模型实现方案 信号和槽的工作机制Qt对象树机制 浅析Qt应用程序的主函数 #include "mywindow.h"#include <QApplication>// 程序的入口int main(int argc, char *argv[]){// argc是命令行参数个数,argv是