[ICCV-23] DeformToon3D: Deformable Neural Radiance Fields for 3D Toonification

本文主要是介绍[ICCV-23] DeformToon3D: Deformable Neural Radiance Fields for 3D Toonification,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

pdf | code

  • 将3D人脸风格化问题拆分为几何风格化与纹理风格化。
  • 提出StyleField,学习以风格/ID为控制信号的几何形变残差,实现几何风格化。通过对超分网络引入AdaIN,实现纹理风格化。
  • 由于没有修改3D GAN空间,因此可以便捷实现Editing和Animation。

目录

摘要

方法

Geometry Toonification with StyleField

Texture Transfer with Adaptive Style Mixing

Training

实验

实验设置

Comparisons with Baselines

Applications

Inversion and Editing

Animatable Toonification

Toonification Style Control


摘要

  • 3D人脸风格化;
  • 3D GAN直接在艺术域(artistic domain)上fine-tuning,效果不错。但存在两个问题:1)会破坏3D GAN原有的隐空间,影响后续的语义编辑;2) 每种新风格需要额外训练,限制了部署。
  • 为了解决上述两个问题,本文提出DeformToon3D。本文方法将3D卡通化(toonification)问题,分解为几何与纹理风格化。
  • 本文提出StyleField,预测条件控制的3D形变(conditional 3D deformation),实现几何风格化;通过3D GAN的decoder实现纹理风格化。

方法

  • DeformToon3D是一个堆叠模型 G = G1 o G0,其中G1是3D生成器,G2是2D超分解码器。G0输入instance code w和相机位姿\xi,和体渲染输出为中间特征图F。G1将F超分得到高分辨率图片I
  • 在考虑3D人脸卡通化时,现有方法将G视作一个整体进行fine-tune。DeformToon3D用StyleField作为几何风格化,fine-tune体渲染器实现纹理风格化。

Geometry Toonification with StyleField

直接用跨域数据fine-tune G0,计算开销大且会破坏GAN的隐空间。

假设风格化NeRF是\mathcal{N}_S,真实域NeRF是\mathcal{N}_R。本文冻结G0参数,并提出StyleField模块学习\mathcal{N}_S\mathcal{N}_R的映射关系。

具体来说,假设\mathcal{N}_S中的任意3维点x_S,StyleField学习x_S\mathcal{N}_Rx_R的映射关系:

其中,H_D是StyleField,受style code w_S和instance code w_R控制,前者决定风格,后者决定3D face的ID。

H_D由4层SIREN组成,支持多种风格变换。相较于直接fine-tune G0,优化参数量减少了50%,同时还保留了3D GAN原有隐空间。在10种风格情况下,相较每种风格fine-tune一个G0,节省了98.5%的存储空间。

Texture Transfer with Adaptive Style Mixing

G0和StyleField实现了风格的几何变换。在此基础上,本文在超分网络G1实现风格的纹理变换。

G1是2D style-based architecture。本文通过AdaIN来逐步调整图片风格。

受style mixing启发,通过混合G1网络参数和目标风格w_S,实现纹理信息的注入。

本文同时添加了一个轻量级MLP T,输入为w_Sw_R和w,调整风格强度。

Training

本文通过DualStyleGAN产生2D风格图像;

训练中,使用LPIPS loss作为重建损失;使用smoothness,确保H_D是物理平滑的;同时,使用了GAN的对抗训练损失。

实验

实验设置

  • Datasets:测试了10种风格:Pixar, Comic, Slam Dunk, The Croods, Fiona (Shrek), Rapunzel (Disney Princess), Hiccup Horrendous Haddock III (How To Train Your Dragon), and three different carica-ture styles;在CelebA-HQ上测试;
  • Model:使用在FFHQ上预训练的StyleSDF作为3D GAN;
  • Training:在8张V100上训练了24小时,bs=16;
  • Baselines:和CIPS-3D、E3DGE、StyleGAN-NADA进行比较

Comparisons with Baselines

 

Applications

Inversion and Editing

使用E3DGE实现3D GAN inversion

Animatable Toonification

学习3DMM参数和3D GAN隐空间的双向映射关系。通过驱动视频拿到3DMM参数的变化,并映射回3D GAN中

Toonification Style Control

这篇关于[ICCV-23] DeformToon3D: Deformable Neural Radiance Fields for 3D Toonification的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/180387

相关文章

无人叉车3d激光slam多房间建图定位异常处理方案-墙体画线地图切分方案

墙体画线地图切分方案 针对问题:墙体两侧特征混淆误匹配,导致建图和定位偏差,表现为过门跳变、外月台走歪等 ·解决思路:预期的根治方案IGICP需要较长时间完成上线,先使用切分地图的工程化方案,即墙体两侧切分为不同地图,在某一侧只使用该侧地图进行定位 方案思路 切分原理:切分地图基于关键帧位置,而非点云。 理论基础:光照是直线的,一帧点云必定只能照射到墙的一侧,无法同时照到两侧实践考虑:关

安卓链接正常显示,ios#符被转义%23导致链接访问404

原因分析: url中含有特殊字符 中文未编码 都有可能导致URL转换失败,所以需要对url编码处理  如下: guard let allowUrl = webUrl.addingPercentEncoding(withAllowedCharacters: .urlQueryAllowed) else {return} 后面发现当url中有#号时,会被误伤转义为%23,导致链接无法访问

MiniGPT-3D, 首个高效的3D点云大语言模型,仅需一张RTX3090显卡,训练一天时间,已开源

项目主页:https://tangyuan96.github.io/minigpt_3d_project_page/ 代码:https://github.com/TangYuan96/MiniGPT-3D 论文:https://arxiv.org/pdf/2405.01413 MiniGPT-3D在多个任务上取得了SoTA,被ACM MM2024接收,只拥有47.8M的可训练参数,在一张RTX

SAM2POINT:以zero-shot且快速的方式将任何 3D 视频分割为视频

摘要 我们介绍 SAM2POINT,这是一种采用 Segment Anything Model 2 (SAM 2) 进行零样本和快速 3D 分割的初步探索。 SAM2POINT 将任何 3D 数据解释为一系列多向视频,并利用 SAM 2 进行 3D 空间分割,无需进一步训练或 2D-3D 投影。 我们的框架支持各种提示类型,包括 3D 点、框和掩模,并且可以泛化到不同的场景,例如 3D 对象、室

MonoHuman: Animatable Human Neural Field from Monocular Video 翻译

MonoHuman:来自单目视频的可动画人类神经场 摘要。利用自由视图控制来动画化虚拟化身对于诸如虚拟现实和数字娱乐之类的各种应用来说是至关重要的。已有的研究试图利用神经辐射场(NeRF)的表征能力从单目视频中重建人体。最近的工作提出将变形网络移植到NeRF中,以进一步模拟人类神经场的动力学,从而动画化逼真的人类运动。然而,这种流水线要么依赖于姿态相关的表示,要么由于帧无关的优化而缺乏运动一致性

模具要不要建设3D打印中心

随着3D打印技术的日益成熟与广泛应用,模具企业迎来了自建3D打印中心的热潮。这一举措不仅为企业带来了前所未有的发展机遇,同时也伴随着一系列需要克服的挑战,如何看待企业引进增材制造,小编为您全面分析。 机遇篇: 加速产品创新:3D打印技术如同一把钥匙,为模具企业解锁了快速迭代产品设计的可能。企业能够迅速将创意转化为实体模型,缩短产品从设计到市场的周期,抢占市场先机。 强化定制化服务:面

华为23年笔试题

消息传输 题目描述 在给定的 m x n (1 <= m, n <= 1000) 网格地图 grid 中,分布着一些信号塔,用于区域间通信。 每个单元格可以有以下三种状态:  值 0 代表空地,无法传递信号;  值 1 代表信号塔 A,在收到消息后,信号塔 A 可以在 1ms 后将信号发送给上下左右四个方向的信号塔; 值 2 代表信号塔 B,在收到消息后,信号塔 B 可以在 2ms

WPF入门到跪下 第十三章 3D绘图 - 3D绘图基础

3D绘图基础 四大要点 WPF中的3D绘图涉及4个要点: 视口,用来驻留3D内容3D对象照亮部分或整个3D场景的光源摄像机,提供在3D场景中进行观察的视点 一、视口 要展示3D内容,首先需要一个容器来装载3D内容。在WPF中,这个容器就是Viewport3D(3D视口),它继承自FrameworkElement,因此可以像其他元素那样在XAML中使用。 Viewport3D与其他元素相

【vulhub】thinkphp5 2-rce 5.0.23-rce 5-rce 漏洞复现

2-rec 1.启动环境  cd /.../vulhub/thinkphp/2-rce # cd进入2-rce靶场文件环境下docker-compose up -d # docker-compose启动靶场docker ps -a # 查看开启的靶场信息 2.访问192.168.146.136:8080网页 3.构造payload http

A Comprehensive Survey on Graph Neural Networks笔记

一、摘要-Abstract 1、传统的深度学习模型主要处理欧几里得数据(如图像、文本),而图神经网络的出现和发展是为了有效处理和学习非欧几里得域(即图结构数据)的信息。 2、将GNN划分为四类:recurrent GNNs(RecGNN), convolutional GNNs,(GCN), graph autoencoders(GAE), and spatial–temporal GNNs(S