[23] IPDreamer: Appearance-Controllable 3D Object Generation with Image Prompts

本文主要是介绍[23] IPDreamer: Appearance-Controllable 3D Object Generation with Image Prompts,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

pdf

  • Text-to-3D任务中,对3D模型外观的控制不强,本文提出IPDreamer来解决该问题。
  • 在NeRF Training阶段,IPDreamer根据文本用ControlNet生成参考图,并将参考图作为Zero 1-to-3的控制条件,用基于Zero 1-to-3的SDS损失生成粗NeRF。
  • 在Mesh Training阶段,IPDreamer将NeRF用DMTet转换为3D Mesh,并分别优化Mesh的几何与纹理。1)用参考图的法向图编码作为控制信号,用IPSD (Image Prompt Score Distillation) 优化3D Mesh的几何;2)用渲染rgb图像编码(和法向图差异)作为控制信号,用IPSD优化3D Mesh的纹理。
  • 将Text-to-3D任务,转换为单图重建任务,实现了更好的外观控制。

目录

Method

NeRF Training

Mesh Training

Experiments

Some Results

​编辑Comparison with SOTA Text-to-3D Methods


Method

NeRF Training

  • Image Generation. 给定文本描述和控制条件,本文用ControlNet生成参考图片。
  • Training of the Coarse NeRF Model. 给定参考图片,本文用基于Zero 1-to-3的SDS损失生成粗NeRF。

Mesh Training

  • Mesh Extraction. 给定粗NeRF,本文用DMTet将其转换为3D Mesh。3D Mesh由顶点V和四面体T(tetrahedrons)组成。每个顶点包含一个signed distance field (SDF) 值s_i \in S和形变值\Delta{v_{i}} \in \Delta V组成。\Delta{v_{i}}描述了相较于初始正则坐标的变换。本文基于IPSD优化\Delta V, S, \theta
  • Geometry Optimization. Fantasia3D和ProlificDreamer用SDS优化3D Mesh的法向图,实现几何优化。但常用扩散模型缺少法向图的训练数据,导致几何优化效果不佳。为解决该问题,本文引入法向图编码y_n = \varepsilon_{\mathrm{image}}(I_n),其中\varepsilon_{\mathrm{image}}是IP-Adapter的denosing model。IPSD几何损失表达如下:

  • Texture Optimization. 首先,提取参考图像编码y_{\mathrm{rgb}} = \varepsilon_{\mathrm{image}}(I_{\mathrm{rgb}})。其次,计算渲染角度和参考角度的法向图编码,并计算差值得到\delta_{geo}。这一步的目的是希望用y_{rgb} + \delta_{geo}来表征任意渲染角度图像的图像编码。IPSD纹理损失表达如下:

Experiments

Some Results

Comparison with SOTA Text-to-3D Methods

这篇关于[23] IPDreamer: Appearance-Controllable 3D Object Generation with Image Prompts的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/217240

相关文章

无人叉车3d激光slam多房间建图定位异常处理方案-墙体画线地图切分方案

墙体画线地图切分方案 针对问题:墙体两侧特征混淆误匹配,导致建图和定位偏差,表现为过门跳变、外月台走歪等 ·解决思路:预期的根治方案IGICP需要较长时间完成上线,先使用切分地图的工程化方案,即墙体两侧切分为不同地图,在某一侧只使用该侧地图进行定位 方案思路 切分原理:切分地图基于关键帧位置,而非点云。 理论基础:光照是直线的,一帧点云必定只能照射到墙的一侧,无法同时照到两侧实践考虑:关

安卓链接正常显示,ios#符被转义%23导致链接访问404

原因分析: url中含有特殊字符 中文未编码 都有可能导致URL转换失败,所以需要对url编码处理  如下: guard let allowUrl = webUrl.addingPercentEncoding(withAllowedCharacters: .urlQueryAllowed) else {return} 后面发现当url中有#号时,会被误伤转义为%23,导致链接无法访问

MiniGPT-3D, 首个高效的3D点云大语言模型,仅需一张RTX3090显卡,训练一天时间,已开源

项目主页:https://tangyuan96.github.io/minigpt_3d_project_page/ 代码:https://github.com/TangYuan96/MiniGPT-3D 论文:https://arxiv.org/pdf/2405.01413 MiniGPT-3D在多个任务上取得了SoTA,被ACM MM2024接收,只拥有47.8M的可训练参数,在一张RTX

lvgl8.3.6 控件垂直布局 label控件在image控件的下方显示

在使用 LVGL 8.3.6 创建一个垂直布局,其中 label 控件位于 image 控件下方,你可以使用 lv_obj_set_flex_flow 来设置布局为垂直,并确保 label 控件在 image 控件后添加。这里是如何步骤性地实现它的一个基本示例: 创建父容器:首先创建一个容器对象,该对象将作为布局的基础。设置容器为垂直布局:使用 lv_obj_set_flex_flow 设置容器

SAM2POINT:以zero-shot且快速的方式将任何 3D 视频分割为视频

摘要 我们介绍 SAM2POINT,这是一种采用 Segment Anything Model 2 (SAM 2) 进行零样本和快速 3D 分割的初步探索。 SAM2POINT 将任何 3D 数据解释为一系列多向视频,并利用 SAM 2 进行 3D 空间分割,无需进一步训练或 2D-3D 投影。 我们的框架支持各种提示类型,包括 3D 点、框和掩模,并且可以泛化到不同的场景,例如 3D 对象、室

【Python报错已解决】AttributeError: ‘list‘ object has no attribute ‘text‘

🎬 鸽芷咕:个人主页  🔥 个人专栏: 《C++干货基地》《粉丝福利》 ⛺️生活的理想,就是为了理想的生活! 文章目录 前言一、问题描述1.1 报错示例1.2 报错分析1.3 解决思路 二、解决方法2.1 方法一:检查属性名2.2 步骤二:访问列表元素的属性 三、其他解决方法四、总结 前言 在Python编程中,属性错误(At

LLVM入门2:如何基于自己的代码生成IR-LLVM IR code generation实例介绍

概述 本节将通过一个简单的例子来介绍如何生成llvm IR,以Kaleidoscope IR中的例子为例,我们基于LLVM接口构建一个简单的编译器,实现简单的语句解析并转化为LLVM IR,生成对应的LLVM IR部分,代码如下,文件名为toy.cpp,先给出代码,后面会详细介绍每一步分代码: #include "llvm/ADT/APFloat.h"#include "llvm/ADT/S

Python安装llama库出错“metadata-generation-failed”

Python安装llama库出错“metadata-generation-failed” 1. 安装llama库时出错2. 定位问题1. 去官网下载llama包 2.修改配置文件2.1 解压文件2.2 修改配置文件 3. 本地安装文件 1. 安装llama库时出错 2. 定位问题 根据查到的资料,发现时llama包中的execfile函数已经被下线了,需要我们手动修改代码后

模具要不要建设3D打印中心

随着3D打印技术的日益成熟与广泛应用,模具企业迎来了自建3D打印中心的热潮。这一举措不仅为企业带来了前所未有的发展机遇,同时也伴随着一系列需要克服的挑战,如何看待企业引进增材制造,小编为您全面分析。 机遇篇: 加速产品创新:3D打印技术如同一把钥匙,为模具企业解锁了快速迭代产品设计的可能。企业能够迅速将创意转化为实体模型,缩短产品从设计到市场的周期,抢占市场先机。 强化定制化服务:面

华为23年笔试题

消息传输 题目描述 在给定的 m x n (1 <= m, n <= 1000) 网格地图 grid 中,分布着一些信号塔,用于区域间通信。 每个单元格可以有以下三种状态:  值 0 代表空地,无法传递信号;  值 1 代表信号塔 A,在收到消息后,信号塔 A 可以在 1ms 后将信号发送给上下左右四个方向的信号塔; 值 2 代表信号塔 B,在收到消息后,信号塔 B 可以在 2ms