[23] SweetDreamer: Aligning Geometric Priors in 2D Diffusion for Consistent Text-to-3D

本文主要是介绍[23] SweetDreamer: Aligning Geometric Priors in 2D Diffusion for Consistent Text-to-3D,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

SWEETDREAMER: ALIGNING GEOMETRIC PRIORS IN 2D DIFFUSION FOR CONSISTENT TEXT-TO-3D

pdf | project

目录

Method

Alignning Geometric Priors in 2D Diffusion

Integration into Text-to-3D

Text-to-3D Generation


Method

  • 本文探索了3D生成中的view-inconsistency problem(也称为Janus Problem)。
  • 为解决该问题,本文提出Aligning Geometric Priors (AGP)。具体来说,本文在3D数据集Objaverse上fine-tune Stable Diffusion,在相机参数作为控制信号情况下,使Stable Diffusion生成具有深度信息的Canonical Coordinate map。
  • Fine-tune得到的AGP,可以加入现有text-to-3D pipeline中,减缓Janus Problem,提高生成质量。

Alignning Geometric Priors in 2D Diffusion

  • Canonical Coordinate Map (CCM)。为计算3D物体的CCM,首先将3D物体正则化至[0, 1]标准空间。1)uniformly normalize:三个坐标轴均匀放缩,放缩系数由最长边决定;2)anisotropically scale:三个坐标轴各向异性放缩,放缩系数各不相同。本文选择了anisotropically scale。
  • Camera Condition。受MVDream启发,将相机外参作为控制信号,引入Stable Diffusion的fine-tune过程中。
  • Implementation Details。1)数据集:基于Objaverse数据集。1.1)filtering process:通过tags,筛选并去除点云和low poly models,得到约270k 3D模型;1.2)3D captioning:用大模型描述3D物体,训练时,文本随机选择描述文字/数据集命名。2)相机参数提取。距离均匀采样至0.9-1.1,elevation degree采样至-10-45,3)训练。基于Stable Diffusion fine-tune;将canonical coordinates map视作latent image;引入相机外参矩阵作为控制信号。

Integration into Text-to-3D

在原有损失基础上,增加一个COCM分支。

Text-to-3D Generation

  • NeRF-based Full是指先用DeeFloyd IF,然后用Stable Diffusion。还用了time annealing,negative prompts和CFG rescaling tricks。

这篇关于[23] SweetDreamer: Aligning Geometric Priors in 2D Diffusion for Consistent Text-to-3D的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/229570

相关文章

无人叉车3d激光slam多房间建图定位异常处理方案-墙体画线地图切分方案

墙体画线地图切分方案 针对问题:墙体两侧特征混淆误匹配,导致建图和定位偏差,表现为过门跳变、外月台走歪等 ·解决思路:预期的根治方案IGICP需要较长时间完成上线,先使用切分地图的工程化方案,即墙体两侧切分为不同地图,在某一侧只使用该侧地图进行定位 方案思路 切分原理:切分地图基于关键帧位置,而非点云。 理论基础:光照是直线的,一帧点云必定只能照射到墙的一侧,无法同时照到两侧实践考虑:关

安卓链接正常显示,ios#符被转义%23导致链接访问404

原因分析: url中含有特殊字符 中文未编码 都有可能导致URL转换失败,所以需要对url编码处理  如下: guard let allowUrl = webUrl.addingPercentEncoding(withAllowedCharacters: .urlQueryAllowed) else {return} 后面发现当url中有#号时,会被误伤转义为%23,导致链接无法访问

MiniGPT-3D, 首个高效的3D点云大语言模型,仅需一张RTX3090显卡,训练一天时间,已开源

项目主页:https://tangyuan96.github.io/minigpt_3d_project_page/ 代码:https://github.com/TangYuan96/MiniGPT-3D 论文:https://arxiv.org/pdf/2405.01413 MiniGPT-3D在多个任务上取得了SoTA,被ACM MM2024接收,只拥有47.8M的可训练参数,在一张RTX

SAM2POINT:以zero-shot且快速的方式将任何 3D 视频分割为视频

摘要 我们介绍 SAM2POINT,这是一种采用 Segment Anything Model 2 (SAM 2) 进行零样本和快速 3D 分割的初步探索。 SAM2POINT 将任何 3D 数据解释为一系列多向视频,并利用 SAM 2 进行 3D 空间分割,无需进一步训练或 2D-3D 投影。 我们的框架支持各种提示类型,包括 3D 点、框和掩模,并且可以泛化到不同的场景,例如 3D 对象、室

【Python报错已解决】AttributeError: ‘list‘ object has no attribute ‘text‘

🎬 鸽芷咕:个人主页  🔥 个人专栏: 《C++干货基地》《粉丝福利》 ⛺️生活的理想,就是为了理想的生活! 文章目录 前言一、问题描述1.1 报错示例1.2 报错分析1.3 解决思路 二、解决方法2.1 方法一:检查属性名2.2 步骤二:访问列表元素的属性 三、其他解决方法四、总结 前言 在Python编程中,属性错误(At

Matter.js:Web开发者的2D物理引擎

Matter.js:Web开发者的2D物理引擎 前言 在现代网页开发中,交互性和动态效果是提升用户体验的关键因素。 Matter.js,一个专为网页设计的2D物理引擎,为开发者提供了一种简单而强大的方式,来实现复杂的物理交互效果。 无论是模拟重力、碰撞还是复杂的物体运动,Matter.js 都能轻松应对。 本文将带你深入了解 Matter.js ,并提供实际的代码示例,让你一窥其强大功能

模具要不要建设3D打印中心

随着3D打印技术的日益成熟与广泛应用,模具企业迎来了自建3D打印中心的热潮。这一举措不仅为企业带来了前所未有的发展机遇,同时也伴随着一系列需要克服的挑战,如何看待企业引进增材制造,小编为您全面分析。 机遇篇: 加速产品创新:3D打印技术如同一把钥匙,为模具企业解锁了快速迭代产品设计的可能。企业能够迅速将创意转化为实体模型,缩短产品从设计到市场的周期,抢占市场先机。 强化定制化服务:面

华为23年笔试题

消息传输 题目描述 在给定的 m x n (1 <= m, n <= 1000) 网格地图 grid 中,分布着一些信号塔,用于区域间通信。 每个单元格可以有以下三种状态:  值 0 代表空地,无法传递信号;  值 1 代表信号塔 A,在收到消息后,信号塔 A 可以在 1ms 后将信号发送给上下左右四个方向的信号塔; 值 2 代表信号塔 B,在收到消息后,信号塔 B 可以在 2ms

使用亚马逊Bedrock的Stable Diffusion XL模型实现文本到图像生成:探索AI的无限创意

引言 什么是Amazon Bedrock? Amazon Bedrock是亚马逊云服务(AWS)推出的一项旗舰服务,旨在推动生成式人工智能(AI)在各行业的广泛应用。它的核心功能是提供由顶尖AI公司(如AI21 Labs、Anthropic、Cohere、Meta、Mistral AI、Stability AI以及亚马逊自身)开发的多种基础模型(Foundation Models,简称FMs)。

WPF入门到跪下 第十三章 3D绘图 - 3D绘图基础

3D绘图基础 四大要点 WPF中的3D绘图涉及4个要点: 视口,用来驻留3D内容3D对象照亮部分或整个3D场景的光源摄像机,提供在3D场景中进行观察的视点 一、视口 要展示3D内容,首先需要一个容器来装载3D内容。在WPF中,这个容器就是Viewport3D(3D视口),它继承自FrameworkElement,因此可以像其他元素那样在XAML中使用。 Viewport3D与其他元素相