LRM:单幅图像到三维的大型重建模型

2023-12-11 13:20

本文主要是介绍LRM:单幅图像到三维的大型重建模型,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

原创 | 文 BFT机器人 

图片

不可否认,从任何物体的单个图像中即时生成3D图像的概念非常吸引人。这一突破有望显著推动工业设计、动画、游戏以及增强现实(AR)和虚拟现实(VR)领域的应用。

此外,在自然语言处理和图像处理方面的显著成就激发了研究人员深入研究学习通用3D基础的领域,以便从单个图像重建对象。

图片

在一篇新论文《LRM: Large Reconstruction Model for Single Image to 3D》中,来自Adobe研究院和澳大利亚国立大学的研究团队介绍了一种创新的大型重建模型(LRM)。这个开创性的模型具有非凡的能力,可以在短短5秒内从单个输入图像中预测物体的3D模型。

LRM方法采用强大的基于transformer的编码器-解码器架构,以数据驱动的方式从单个图像中获取3D对象表示。该模型将图像作为输入,并以三平面表示的形式回归神经辐射场(NeRF)。

为了实现这一点,LRM使用预训练的视觉转换器DINO作为图像编码器来生成图像特征。随后,该算法学习图像到三平面转换器解码器,通过交叉注意力将二维图像特征投射到三维三平面上,通过自注意力有效地模拟空间结构三平面令牌之间的关系。

图片

然后,解码器的输出标记被重新调整和上采样,以创建最终的三平面特征图。这使得LRM能够通过解码每个点的三平面特征从任何视点渲染图像。它借助额外的共享多层感知器(MLP)来确定颜色和密度,从而促进体积渲染。

LRM的与众不同之处在于其设计具有很高的可扩展性和效率

除了采用完全基于变压器的管道外,它采用的三平面NeRF还以简洁且可扩展的3D表示形式脱颖而出。与体积和点云等其他替代方案相比,它的计算效率很高。此外,它相对于输入图像提供了优越的局部性。

LRM的一个显着方面是它的训练过程,它涉及在新颖的视角下最小化渲染图像和地面实况图像之间的差异。这不需要过多的3D感知正则化或复杂的超参数调整即可完成,这使得模型在训练过程中非常高效,并适用于各种多视图图像数据集。

图片

实证结果强调了LRM在处理各种输入时的非凡保真度,包括真实世界的图像、合成创作和具有不同纹理的不同主题的渲染图像。与One-2-3-45相比,它是单图像到3D重建的最先进的解决方案。

总之,这项开创性的工作展示了LRM的潜力,可以从野外发现的单个任意图像中快速预测任何物体的3D模型。这一发展开辟了广泛的实际应用,可以从这种快速准确的3D重建功能中受益。

论文网站:https://arxiv.org/abs/2311.04400

视频演示:https://yiconghong.me/LRM/

若您对该文章内容有任何疑问,请与我们联系,我们将及时回应。

这篇关于LRM:单幅图像到三维的大型重建模型的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!


原文地址:
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.chinasem.cn/article/480838

相关文章

Spring Security基于数据库的ABAC属性权限模型实战开发教程

《SpringSecurity基于数据库的ABAC属性权限模型实战开发教程》:本文主要介绍SpringSecurity基于数据库的ABAC属性权限模型实战开发教程,本文给大家介绍的非常详细,对大... 目录1. 前言2. 权限决策依据RBACABAC综合对比3. 数据库表结构说明4. 实战开始5. MyBA

Java的IO模型、Netty原理解析

《Java的IO模型、Netty原理解析》Java的I/O是以流的方式进行数据输入输出的,Java的类库涉及很多领域的IO内容:标准的输入输出,文件的操作、网络上的数据传输流、字符串流、对象流等,这篇... 目录1.什么是IO2.同步与异步、阻塞与非阻塞3.三种IO模型BIO(blocking I/O)NI

基于Flask框架添加多个AI模型的API并进行交互

《基于Flask框架添加多个AI模型的API并进行交互》:本文主要介绍如何基于Flask框架开发AI模型API管理系统,允许用户添加、删除不同AI模型的API密钥,感兴趣的可以了解下... 目录1. 概述2. 后端代码说明2.1 依赖库导入2.2 应用初始化2.3 API 存储字典2.4 路由函数2.5 应

使用Python开发一个图像标注与OCR识别工具

《使用Python开发一个图像标注与OCR识别工具》:本文主要介绍一个使用Python开发的工具,允许用户在图像上进行矩形标注,使用OCR对标注区域进行文本识别,并将结果保存为Excel文件,感兴... 目录项目简介1. 图像加载与显示2. 矩形标注3. OCR识别4. 标注的保存与加载5. 裁剪与重置图像

C#集成DeepSeek模型实现AI私有化的流程步骤(本地部署与API调用教程)

《C#集成DeepSeek模型实现AI私有化的流程步骤(本地部署与API调用教程)》本文主要介绍了C#集成DeepSeek模型实现AI私有化的方法,包括搭建基础环境,如安装Ollama和下载DeepS... 目录前言搭建基础环境1、安装 Ollama2、下载 DeepSeek R1 模型客户端 ChatBo

SpringBoot快速接入OpenAI大模型的方法(JDK8)

《SpringBoot快速接入OpenAI大模型的方法(JDK8)》本文介绍了如何使用AI4J快速接入OpenAI大模型,并展示了如何实现流式与非流式的输出,以及对函数调用的使用,AI4J支持JDK8... 目录使用AI4J快速接入OpenAI大模型介绍AI4J-github快速使用创建SpringBoot

0基础租个硬件玩deepseek,蓝耘元生代智算云|本地部署DeepSeek R1模型的操作流程

《0基础租个硬件玩deepseek,蓝耘元生代智算云|本地部署DeepSeekR1模型的操作流程》DeepSeekR1模型凭借其强大的自然语言处理能力,在未来具有广阔的应用前景,有望在多个领域发... 目录0基础租个硬件玩deepseek,蓝耘元生代智算云|本地部署DeepSeek R1模型,3步搞定一个应

Deepseek R1模型本地化部署+API接口调用详细教程(释放AI生产力)

《DeepseekR1模型本地化部署+API接口调用详细教程(释放AI生产力)》本文介绍了本地部署DeepSeekR1模型和通过API调用将其集成到VSCode中的过程,作者详细步骤展示了如何下载和... 目录前言一、deepseek R1模型与chatGPT o1系列模型对比二、本地部署步骤1.安装oll

Spring AI Alibaba接入大模型时的依赖问题小结

《SpringAIAlibaba接入大模型时的依赖问题小结》文章介绍了如何在pom.xml文件中配置SpringAIAlibaba依赖,并提供了一个示例pom.xml文件,同时,建议将Maven仓... 目录(一)pom.XML文件:(二)application.yml配置文件(一)pom.xml文件:首

如何在本地部署 DeepSeek Janus Pro 文生图大模型

《如何在本地部署DeepSeekJanusPro文生图大模型》DeepSeekJanusPro模型在本地成功部署,支持图片理解和文生图功能,通过Gradio界面进行交互,展示了其强大的多模态处... 目录什么是 Janus Pro1. 安装 conda2. 创建 python 虚拟环境3. 克隆 janus