LRM:单幅图像到三维的大型重建模型

2023-12-11 13:20

本文主要是介绍LRM:单幅图像到三维的大型重建模型,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

原创 | 文 BFT机器人 

图片

不可否认,从任何物体的单个图像中即时生成3D图像的概念非常吸引人。这一突破有望显著推动工业设计、动画、游戏以及增强现实(AR)和虚拟现实(VR)领域的应用。

此外,在自然语言处理和图像处理方面的显著成就激发了研究人员深入研究学习通用3D基础的领域,以便从单个图像重建对象。

图片

在一篇新论文《LRM: Large Reconstruction Model for Single Image to 3D》中,来自Adobe研究院和澳大利亚国立大学的研究团队介绍了一种创新的大型重建模型(LRM)。这个开创性的模型具有非凡的能力,可以在短短5秒内从单个输入图像中预测物体的3D模型。

LRM方法采用强大的基于transformer的编码器-解码器架构,以数据驱动的方式从单个图像中获取3D对象表示。该模型将图像作为输入,并以三平面表示的形式回归神经辐射场(NeRF)。

为了实现这一点,LRM使用预训练的视觉转换器DINO作为图像编码器来生成图像特征。随后,该算法学习图像到三平面转换器解码器,通过交叉注意力将二维图像特征投射到三维三平面上,通过自注意力有效地模拟空间结构三平面令牌之间的关系。

图片

然后,解码器的输出标记被重新调整和上采样,以创建最终的三平面特征图。这使得LRM能够通过解码每个点的三平面特征从任何视点渲染图像。它借助额外的共享多层感知器(MLP)来确定颜色和密度,从而促进体积渲染。

LRM的与众不同之处在于其设计具有很高的可扩展性和效率

除了采用完全基于变压器的管道外,它采用的三平面NeRF还以简洁且可扩展的3D表示形式脱颖而出。与体积和点云等其他替代方案相比,它的计算效率很高。此外,它相对于输入图像提供了优越的局部性。

LRM的一个显着方面是它的训练过程,它涉及在新颖的视角下最小化渲染图像和地面实况图像之间的差异。这不需要过多的3D感知正则化或复杂的超参数调整即可完成,这使得模型在训练过程中非常高效,并适用于各种多视图图像数据集。

图片

实证结果强调了LRM在处理各种输入时的非凡保真度,包括真实世界的图像、合成创作和具有不同纹理的不同主题的渲染图像。与One-2-3-45相比,它是单图像到3D重建的最先进的解决方案。

总之,这项开创性的工作展示了LRM的潜力,可以从野外发现的单个任意图像中快速预测任何物体的3D模型。这一发展开辟了广泛的实际应用,可以从这种快速准确的3D重建功能中受益。

论文网站:https://arxiv.org/abs/2311.04400

视频演示:https://yiconghong.me/LRM/

若您对该文章内容有任何疑问,请与我们联系,我们将及时回应。

这篇关于LRM:单幅图像到三维的大型重建模型的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/480838

相关文章

0基础租个硬件玩deepseek,蓝耘元生代智算云|本地部署DeepSeek R1模型的操作流程

《0基础租个硬件玩deepseek,蓝耘元生代智算云|本地部署DeepSeekR1模型的操作流程》DeepSeekR1模型凭借其强大的自然语言处理能力,在未来具有广阔的应用前景,有望在多个领域发... 目录0基础租个硬件玩deepseek,蓝耘元生代智算云|本地部署DeepSeek R1模型,3步搞定一个应

Deepseek R1模型本地化部署+API接口调用详细教程(释放AI生产力)

《DeepseekR1模型本地化部署+API接口调用详细教程(释放AI生产力)》本文介绍了本地部署DeepSeekR1模型和通过API调用将其集成到VSCode中的过程,作者详细步骤展示了如何下载和... 目录前言一、deepseek R1模型与chatGPT o1系列模型对比二、本地部署步骤1.安装oll

Spring AI Alibaba接入大模型时的依赖问题小结

《SpringAIAlibaba接入大模型时的依赖问题小结》文章介绍了如何在pom.xml文件中配置SpringAIAlibaba依赖,并提供了一个示例pom.xml文件,同时,建议将Maven仓... 目录(一)pom.XML文件:(二)application.yml配置文件(一)pom.xml文件:首

如何在本地部署 DeepSeek Janus Pro 文生图大模型

《如何在本地部署DeepSeekJanusPro文生图大模型》DeepSeekJanusPro模型在本地成功部署,支持图片理解和文生图功能,通过Gradio界面进行交互,展示了其强大的多模态处... 目录什么是 Janus Pro1. 安装 conda2. 创建 python 虚拟环境3. 克隆 janus

本地私有化部署DeepSeek模型的详细教程

《本地私有化部署DeepSeek模型的详细教程》DeepSeek模型是一种强大的语言模型,本地私有化部署可以让用户在自己的环境中安全、高效地使用该模型,避免数据传输到外部带来的安全风险,同时也能根据自... 目录一、引言二、环境准备(一)硬件要求(二)软件要求(三)创建虚拟环境三、安装依赖库四、获取 Dee

DeepSeek模型本地部署的详细教程

《DeepSeek模型本地部署的详细教程》DeepSeek作为一款开源且性能强大的大语言模型,提供了灵活的本地部署方案,让用户能够在本地环境中高效运行模型,同时保护数据隐私,在本地成功部署DeepSe... 目录一、环境准备(一)硬件需求(二)软件依赖二、安装Ollama三、下载并部署DeepSeek模型选

Golang的CSP模型简介(最新推荐)

《Golang的CSP模型简介(最新推荐)》Golang采用了CSP(CommunicatingSequentialProcesses,通信顺序进程)并发模型,通过goroutine和channe... 目录前言一、介绍1. 什么是 CSP 模型2. Goroutine3. Channel4. Channe

Python实现高效地读写大型文件

《Python实现高效地读写大型文件》Python如何读写的是大型文件,有没有什么方法来提高效率呢,这篇文章就来和大家聊聊如何在Python中高效地读写大型文件,需要的可以了解下... 目录一、逐行读取大型文件二、分块读取大型文件三、使用 mmap 模块进行内存映射文件操作(适用于大文件)四、使用 pand

基于WinForm+Halcon实现图像缩放与交互功能

《基于WinForm+Halcon实现图像缩放与交互功能》本文主要讲述在WinForm中结合Halcon实现图像缩放、平移及实时显示灰度值等交互功能,包括初始化窗口的不同方式,以及通过特定事件添加相应... 目录前言初始化窗口添加图像缩放功能添加图像平移功能添加实时显示灰度值功能示例代码总结最后前言本文将

Python基于火山引擎豆包大模型搭建QQ机器人详细教程(2024年最新)

《Python基于火山引擎豆包大模型搭建QQ机器人详细教程(2024年最新)》:本文主要介绍Python基于火山引擎豆包大模型搭建QQ机器人详细的相关资料,包括开通模型、配置APIKEY鉴权和SD... 目录豆包大模型概述开通模型付费安装 SDK 环境配置 API KEY 鉴权Ark 模型接口Prompt