生成模型 | 数字人类的三维重建(3D reconstruction)调研及总结【20231210更新版】

本文主要是介绍生成模型 | 数字人类的三维重建(3D reconstruction)调研及总结【20231210更新版】,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

本文主要集中于图片到三维重建的算法模型,其中包含人体重建,人脸重建等

1.三维人体重建

1.1.2015_SMPL: A Skinned Multi-Person Linear Model

论文地址:SMPL2015.pdf (mpg.de)

代码地址:CalciferZh/SMPL: NumPy, TensorFlow and PyTorch implementation of human body SMPL model and infant body SMIL model. (github.com)

gulvarol/smplpytorch: SMPL body model layer for PyTorch (github.com)

autocyz/smpl_understand: understand about SMPLmodel(http://smpl.is.tue.mpg.de/downloads) (github.com)

2019_SMPL-X: Expressive Body Capture: 3D Hands, Face, and Body from a Single Image

论文地址:SMPL-X (mpg.de)

论文代码:vchoutas/smplx: SMPL-X (github.com)

论文摘要

 为了便于分析人类行为、互动和情绪,论文从单个单眼图像中计算出人体姿势、手部姿势和面部表情的 3D 模型。为了实现这一目标,论文使用数千次 3D 扫描来训练一种新的、统一的人体 3D 模型 SMPL-X,该模型通过完全关节的手和富有表现力的面部扩展 SMPL。在没有配对图像和 3D 地面实况的情况下,学习直接从图像回归 SMPL-X 的参数具有挑战性。因此,论文遵循 SMPLify 的方法,该方法估计 2D 特征,然后优化模型参数以拟合特征。在几个重要方面改进了 SMPLify:

  • 检测与面部、手和脚相对应的 2D 特征,并将完整的 SMPL-X 模型拟合到这些特征上;
  • 先使用大型MoCap数据集训练一种新的神经网络姿势;
  • 定义了一种既快速又准确的新的相互渗透惩罚;
  • 自动检测性别和适当的身体模型(男性、女性或中性);
  • 在 PyTorch 实现比 Chumpy 加速了 8 倍以上。

使用新方法SMPLify-X将SMPL-X拟合到受控图像和野外图像中。在一个新的精选数据集上评估 3D 准确性,该数据集包含 100 张具有伪地面实况的图像。这是从单目RGB数据中自动进行富有表现力的人体捕获的一步。这些模型、代码和数据可在 https://smpl-x.is.tue.mpg.de 上用于研究目的。

2020_Deep reconstruction of 3D human poses from video

论文地址:JIAN_TAI.pdf (uwa.edu.au)

代码地址:暂无

[ CVPR 2020].PIFuHD: Multi-Level Pixel-Aligned Implicit Function for High-Resolution 3D Human Digitization

论文地址:arxiv.org/pdf/2004.00452.pdf

代码地址:facebookresearch/pifuhd: High-Resolution 3D Human Digitization from A Single Image. (github.com)

Demo:PIFuHD: Multi-Level Pixel-Aligned Implicit Function for High-Resolution 3D Human Digitization (shunsukesaito.github.io)

 

2022_JIFF: Jointly-aligned Implicit Face Function for High Quality Single View Clothed Human Reconstruction

论文地址:2204.10549.pdf (arxiv.org)

论文代码:暂未开源

2023.11.27_HAVE-FUN: Human Avatar Reconstruction from Few-Shot Unconstrained Images

论文地址:2311.15672.pdf (arxiv.org)

代码地址:暂未开源

Demo:HAVE-FUN (seanchenxy.github.io)

[ CVPR 2023].Complete 3D Human Reconstruction from a Single Incomplete Image

论文地址:Complete 3D Human Reconstruction From a Single Incomplete Image (thecvf.com)

代码地址:

2.三维人脸重建

2.1.3DMM:A Morphable Model For The Synthesis Of 3D Faces

论文地址:SIG99.dvi (ucsd.edu)

代码地址:ascust/3DMM-Fitting-Pytorch: A 3DMM fitting framework using Pytorch. (github.com)(非官方版)

 2.2.2022_Rodin: A Generative Model for Sculpting 3D Digital Avatars Using Diffusion

论文地址:2212.06135.pdf (arxiv.org)

论文代码:cbritopacheco/rodin: Modern C++17 finite element method and shape optimization framework. (github.com)

论文Demo:RODIN Diffusion (microsoft.com)Rodin Diffusion: A Generative Model for Sculpting 3D Digital Avatars - Microsoft Research

 该 3D 化身扩散模型经过训练,可生成表示为神经辐射场的 3D 数字头像。以最先进的生成技术(扩散模型)为基础进行3D建模。使用三平面表示来分解化身的神经辐射场,可以通过扩散模型显式建模,并通过体积渲染渲染到图像中。所提出的3D感知卷积带来了急需的计算效率,同时保持了3D扩散建模的完整性。整个生成是一个分层过程,具有用于多尺度建模的级联扩散模型。一旦生成模型被训练,就可以根据从输入图像、文本提示或随机噪声派生的潜在代码来控制头像的生成。

2.3.2023.11.26_GAIA: ZERO-SHOT TALKING AVATAR GENERATION

论文题目:2023.11.26GAIA: ZERO-SHOT TALKING AVATAR GENERATION

论文地址:2311.15230.pdf (arxiv.org)

论文代码:20231205暂未发布

论文摘要

 零样本说话头像生成旨在从语音和单个肖像图像中合成自然的说话视频。以前的方法依赖于特定领域的启发式方法,例如基于变形的运动表示和 3D 可变形模型,这限制了生成的化身的自然性和多样性。在这项工作中,引入了 GAIA(Generative AI for Avatar),它消除了说话头像生成中的领域先验。鉴于语音仅驱动化身的运动,而化身的外观和背景在整个视频中通常保持不变,将方法分为两个阶段:1)将每一帧解开为运动和外观表示;2)生成以语音和参考人像图像为条件的运动序列。我们收集了一个大规模的高质量会说话的头像数据集,并在其上用不同的尺度(最多 2B 参数)训练模型。实验结果验证了GAIA的优越性、可扩展性和灵活性,1)所得模型在自然性、多样性、口型同步质量和视觉质量方面优于以前的基线模型;2)该框架是可扩展的,因为更大的模型会产生更好的结果;3)它是通用的,可以支持不同的应用,如可控的说话头像生成和文本指示的头像生成。

参考文献

【1】3D human reconstruction人体重建论文小合集 - 知乎 (zhihu.com)

【2】【精选】2022 CVPR 三维人体重建相关论文汇总(3D Human Reconstruction)_3d人体重建_BTWBB的博客-CSDN博客 【3】【技术综述】基于3DMM的三维人脸重建技术总结 - 知乎 (zhihu.com)

【4】 imbinwang/awesome-nerf-3d-reconstruction (github.com)

【5】PIFuHD: Multi-Level Pixel-Aligned Implicit Function for High-Resolution 3D Human Digitization (shunsukesaito.github.io) 

这篇关于生成模型 | 数字人类的三维重建(3D reconstruction)调研及总结【20231210更新版】的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/477387

相关文章

HarmonyOS学习(七)——UI(五)常用布局总结

自适应布局 1.1、线性布局(LinearLayout) 通过线性容器Row和Column实现线性布局。Column容器内的子组件按照垂直方向排列,Row组件中的子组件按照水平方向排列。 属性说明space通过space参数设置主轴上子组件的间距,达到各子组件在排列上的等间距效果alignItems设置子组件在交叉轴上的对齐方式,且在各类尺寸屏幕上表现一致,其中交叉轴为垂直时,取值为Vert

大模型研发全揭秘:客服工单数据标注的完整攻略

在人工智能(AI)领域,数据标注是模型训练过程中至关重要的一步。无论你是新手还是有经验的从业者,掌握数据标注的技术细节和常见问题的解决方案都能为你的AI项目增添不少价值。在电信运营商的客服系统中,工单数据是客户问题和解决方案的重要记录。通过对这些工单数据进行有效标注,不仅能够帮助提升客服自动化系统的智能化水平,还能优化客户服务流程,提高客户满意度。本文将详细介绍如何在电信运营商客服工单的背景下进行

无人叉车3d激光slam多房间建图定位异常处理方案-墙体画线地图切分方案

墙体画线地图切分方案 针对问题:墙体两侧特征混淆误匹配,导致建图和定位偏差,表现为过门跳变、外月台走歪等 ·解决思路:预期的根治方案IGICP需要较长时间完成上线,先使用切分地图的工程化方案,即墙体两侧切分为不同地图,在某一侧只使用该侧地图进行定位 方案思路 切分原理:切分地图基于关键帧位置,而非点云。 理论基础:光照是直线的,一帧点云必定只能照射到墙的一侧,无法同时照到两侧实践考虑:关

从去中心化到智能化:Web3如何与AI共同塑造数字生态

在数字时代的演进中,Web3和人工智能(AI)正成为塑造未来互联网的两大核心力量。Web3的去中心化理念与AI的智能化技术,正相互交织,共同推动数字生态的变革。本文将探讨Web3与AI的融合如何改变数字世界,并展望这一新兴组合如何重塑我们的在线体验。 Web3的去中心化愿景 Web3代表了互联网的第三代发展,它基于去中心化的区块链技术,旨在创建一个开放、透明且用户主导的数字生态。不同于传统

学习hash总结

2014/1/29/   最近刚开始学hash,名字很陌生,但是hash的思想却很熟悉,以前早就做过此类的题,但是不知道这就是hash思想而已,说白了hash就是一个映射,往往灵活利用数组的下标来实现算法,hash的作用:1、判重;2、统计次数;

AI一键生成 PPT

AI一键生成 PPT 操作步骤 作为一名打工人,是不是经常需要制作各种PPT来分享我的生活和想法。但是,你们知道,有时候灵感来了,时间却不够用了!😩直到我发现了Kimi AI——一个能够自动生成PPT的神奇助手!🌟 什么是Kimi? 一款月之暗面科技有限公司开发的AI办公工具,帮助用户快速生成高质量的演示文稿。 无论你是职场人士、学生还是教师,Kimi都能够为你的办公文

Andrej Karpathy最新采访:认知核心模型10亿参数就够了,AI会打破教育不公的僵局

夕小瑶科技说 原创  作者 | 海野 AI圈子的红人,AI大神Andrej Karpathy,曾是OpenAI联合创始人之一,特斯拉AI总监。上一次的动态是官宣创办一家名为 Eureka Labs 的人工智能+教育公司 ,宣布将长期致力于AI原生教育。 近日,Andrej Karpathy接受了No Priors(投资博客)的采访,与硅谷知名投资人 Sara Guo 和 Elad G

usaco 1.2 Name That Number(数字字母转化)

巧妙的利用code[b[0]-'A'] 将字符ABC...Z转换为数字 需要注意的是重新开一个数组 c [ ] 存储字符串 应人为的在末尾附上 ‘ \ 0 ’ 详见代码: /*ID: who jayLANG: C++TASK: namenum*/#include<stdio.h>#include<string.h>int main(){FILE *fin = fopen (

pdfmake生成pdf的使用

实际项目中有时会有根据填写的表单数据或者其他格式的数据,将数据自动填充到pdf文件中根据固定模板生成pdf文件的需求 文章目录 利用pdfmake生成pdf文件1.下载安装pdfmake第三方包2.封装生成pdf文件的共用配置3.生成pdf文件的文件模板内容4.调用方法生成pdf 利用pdfmake生成pdf文件 1.下载安装pdfmake第三方包 npm i pdfma

Retrieval-based-Voice-Conversion-WebUI模型构建指南

一、模型介绍 Retrieval-based-Voice-Conversion-WebUI(简称 RVC)模型是一个基于 VITS(Variational Inference with adversarial learning for end-to-end Text-to-Speech)的简单易用的语音转换框架。 具有以下特点 简单易用:RVC 模型通过简单易用的网页界面,使得用户无需深入了