南加州大学字节提出MagicPose,提供逼真的人类视频生成,实现生动的运动和面部表情传输,以及不需要任何微调的一致的野外零镜头生成。

本文主要是介绍南加州大学字节提出MagicPose,提供逼真的人类视频生成,实现生动的运动和面部表情传输,以及不需要任何微调的一致的野外零镜头生成。,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

MagicPose可以精确地生成外观一致的结果,而原始的文本到图像模型(如Stable Diffusion和ControlNet)很难准确地保持主体身份信息。

此外,MagicPose模块可以被视为原始文本到图像模型的扩展/插件,而无需修改其预训练的权重。

相关链接

论文链接:https://arxiv.org/pdf/2311.12052.pdf

项目链接:https://github.com/Boese0601/MagicDance

视频演示:https://www.youtube.com/watch?v=VPJe6TyrT-Y

论文阅读

MagicPose:现实的人类姿势和面部表情重新定位与身份意识扩散

摘要

在这项工作中,我们提出了MagicPose,这是一种基于扩散的模型,用于在具有挑战性的人舞视频中进行2D人体动作和面部表情的转移。

具体来说,我们的目标是生成由新颖的姿势序列驱动的任何目标身份的人舞视频,同时保持身份不变。为此,我们提出了一种两阶段的训练策略,以分离人体动作和外观(例如面部表情、肤色和着装),包括对同一数据集的人舞姿势的外观控制块的预训练和对外观-姿势-联合控制块的精细调整。

我们的新颖设计使外观控制具有在时间上一致的上半身、面部属性甚至背景。该模型在未见过的人类身份和复杂的运动序列上也具有良好的泛化能力,无需在具有不同人类属性的数据上进行任何微调,并利用图像扩散模型的先验知识。

此外,所提模型易于使用,可被视为Stable Diffusion的插件模块/扩展。我们还展示了该模型在零样本2D动画生成方面的能力,不仅可以实现从一个身份到另一个身份的外观转换,还可以仅基于姿态输入实现卡通风格的渲染。大量的实验证明了我们在TikTok数据集上的优越性能。

方法

提出的MagicPose流程概述。用于可控的人类舞蹈视频生成与运动和面部表情转移。外观控制模型是整个稳定扩散UNet的副本,初始化为相同的权值。稳定扩散UNet在整个训练过程中被冻结。

  • 在(a)外观控制预训练中,我们训练外观控制模型及其多源自注意模块。

  • 在(b)外观解纠缠姿态控制过程中,我们联合微调外观控制模型(用a)中的权重初始化)和姿态控制网。在这些步骤之后,我们冻结了所有以前训练过的模块,并微调了用AnimateDiff初始化的运动模块。

结果展示

人类动作和面部表情传递

人体运动和面部表情转移的可视化。MagicPose能够在多种姿态骨架和面部地标输入的情况下生成生动逼真的运动和表情,同时准确地保持参考图像输入的身份信息。

Zero Shot动画

Zero Shot 2D动画生成的可视化。MagicPose可以从卡通风格的图像中精确生成身份信息,甚至在经过真人舞蹈视频训练后无需进一步微调。

与近期作品比较

定性的比较

定量的比较

MagicPose与最近SOTA方法DreamPose和Disco的定量比较。↓表示越低越好,反之亦然。

带有*的方法直接使用目标图像作为输入,比OpenPose包含更多的信息。†表示Disco比我们提出的MagicPose在其他数据集上进行了更多的预训练,MagicPose只使用TikTok数据集中的335个视频序列进行预训练和微调。face - cos表示生成图像与地面真图像之间的人脸区域的余弦相似度。

这篇关于南加州大学字节提出MagicPose,提供逼真的人类视频生成,实现生动的运动和面部表情传输,以及不需要任何微调的一致的野外零镜头生成。的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/997171

相关文章

Go语言开发实现查询IP信息的MCP服务器

《Go语言开发实现查询IP信息的MCP服务器》随着MCP的快速普及和广泛应用,MCP服务器也层出不穷,本文将详细介绍如何在Go语言中使用go-mcp库来开发一个查询IP信息的MCP... 目录前言mcp-ip-geo 服务器目录结构说明查询 IP 信息功能实现工具实现工具管理查询单个 IP 信息工具的实现服

SpringBoot基于配置实现短信服务策略的动态切换

《SpringBoot基于配置实现短信服务策略的动态切换》这篇文章主要为大家详细介绍了SpringBoot在接入多个短信服务商(如阿里云、腾讯云、华为云)后,如何根据配置或环境切换使用不同的服务商,需... 目录目标功能示例配置(application.yml)配置类绑定短信发送策略接口示例:阿里云 & 腾

python实现svg图片转换为png和gif

《python实现svg图片转换为png和gif》这篇文章主要为大家详细介绍了python如何实现将svg图片格式转换为png和gif,文中的示例代码讲解详细,感兴趣的小伙伴可以跟随小编一起学习一下... 目录python实现svg图片转换为png和gifpython实现图片格式之间的相互转换延展:基于Py

Python利用ElementTree实现快速解析XML文件

《Python利用ElementTree实现快速解析XML文件》ElementTree是Python标准库的一部分,而且是Python标准库中用于解析和操作XML数据的模块,下面小编就来和大家详细讲讲... 目录一、XML文件解析到底有多重要二、ElementTree快速入门1. 加载XML的两种方式2.

Java的栈与队列实现代码解析

《Java的栈与队列实现代码解析》栈是常见的线性数据结构,栈的特点是以先进后出的形式,后进先出,先进后出,分为栈底和栈顶,栈应用于内存的分配,表达式求值,存储临时的数据和方法的调用等,本文给大家介绍J... 目录栈的概念(Stack)栈的实现代码队列(Queue)模拟实现队列(双链表实现)循环队列(循环数组

C++如何通过Qt反射机制实现数据类序列化

《C++如何通过Qt反射机制实现数据类序列化》在C++工程中经常需要使用数据类,并对数据类进行存储、打印、调试等操作,所以本文就来聊聊C++如何通过Qt反射机制实现数据类序列化吧... 目录设计预期设计思路代码实现使用方法在 C++ 工程中经常需要使用数据类,并对数据类进行存储、打印、调试等操作。由于数据类

Python实现图片分割的多种方法总结

《Python实现图片分割的多种方法总结》图片分割是图像处理中的一个重要任务,它的目标是将图像划分为多个区域或者对象,本文为大家整理了一些常用的分割方法,大家可以根据需求自行选择... 目录1. 基于传统图像处理的分割方法(1) 使用固定阈值分割图片(2) 自适应阈值分割(3) 使用图像边缘检测分割(4)

Android实现在线预览office文档的示例详解

《Android实现在线预览office文档的示例详解》在移动端展示在线Office文档(如Word、Excel、PPT)是一项常见需求,这篇文章为大家重点介绍了两种方案的实现方法,希望对大家有一定的... 目录一、项目概述二、相关技术知识三、实现思路3.1 方案一:WebView + Office Onl

C# foreach 循环中获取索引的实现方式

《C#foreach循环中获取索引的实现方式》:本文主要介绍C#foreach循环中获取索引的实现方式,本文给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的朋友参考下吧... 目录一、手动维护索引变量二、LINQ Select + 元组解构三、扩展方法封装索引四、使用 for 循环替代

Spring Security+JWT如何实现前后端分离权限控制

《SpringSecurity+JWT如何实现前后端分离权限控制》本篇将手把手教你用SpringSecurity+JWT搭建一套完整的登录认证与权限控制体系,具有很好的参考价值,希望对大家... 目录Spring Security+JWT实现前后端分离权限控制实战一、为什么要用 JWT?二、JWT 基本结构