谷歌推出多模态视频模型,自动生成丰富动作视频

2024-04-03 16:52

本文主要是介绍谷歌推出多模态视频模型,自动生成丰富动作视频,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

谷歌的研究人员推出了一款多模态扩散模型——VLOGGER。

用户只需要向VLOGGER输入图像、语音,就能生成带语音、丰富动作的人物视频。VLOGGER基于扩散模型开发而成,并提出了一种全新的架构,将文本生成图像模型与空间、时间控制相结合,提升视频生成的逼真效果和丰富动作。

研究人员在HDTF、TalkingHead-1KH和MENTOR等多个数据集对VLOGGER进行了综合测试。结果显示,VLOGGER在视频质量、物体还原性和时序一致性等方面表现出色,同时还能生成丰富的上半身和手势动作。

技术报告:https://enriccorona.github.io/vlogger/paper.pdf

图片

随着数字化经济的飞速发展,各行业对虚拟数字人的需求越来越多。但要制作出逼真的人物动画视频需要大量的人工调整和修补才能获得真实感,不然会出现动作缺失、肢体动作僵硬、五官不协调等问题。

VLOGGER模型的创新之处在于,提出了全新的多阶段扩散模型架构:首先,通过使用随机扩散模型,根据输入语音生成对应的人体运动轨迹,包括表情、姿势、视线和眨眼细节。

然后,使用创新的时空扩散架构,将生成的人体运动轨迹及参考图像作为条件实现完整的人物视频合成。

此外,VLOGGER无需针对每个新人物重新训练模型,不依赖人脸检测框选区域,而是直接生成完整目标图像。更重要的是,VLOGGER考虑到了现实中复杂的交流场景,例如,可见躯干、不同身份等,这对正确合成有效交流的人物动作至关重要。

语音生成

第一阶段,VLOGGER使用了Transformer的神经网络用于接收音频波形输入,并生成一系列3D面部表情和身体姿势参数,用于控制虚拟人物在视频中的动作。

为了获得逼真的运动效果,该模型利用了一种统计的3D人体模型,能够精确捕捉面部表情、头部运动、眼球转动、眨眼以及手势等细节。通过预测基于参考图像的姿势残差,该模型可以针对特定身份生成个性化的运动序列。

图片

为了与基于CNN的架构相兼容,该模型将预测的3D参数渲染为密集的2D表示,包括身体的语义区域掩码和部分参考图像的扭曲视图。这些2D控制信号将在下一阶段用于指导视频生成过程。

人物生成

第二阶段,VLOGGER在空间和时间上进行条件控制,以生成高质量、任意长度的视频。该模块接收了来自第一阶段的2D控制信号作为输入,并以参考图像中的人物身份为条件,生成逼真的运动视频帧序列。

图片

VLOGGER基于成熟的文本到图像扩散模型,并通过一种新颖的架构对其进行扩展,增加了时域卷积层,使其能够处理时序数据。此外,VLOGGER还引入了一种"时序外推"的技术,允许模型迭代生成任意长度的视频片段,同时保持时序一致性

图片

为了提高生成效果,VLOGGER采用了级联扩散方法,对基础分辨率的视频进行超分辨重建,生成高达512x512分辨率的高质量影像。

VLOGGER数据集

为提高VLOGGER的泛化能力和安全性,研究人员构建了一个大规模训练数据集MENTOR。该数据集包含80万名不同身份的人物视频,视频长度总计超过2200小时,覆盖了不同年龄、肤色、体型和文化背景的人群。

图片

值得一提的是,数据集中的视频均捕捉了单个人物在相机前交流的场景,并提供了相应的3D姿势和表情标注,这对于训练VLOGGER的多模态能力发挥了重要作用。

本文素材来源VLOGGER论文,如有侵权请联系删除

END

图片

这篇关于谷歌推出多模态视频模型,自动生成丰富动作视频的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!


原文地址:
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.chinasem.cn/article/873466

相关文章

Java利用docx4j+Freemarker生成word文档

《Java利用docx4j+Freemarker生成word文档》这篇文章主要为大家详细介绍了Java如何利用docx4j+Freemarker生成word文档,文中的示例代码讲解详细,感兴趣的小伙伴... 目录技术方案maven依赖创建模板文件实现代码技术方案Java 1.8 + docx4j + Fr

微信公众号脚本-获取热搜自动新建草稿并发布文章

《微信公众号脚本-获取热搜自动新建草稿并发布文章》本来想写一个自动化发布微信公众号的小绿书的脚本,但是微信公众号官网没有小绿书的接口,那就写一个获取热搜微信普通文章的脚本吧,:本文主要介绍微信公众... 目录介绍思路前期准备环境要求获取接口token获取热搜获取热搜数据下载热搜图片给图片加上标题文字上传图片

Java编译生成多个.class文件的原理和作用

《Java编译生成多个.class文件的原理和作用》作为一名经验丰富的开发者,在Java项目中执行编译后,可能会发现一个.java源文件有时会产生多个.class文件,从技术实现层面详细剖析这一现象... 目录一、内部类机制与.class文件生成成员内部类(常规内部类)局部内部类(方法内部类)匿名内部类二、

使用Jackson进行JSON生成与解析的新手指南

《使用Jackson进行JSON生成与解析的新手指南》这篇文章主要为大家详细介绍了如何使用Jackson进行JSON生成与解析处理,文中的示例代码讲解详细,感兴趣的小伙伴可以跟随小编一起学习一下... 目录1. 核心依赖2. 基础用法2.1 对象转 jsON(序列化)2.2 JSON 转对象(反序列化)3.

用js控制视频播放进度基本示例代码

《用js控制视频播放进度基本示例代码》写前端的时候,很多的时候是需要支持要网页视频播放的功能,下面这篇文章主要给大家介绍了关于用js控制视频播放进度的相关资料,文中通过代码介绍的非常详细,需要的朋友可... 目录前言html部分:JavaScript部分:注意:总结前言在javascript中控制视频播放

Python基于wxPython和FFmpeg开发一个视频标签工具

《Python基于wxPython和FFmpeg开发一个视频标签工具》在当今数字媒体时代,视频内容的管理和标记变得越来越重要,无论是研究人员需要对实验视频进行时间点标记,还是个人用户希望对家庭视频进行... 目录引言1. 应用概述2. 技术栈分析2.1 核心库和模块2.2 wxpython作为GUI选择的优

java中使用POI生成Excel并导出过程

《java中使用POI生成Excel并导出过程》:本文主要介绍java中使用POI生成Excel并导出过程,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录需求说明及实现方式需求完成通用代码版本1版本2结果展示type参数为atype参数为b总结注:本文章中代码均为

Java的IO模型、Netty原理解析

《Java的IO模型、Netty原理解析》Java的I/O是以流的方式进行数据输入输出的,Java的类库涉及很多领域的IO内容:标准的输入输出,文件的操作、网络上的数据传输流、字符串流、对象流等,这篇... 目录1.什么是IO2.同步与异步、阻塞与非阻塞3.三种IO模型BIO(blocking I/O)NI

SpringBoot中封装Cors自动配置方式

《SpringBoot中封装Cors自动配置方式》:本文主要介绍SpringBoot中封装Cors自动配置方式,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录SpringBoot封装Cors自动配置背景实现步骤1. 创建 GlobalCorsProperties

在java中如何将inputStream对象转换为File对象(不生成本地文件)

《在java中如何将inputStream对象转换为File对象(不生成本地文件)》:本文主要介绍在java中如何将inputStream对象转换为File对象(不生成本地文件),具有很好的参考价... 目录需求说明问题解决总结需求说明在后端中通过POI生成Excel文件流,将输出流(outputStre