【数字人】11、DERAM-TALK | 使用扩散模型实现 audio+单张图的带表情驱动(字节跳动)

本文主要是介绍【数字人】11、DERAM-TALK | 使用扩散模型实现 audio+单张图的带表情驱动(字节跳动),希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

在这里插入图片描述

论文:DREAM-Talk: Diffusion-based Realistic Emotional Audio-driven Method for Single Image Talking Face Generation

项目:https://magic-research.github.io/dream-talk/

代码:暂无

出处:字节

时间:2023.12

效果:

  • 使用扩散模型实现可以控制表情的数字人生成,使用语音即可驱动单张图,看放出来的 demo 的话,生成视频基本没有抖动,牙齿补全的很好(虽然有时候同一视频不同帧的牙齿形状有变化,但已经算是很厉害了)

贡献:

  • 一个创新的两阶段生成框架 DREAMTalk,它能够生成表情丰富并且嘴唇动作与音频同步的说话面部动画。
  • 一个扩散模块 EmoDiff,它能够根据音频和参考的情感风格,生成多样的、动态性高的情感表达和头部姿势。
  • 一个情感 ARKit 数据集,它精确地隔离了嘴部参数与其他面部属性,非常适合用于嘴唇动作精细化的任务。

一、背景

虽然现在有很多方法借助 emotional 标注数据集(如 MEAD)来进行带表情的说话头的生成,但生成的表情不是很自然,作者认为其主要的挑战如下:

  • 第一:难以同时实现准确的表情和准确的嘴唇形状。

    MEAD 这种数据集中的表情主要集中在眉毛、眨眼、嘴型,但整个视频很短,所以很难提取声音和嘴唇的关系来得到一个很准确的 lip-sync 模型。

    所以,SPACE[10] 使用两个无表情的数据集 VoxCeleb2 [5] and RAVDESS [20] 和 MEAD 一起训练模型。但是,将带表情的数据和不带表情的数据一起训练,可能会产生合成的表情,无法达到期望。

    EAMM 使用了两个模型来克服上述问题,第一个模型主要是学习与表情无关的 audio-driven face 合成,第二个模型主要是捕捉表情变化。

  • 第二:模拟情感表达的微妙之处和变化是具有挑战性的。

    情感表达涉及激活众多面部肌肉,并且在整个演讲过程中表现出显著的多样性。

    现有方法,如 SPACE、EAMM、Styletalk,通常使用 LSTM 或 CNN 网络作为生成器,将音频转换为面部表征。虽然这些模型足以捕捉普通话语中嘴部和嘴唇的运动,但很难真实的描绘情感表达的细微差别和变化方面面临挑战。因此,生成的情感描绘往往显得平淡且不真实。

为了克服这两个困难,作者提出了 DERAM-TALK,设计了一个两阶段方法,能够同时实现表情真实且嘴唇合成准确

  • 第一阶段:EmoDiff Module,捕捉动态且自然的面部表情。作者设计了一个 emotion-conditioned diffusion model 来将 input audio 转化成面部表情
  • 第二阶段:Lip Refinement,主要是保证嘴唇和语音的同步性。这是一个特殊的网络系统,这个系统会根据音频信号和特定的情感风格重新优化嘴部的动作参数。与传统的面部模型不同,传统模型通常将嘴巴的动作参数和其他面部表情参数混合在一起,使用3D ARKit模型能够让我们明确地只优化嘴唇的动作。这样做可以确保其他面部表情的强度不会受到影响。我们在嘴唇精细化网络中做出的这个设计选择,保证了在提高嘴唇同步性的同时,不会牺牲情感的表达力。这提供了一种更有针对性、更有效的方法,用于创建富有情感的面部动画。

DREAMTalk 技术通过一个两阶段过程,有效地解决了以前提到的挑战,能够同时生成表情丰富并且嘴唇动作精确同步的说话面部动画。

此外,本文的扩散模型精巧地捕捉了面部的高频细节,而嘴唇精细化处理进一步提高了嘴部动作的精确度。

在这里插入图片描述

二、方法

相比于 2D landmark,3D landmark 的建模方法抗形变性和保真性更好

传统的 3D model,如 3D Morphable Models (3DMM) 或 FLAME,主要是使用 PCA 来提取主要特征,虽然这些参数提供了对一般面部外观的控制,但它们在隔离特定面部属性方面表现不足,比如眨眼或嘴唇的动作。

由于目标是在保持其他面部特征表现力的同时增强口部区域,所以作者选择使用 ARKit blendshapes。该方法将与口部相关的参数与其他面部元素分开,从而实现针对性优化。

ARKit 面部模型包含 52 个不同的参数,每个参数代表独特的面部特征。它利用基于面部动作编码系统(FACS)的混合形状,允许每个面部表情独立激活特定的面部区域(例如,口部区域、眼睛、眉毛),并且与人类面部解剖结构一致。这种方法为各种面部属性的精确控制和优化提供了可能,使其特别适合专门优化需求。

然后,作者对 MEAD 情绪数据集中的每一帧进行了全面分析,从而提取出相应的 ARKit 参数。这个过程也创建了一个 ARKit定制的面部数据集,这个数据集与MEAD数据集的情绪细微差别保持一致。

2.1 EmoDiff Module

EmoDiff Module 的目标是从 audio 中生成 3D emotional expressions,但是从 audio 到 expression 其实是一对多的问题,很难很好的映射,而且映射后的 3D 参数的一致性和多样性很难平衡

作者设计了一个以声音为条件的扩散模型,使用的是 DDPM 坐骑扩散模型

在这里插入图片描述

2.2 Lip Refinement

在从扩散模型获取表示为 x0 的动态情绪表达后,观察到了一个意外的后果,即扩散网络无意中减少了音频的影响,导致音频和口型之间出现了明显的不一致。

这种现象很可能归因于扩散网络生成现实序列的固有倾向,这反过来又减少了音频的影响。

为了解决这个问题,作者引入了一个唇同步细化网络,该网络使用相同的音频和情绪数据来重新校准并生成细化的口部参数。

唇同步网络结合了 LSTM 结构作为音频编码器和 CNN 结构作为情绪编码器。这种设计有效地生成了与输入音频和情绪参考风格紧密对齐的与口部相关的参数。

之后,使用这些细化的面部参数和生成的头部姿势来动画化一个 3D blend shape rig I t I_t It。随后使用 video-to-video 的方法为任意角色生成说话面部视频。消融研究表明,在实施唇部细化后,口部动作和音频之间的同步有了显著的改进。

2.3 Face Neural Rendering

使用 GPU 渲染器获取合成图像之后,作者采用的是运动转移技术来实现不同主体的真实说话头部效果,即 Face-Vid2Vid方法[34] 作为基础的神经渲染管线 R。

此外,为了提高清晰度,作者使用精心挑选的高分辨率表情丰富的说话视频数据集 TalkHead1HK [34]对模型进行了微调,能够提高表情的丰富性和渲染质量。

除了微调,作者还使用文献[1]中概述的面部超分辨率方法将最终图像分辨率提升到 512x512。

为了确保整个过程中有效地保留身份,还使用了 Siarohin等人[25]开发的 FOMM 进行神经运动转移。首先渲染一个带有神经表情的参考帧 I n I_n In,然后将相对运动 M I n → I t M_{I_n→I_t} MInIt(即说话帧与神经帧之间的变换)应用到源图像 T 上,最终得到了渲染输出 R ( T , M I n → I t ) R(T, M_{I_n→I_t}) R(T,MInIt)

  • Reference Frame (参考帧) I n I_n In:

    这是一个带有神经表达的渲染帧,可以理解为一个基准图像,它包含了某个时刻的面部表情或者姿态。

  • Relative Motion (相对运动) M I n → I t M_{I_n→I_t} MInIt:

    这代表了从一个说话的帧(talking frame)到神经帧(neural frame)之间的变化或转换。简言之,它是一个描述如何从参考帧 I n I_n In 移动到另一个特定帧 I t I_t It 的运动信息。

  • Source Image (源图像) T:

这是要被转换表情或动作的原始图像,可以理解为目标人物的静态图像。

  • Ultimate Rendered Outputs (最终渲染输出) R ( T , M I n → I t ) R(T, M_{I_n→I_t}) R(T,MInIt):

这是最终的输出结果,它通过将相对运动应用于源图像T来生成。换句话说,它是源图像T在经过参考帧In的表情或动作变化后的最终渲染图像。

在实际应用中,这种技术可以用于视频合成、游戏角色动作生成、虚拟现实等领域。例如,可以将一个人的表情实时映射到虚拟角色上,使得虚拟角色能够模仿真人的表情和动作。这种技术的关键之处在于它能够相对于一个参考帧捕捉和转移运动,而不是简单地复制绝对运动,这样可以更自然地保持源图像的身份特征。

三、效果

3.1 数据集

作者将数据集都处理为 25FPS,训练使用:

  • MEAD
  • HDTF

3.2 和 SOTA 的对比

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

这篇关于【数字人】11、DERAM-TALK | 使用扩散模型实现 audio+单张图的带表情驱动(字节跳动)的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/637301

相关文章

大模型研发全揭秘:客服工单数据标注的完整攻略

在人工智能(AI)领域,数据标注是模型训练过程中至关重要的一步。无论你是新手还是有经验的从业者,掌握数据标注的技术细节和常见问题的解决方案都能为你的AI项目增添不少价值。在电信运营商的客服系统中,工单数据是客户问题和解决方案的重要记录。通过对这些工单数据进行有效标注,不仅能够帮助提升客服自动化系统的智能化水平,还能优化客户服务流程,提高客户满意度。本文将详细介绍如何在电信运营商客服工单的背景下进行

中文分词jieba库的使用与实景应用(一)

知识星球:https://articles.zsxq.com/id_fxvgc803qmr2.html 目录 一.定义: 精确模式(默认模式): 全模式: 搜索引擎模式: paddle 模式(基于深度学习的分词模式): 二 自定义词典 三.文本解析   调整词出现的频率 四. 关键词提取 A. 基于TF-IDF算法的关键词提取 B. 基于TextRank算法的关键词提取

使用SecondaryNameNode恢复NameNode的数据

1)需求: NameNode进程挂了并且存储的数据也丢失了,如何恢复NameNode 此种方式恢复的数据可能存在小部分数据的丢失。 2)故障模拟 (1)kill -9 NameNode进程 [lytfly@hadoop102 current]$ kill -9 19886 (2)删除NameNode存储的数据(/opt/module/hadoop-3.1.4/data/tmp/dfs/na

Hadoop数据压缩使用介绍

一、压缩原则 (1)运算密集型的Job,少用压缩 (2)IO密集型的Job,多用压缩 二、压缩算法比较 三、压缩位置选择 四、压缩参数配置 1)为了支持多种压缩/解压缩算法,Hadoop引入了编码/解码器 2)要在Hadoop中启用压缩,可以配置如下参数

Makefile简明使用教程

文章目录 规则makefile文件的基本语法:加在命令前的特殊符号:.PHONY伪目标: Makefilev1 直观写法v2 加上中间过程v3 伪目标v4 变量 make 选项-f-n-C Make 是一种流行的构建工具,常用于将源代码转换成可执行文件或者其他形式的输出文件(如库文件、文档等)。Make 可以自动化地执行编译、链接等一系列操作。 规则 makefile文件

从去中心化到智能化:Web3如何与AI共同塑造数字生态

在数字时代的演进中,Web3和人工智能(AI)正成为塑造未来互联网的两大核心力量。Web3的去中心化理念与AI的智能化技术,正相互交织,共同推动数字生态的变革。本文将探讨Web3与AI的融合如何改变数字世界,并展望这一新兴组合如何重塑我们的在线体验。 Web3的去中心化愿景 Web3代表了互联网的第三代发展,它基于去中心化的区块链技术,旨在创建一个开放、透明且用户主导的数字生态。不同于传统

字节面试 | 如何测试RocketMQ、RocketMQ?

字节面试:RocketMQ是怎么测试的呢? 答: 首先保证消息的消费正确、设计逆向用例,在验证消息内容为空等情况时的消费正确性; 推送大批量MQ,通过Admin控制台查看MQ消费的情况,是否出现消费假死、TPS是否正常等等问题。(上述都是临场发挥,但是RocketMQ真正的测试点,还真的需要探讨) 01 先了解RocketMQ 作为测试也是要简单了解RocketMQ。简单来说,就是一个分

hdu1043(八数码问题,广搜 + hash(实现状态压缩) )

利用康拓展开将一个排列映射成一个自然数,然后就变成了普通的广搜题。 #include<iostream>#include<algorithm>#include<string>#include<stack>#include<queue>#include<map>#include<stdio.h>#include<stdlib.h>#include<ctype.h>#inclu

使用opencv优化图片(画面变清晰)

文章目录 需求影响照片清晰度的因素 实现降噪测试代码 锐化空间锐化Unsharp Masking频率域锐化对比测试 对比度增强常用算法对比测试 需求 对图像进行优化,使其看起来更清晰,同时保持尺寸不变,通常涉及到图像处理技术如锐化、降噪、对比度增强等 影响照片清晰度的因素 影响照片清晰度的因素有很多,主要可以从以下几个方面来分析 1. 拍摄设备 相机传感器:相机传

Andrej Karpathy最新采访:认知核心模型10亿参数就够了,AI会打破教育不公的僵局

夕小瑶科技说 原创  作者 | 海野 AI圈子的红人,AI大神Andrej Karpathy,曾是OpenAI联合创始人之一,特斯拉AI总监。上一次的动态是官宣创办一家名为 Eureka Labs 的人工智能+教育公司 ,宣布将长期致力于AI原生教育。 近日,Andrej Karpathy接受了No Priors(投资博客)的采访,与硅谷知名投资人 Sara Guo 和 Elad G