Identity-Preserving Talking Face Generation with Landmark and Appearance Priors

本文主要是介绍Identity-Preserving Talking Face Generation with Landmark and Appearance Priors,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

主要问题:1)模型如何生成具有与输入音频一致的面部运动(特别是嘴部和下颌运动)的视频?2)模型如何在保留身份信息的同时生成视觉上逼真的帧?
摘要:
从音频生成说话脸部视频引起了广泛的研究兴趣。一些特定个人的方法可以生成生动的视频,但需要使用目标说话者的视频进行训练或微调。现有的通用方法在生成逼真和与嘴唇同步的视频同时保留身份信息方面存在困难。为了解决这个问题,我们提出了一个两阶段的框架,包括从音频到关键点的生成和从关键点到视频的渲染过程。首先,我们设计了一种基于Transformer的全新关键点生成器,用于从音频中推断出嘴唇和下颌的关键点。说话者面部的先前关键点特征被用来使生成的关键点与说话者的面部轮廓相吻合。然后,我们构建了一个视频渲染模型,将生成的关键点转化为面部图像。在这个阶段,我们从目标脸的下半部和静态参考图像中提取先前的外观信息,有助于生成逼真且保持身份信息的视觉内容。为了更有效地探索静态参考图像的先前信息,我们根据运动场将静态参考图像与目标脸的姿态和表情进行对齐。此外,我们重新使用音频特征以确保生成的面部图像与音频很好地同步。

  1. Introduction:
    音频驱动的说话脸部视频生成在许多应用中具有价值,如视觉配音,数字助理和动画电影。基于训练范例和数据需求,说话脸部生成方法通常可以分为特定个人和通用个人两种类型。特定个人的方法可以生成照片般逼真的说话脸部视频,但需要使用目标说话者的视频进行重新训练或微调,而这在某些真实场景中可能无法实现。因此,在这个领域中,学习生成通用个人的说话脸部视频是一个更为重要且具有挑战性的问题。这个主题也吸引了很多研究关注。在这篇论文中,我们专注于通过在音频数据和多个参考图像的指导下完成说话者原始视频的下半部分来解决通用个人说话脸部视频生成的问题。主要挑战包括两个方面:1)模型如何生成具有面部运动的视频,特别是与输入音频一致的口部和下颌运动?2)模型如何在保留身份信息的同时生成视觉逼真的帧?为了解决第一个问题,许多方法在生成通用个人说话脸部视频时利用面部关键点作为中间表示。
    由于输入的音频和中间的关键点没有固有的视觉内容信息,因此在保留身份信息的同时,从音频和中间关键点产生逼真的面部视频是非常具有挑战性的。

    我们使用来自上半部脸的姿势先验关键点和来自静态面部图像提取的参考关键点作为音频到关键点生成器的额外输入。对两种关键的的使用有助于防止生成器产生偏离说话者面部轮廓的结果。然后,我们基于多头自注意力模块构建了生成器的网络架构。与简单的串联或加法操作相比,我们的设计在捕获语音单元和关键点之间的关系方面更有优势 。此外,多个静态人脸图像被用来提取先前的外观信息,以生成真实且保留身份的人脸帧。
    我们使用基于运动场的对齐模块和面部图像翻译模块建立了关键点到视频渲染网络。对齐模块:将静态参考图像与由关键点生成器生成的关键点结果提供的面部姿势和表情进行对齐。具体实现方法:首先,针对每个静态参考图像,推断出该图像的运动场,即描述图像中不同区域运动情况的信息。然后,利用推断得到的运动场,对该图像以及图像的特征进行变换或扭曲,使其与由关键点生成器生成的面部姿势和表情一致。这样可以确保最终生成的面部图像与静态参考图像在姿势和表情上保持一致,产生逼真的结果。

    面部图像翻译模块通过整合来自推断的关键点、被遮挡的原始图像、对齐的参考图像和音频的多源特征来生成最终的面部图像。

方法:
给定音频序列和初始输入视频,我们的目标是通过以逐帧方式完善输入视频的下半部分遮挡的脸部,生成一个与音频同步的说话人面部视频。我们的方法概述如图2所示。
在这里插入图片描述
**音频到关键点生成阶段(Audio-To-Landmark Generation):左侧橙色部分。基于Transformer的关键点生成器以音频、参考关键点和姿势先验关键点为输入,预测嘴唇和下颌的关键点,然后与姿势先验关键点结合构建目标草图。为简单起见,省略了位置编码和模态编码。
关键点到视频渲染阶段(Landmark-To-Video Rendering):右侧蓝色部分。根据目标草图,对齐模块以多个参考图像及其草图作为输入,获取运动场,将参考图像及其特征扭曲到目标头部姿势和表情。借助音频特征、扭曲后的图像和特征,翻译模块将连接了下半部遮蔽目标脸的目标草图转化为最终的面部图像。
Overview of our framework. It can be divided into two stages: (1) Audio-To-Landmark Generation (left orange part). The
transformer-base landmark generator takes the audio, reference landmarks, and pose prior landmarks as input to predict the landmarks
of lip and jaw, which are then combined with pose prior landmarks to construct the target sketches. Positional encodings and modality
encodings are omitted for simplicity. (2) Landmark-To-Video Rendering (right blue part). According to target sketches, the alignment
module takes multiple reference images and their sketches as input to obtain the motion fields, which warp the reference images and their
features to target head pose and expression. With the assistance of audio features and warped images and features, the translation module
translates the target sketches concatenated with the lower-half masked target face to the resulted face image.

**

我们的框架由两个阶段组成。第一阶段将音频信号和说话者面部的先验关键点作为输入以预测嘴唇和下巴的界标。第二阶段由对齐模块和翻译模块组成。基于运动场,对齐模块将参考图像及其特征与目标脸部姿势和表情进行配准。翻译模块在音频特征的指导下,以及来自被遮挡的目标脸部和已配准的参考图像的先验外观信息的指导下,从关键点合成完整的面部图像。基于运动场,对齐模块将参考图像及其特征与目标脸部姿势和表情进行配准。翻译模块在音频特征的指导下,以及来自被遮挡的目标脸部和已配准的参考图像的先前外观信息的指导下,从关键点合成完整的面部图像。

3.1. Audio-To-Landmark Generation
在这个阶段,网络的目标是一次生成 T = 5 T = 5 T=5 个相邻帧的嘴唇 { l ^ l t ∈ R 2 × n l } t = 1 T \{\hat{l}_{lt} \in \mathbb{R}^{2 \times nl}\}_{t=1}^T {l^ltR2×nl}t=1T 和下颌 { j ^ l t ∈ R 2

这篇关于Identity-Preserving Talking Face Generation with Landmark and Appearance Priors的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/249755

相关文章

LLVM入门2:如何基于自己的代码生成IR-LLVM IR code generation实例介绍

概述 本节将通过一个简单的例子来介绍如何生成llvm IR,以Kaleidoscope IR中的例子为例,我们基于LLVM接口构建一个简单的编译器,实现简单的语句解析并转化为LLVM IR,生成对应的LLVM IR部分,代码如下,文件名为toy.cpp,先给出代码,后面会详细介绍每一步分代码: #include "llvm/ADT/APFloat.h"#include "llvm/ADT/S

Python安装llama库出错“metadata-generation-failed”

Python安装llama库出错“metadata-generation-failed” 1. 安装llama库时出错2. 定位问题1. 去官网下载llama包 2.修改配置文件2.1 解压文件2.2 修改配置文件 3. 本地安装文件 1. 安装llama库时出错 2. 定位问题 根据查到的资料,发现时llama包中的execfile函数已经被下线了,需要我们手动修改代码后

Show,Attend and Tell: Neural Image Caption Generation with Visual Attention

简单的翻译阅读了一下 Abstract 受机器翻译和对象检测领域最新工作的启发,我们引入了一种基于注意力的模型,该模型可以自动学习描述图像的内容。我们描述了如何使用标准的反向传播技术,以确定性的方式训练模型,并通过最大化变分下界随机地训练模型。我们还通过可视化展示了模型如何能够自动学习将注视固定在显着对象上,同时在输出序列中生成相应的单词。我们通过三个基准数据集(Flickr9k,Flickr

深入RAG优化:BGE词嵌入全解析与Landmark Embedding新突破

前面已经写过一篇关于Embedding选型的文章,《如何高效选择RAG的中文Embedding模型?揭秘最佳实践与关键标准!》,主要介绍通过开源网站的下载量和测评效果选择Embedding模型。 一、Embedding选型建议与结果 选型建议: 1、大部分模型的序列长度是 512 tokens。8192 可尝试 tao-8k,1024 可尝试 stella。 2、在专业数据领域上,嵌入

Hugging Face Offline Mode 离线模式

Hugging Face Offline Mode 离线模式 1. 缓存管理2. 遥测日志 在使用 Hugging Face 的库时,缓存和遥测日志是两个重要的功能。本文将介绍如何管理缓存、启用离线模式以及如何关闭遥测日志。 1. 缓存管理 在使用 Hugging Face 模型时,权重和文件通常会从 Hub 下载并存储在默认的缓存目录中,这个目录通常位于用户的主目录。如果

人脸识别开源项目之-face_recognition

特性 从图片里找到人脸 定位图片中的所有人脸: import face_recognitionimage = face_recognition.load_image_file("your_file.jpg")face_locations = face_recognition.face_locations(image) 识别人脸关键点 识别人脸关键点,包括眼睛、鼻子、嘴和下巴。

PostgreSQL 报错 because it does not have a replica identity and publishes updates

(update,delete触发,insert不触发)because it does not have a replica identity and publishes updates Hint: To enable updating from the table, set REPLICA IDENTITY using ALTER TABLE 如果相关表涉及了逻辑复制,且对应表没有主键,则需要

Face Recognition简记1-A Performance Comparison of Loss Functions for Deep Face Recognition

创新点 1.各种loss的比较 总结 很久没见到这么专业的比较了,好高兴。 好像印证了一句话,没有免费的午餐。。。。 ArcFace 和 Angular Margin Softmax是性能比较突出的

Detection简记2-DAFE-FD: Density Aware Feature Enrichment for Face Detection

创新点 1.使用密度估计模型增强检测中的特征图 总结 整个流程还是很清晰的。 conv1-3的特征图经过密度估计模块由检测器D1进行检测。 D2-4分别是四个检测器。 FFM是特征融合模块,将不同层不同大小的特征融合。 FFM网络结构如下: 首先使用1X1的卷积减少两组特征的厚度到128,然后使用双线性插值统一两组特征图的尺寸,然后相加。类似于cvpr2017的SSH。 多尺度检测器的网

VideoCrafter1:Open Diffusion models for high-quality video generation

https://zhuanlan.zhihu.com/p/677918122https://zhuanlan.zhihu.com/p/677918122 视频生成无论是文生视频,还是图生视频,图生视频这块普遍的操作还是将图片作为一个模态crossattention进unet进行去噪,这一步是需要训练的,svd除此之外,还将图片和noise做拼接,这一步,很多文生视频的方式通过通过这一步来扩展其成