BEAT~~

2023-12-29 17:50
文章标签 beat

本文主要是介绍BEAT~~,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

又一个神器~ 华为东京研究所 - Digital Human Lab 与东京大学等合作进行了研究,提出了目前为止最大规模的数字人多模态数据集

随着元宇宙的火爆以及数字人建模技术的商业化,AI 数字人驱动算法,作为数字人动画技术链的下一关键环节,获得了学界和工业界越来越广泛的兴趣和关注。其中谈话动作生成 (由声音等控制信号生成肢体和手部动作)由于可以降低 VR Chat, 虚拟直播,游戏 NPC 等场景下的驱动成本,在近两年成为研究热点。然而,由于缺乏开源数据,现有的模型往往在由姿态检测算法提供的伪标签数据集或者单个说话人的小规模动捕数据集上进行测试。由于数据量,数据标注的缺乏和数据质量的限制,现有的算法很难生成个性化,高手部质量,情感相关,动作 - 语义相关的动作。

针对上述问题,华为东京研究所 - Digital Human Lab 与东京大学等合作进行了研究,提出了目前为止最大规模的数字人多模态数据集:BEAT (Body-Expression-Audio-Text),由 76 小时动捕设备采集的谈话数据和语义 - 情感标注组成。原始数据包含肢体和手部动捕数据,AR Kit 标准 52 维面部 blendshape 权重,音频与文本,标注数据包含 8 类情感分类标签,以及动作类型分类和语义相关度打分。在 BEAT 的基础上提出的新基线模型 CaMN (Cascade-Motion-Network) 采取级联神经网络结构,由 BEAT 中其余三种模态和标注作为输入,在动作生成任务上显著优于现有 SoTA (state-of-the-art) 算法。论文《BEAT: A Large-Scale Semantic and Emotional Multi-Modal Dataset for Conversational Gestures Synthesis》数据集已经开源。

发表,数据集已经开源。

  • 作者:  Haiyang Liu, Zihao Zhu, Naoya Iwamoto, Yichen Peng, Zhengqing Li, You Zhou, Elif Bozkurt, Bo Zheng. 

  • 单位:Digital Human Lab - 华为东京研究所,东京大学,庆应大学,北陆先端科技大学.  

  • 论文地址:https://www.ecva.net/papers/eccv_2022/papers_ECCV/papers/136670605.pdf

  • 项目主页:https://pantomatrix.github.io/BEAT/

  • 数据集主页:https://pantomatrix.github.io/BEAT-Dataset/

  • 视频结果:https://www.youtube.com/watch?v=F6nXVTUY0KQ

部分渲染后的数据如下(从上到下依次为,生气 - 恐惧 - 惊讶 - 伤心情感下人的动作):


 

渲染结果使用了 HumanGeneratorV3 产生的身体和脸部模型。

BEAT 数据集细节

动作 - 文本语义相关度标注

谈话动作生成领域的关键问题是:如何生成和评估生成的动作和文本在语义上的关联程度。该关联程度很大程度上影响了人对生成动作质量的主观评价。由于缺乏标注,现有的研究往往挑选一系列主观结果用于评估,增加了不确定性。在 BEAT 数据集中,对于动作给出了基于动作类别分类的相关度分数,共分为四类 10 档:beat(1),deictic (2-4), icnoic(5-7),metaphoic(8-10)。该分类参考 McNeill 等人在 1992 年对谈话动作的分类,其中后三类各自存在低 - 中 - 高质量三档。

然而,实际谈话中,与当前文本语义对应的动作可能提前或滞后出现,为了解决这个问题,在标注过程中,标注者判断当前动作所属类别之后:

1. 以动作的开始和结束确定标注范围,保证了动作的完整性。

2. 输入与当前动作最相关的关键字,获取动作和对应文本的准确出现时间。

基于情感的对话

BEAT 数据集要求每个演讲者必须录制 8 种不同情绪下的谈话动作,用于分析动作与情感之间的内在联系。在演讲环节中,自然情绪占比 51%,愤怒、快乐、恐惧、厌恶、悲伤、蔑视和惊讶这七类情绪分别占比 7%。对动作进行聚类的结果证明,动作和情感之间存在相关性,如下图所示。

数据规模及采集细节

BEAT 采用了 ViCon,16 个摄像头的动作捕捉系统来记录演讲和对话数据,最终所有数据以 120FPS, 记载关节点旋转角的表示形式的 bvh 文件发布。对于面部数据,BEAT 采用 Iphone12Pro 录制谈话人的 52 维面部 blendsshape 权重,并不包括每个人的头部模型,推荐使用 Iphone 的中性脸做可视化。BEAT 采用 16KHZ 音频数据,并通过语音识别算法生成文本伪标签,并依此生成具有时间标注的 TextGrid 数据。

BEAT 包含四种语言的数据:英语,中文,西班牙语,日语,数据量分别为 60,12,2,2 小时。由来自 10 个国家的 30 名演讲者进行录制。其中中文,西班牙语,日语的演讲者也同时录制了英语数据,用于分析不同语言下的动作差异。

在演讲部分(数据集的 50%),30 个演讲者被要求读相同的大量文本,每段文本长度约 1 分钟,总计 120 段文本。目的是控制文本内容相同来研究不同演讲者之间的风格差异,来实现个性化的动作生成。谈话部分(50%)演讲者将和导演在给定话题下进行 10 分钟左右的讨论,但为了去除噪声,只有演讲者的数据被记录。

下表还将 BEAT 与现有的数据集进行了比较,绿色高光表示最佳值,可以看出,BEAT 是现阶段包含多模态数据和标注的最大的运动捕捉数据集。 

多模态驱动的动作生成基线模型

BEAT 提出了一个多模态驱动的动作生成基线模型,CaMN(Cascade Montion Network),将音频 - 文本 - 面部数据以及情感,语义标注作为输入,以生成更高质量的谈话动作。网络主干由多个级联编码器和两个级联 LSTM+MLP 解码器组成,生成躯体和手部动作,数据被降频到 15FPS,单词句子被插入填充标记以对应音频的沉默时间。具体的网络结构如下图所示。

文本、语音和 Speaker-ID 编码器的网络选择是基于现有研究,并针对 BEAT 数据集在结构上进行了修改。对于面部 blendshape weight 数据,采用了基于残差网络的一维 TCN 结构。最终网络的损失函数来自语义标注权重和动作重建损失的组合: 

其中针对不同演讲者的数据,网络也采取了不同的对抗损失来辅助提升生成动作的多样性。 

实验结果

研究者首先验证了一个新的评价指标 SRGR,然后基于主观实验验证了 BEAT 的数据质量,并将提出的模型与现有的方法进行了比较。

SRGR 的有效性

为了验证 SRGR 的有效性,研究者将动作序列被随机切割成 40 秒左右的片段,要求参与者根据动作的正确性,多样性和吸引力对每个片段进行评分。最终共有 160 人参与评分,平均每个人对 15 个随机的手势片段打分。图表显示,与 L1 多样性相比,SRGR 在评估手势多样性方面与人类感官更为相似。

数据质量

为了评估 BEAT 这一新型数据集的质量,研究者使用了现有研究中广泛使用的动捕数据集 Trinity 作为对比目标。每个数据集被分成 19:2:2 的比例,分别作为训练 / 验证 / 测试数据,并使用现有方法 S2G 和 audio2gestures 进行比较。评估主要针对不同数据集训练结果的正确性(身体动作的准确性)、手部正确性(手部动作的准确性)、多样性(动作的多样性)和同步性(动作和语音的同步性)。结果见下表。

表中显示,BEAT 在各方面的主管评分都很高,表明这个数据集远远优于 Trinity。同时在数据质量上也超过了现有的视频数据集 S2G-3D。             whaosoft aiot http://143ai.com

对 Baseline 模型的评价

为了验证本文提出的模型 CaMN 的性能,在以下条件下与现有方法 Seq2Seq,S2G,A2G 和 MultiContext 进行了比较验证。一些实验的细节如下:

  • 使用数据集中四名演讲者的数据进行 15 小时的训练,选取不同模型在验证集上最优的权重在测试集上测试。

  • FGD 被采用为评价指标,因为已被证明 L1 损失不适合于评价生成动作的性能。

  • 为了评估手势的多样性和与语音的同步性,研究者采用了本文提出的 SRGR 和舞蹈动作生成中常用的指数 BeatAlign。

验证结果如下表所示,CaMN 在所有评价指标上得分最高。 

下面是一个由 CaMN 生成的手势的例子。

图中展示了一个真实数据样本(上)和一个 CaMN 生成的动作(下),生成的动作具备语义相关性。

总结

本文研究者提出大规模的多模态数字人驱动数据集 BEAT,用于生成更生动的谈话动作。该数据集还可应用于数字人驱动的其他领域,如 LipSync,表情识别,语音风格转换等等。

这篇关于BEAT~~的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/550215

相关文章

开发版本分类(beat、standard、professiona..)详解

1版本分类         一般只在软件开发公司内部运行,不对外公开。主要是开发者自己对产品进行测试,检查产品是否存在缺陷、错误,验证产品功能与说明书、用户手册是否一致。Alpha版本的产品仍然需要完整的功能测试,而其功能亦未完善,但是可以满足一般需求。因为它是整个软件释出周期中的第一个主要阶段,所以它的名称是“Alpha”,希腊字母中的第一个字母。   α(Alpha) 此版本表示该 软件仅仅

django-celery-beat自动调度异步任务

Celery是一个简单、灵活且可靠的分布式系统,专门用于处理大量消息的实时任务调度。它支持使用任务队列的方式在分布的机器、进程、线程上执行任务调度。Celery不仅支持异步任务(如发送邮件、文件上传、图像处理等耗时操作),还支持定时任务,即需要在特定时间执行的任务。Celery本身不提供消息服务,需要借助RabbitMQ、Redis等消息中间件,本案例使用的是Redis。

[Classifier-Guided] Diffusion Models Beat GANs on Image Synthesis

1、介绍         针对diffusion models不如GAN的原因进行改进:         1)充分探索网络结构         2)在diversity和fidelity之间进行trade off 2、改进         1)在采样步数更少的情况下,方差设置为固定值并非最优。需要将表示为网络预测的v                         ​​​​​​​

P - Beat

题目分析          1.看数据范围,大概知道dfs能做         2.自0问题开始查找,确保之后每次查找到的问题的困难度均大于上一次         3.遍历所有情况再记录cnt即可 代码 #include <iostream>#include <algorithm>#include <cstdio>#include <cstring>using nam

读论文有感:A Sample But Tough-To-Beat Baseline For Sentence Embedding

该算法有着一定的意义,即通过分析,对Word Embeddings进行加权平均,得到比单纯平均或以TF-IDF为权值的平均向量更好的结果,因计算简单,如作者所述,作为一个更好的Baseline是很好的选择 不过该论文的一些说法有点言过其实,甚至进行了一点小tricks,比如说比supervised 的LSTM有着更好的效果这一说法,有着一定的争议,因为Sentence Embedding实则也是

UVa 10812 Beat the Spread! (陷阱)

10812 - Beat the Spread! Time limit: 3.000 seconds  http://uva.onlinejudge.org/index.php?option=com_onlinejudge&Itemid=8&category=24&page=show_problem&problem=1753 蛋碎了,被水题坑到了。。 完整代码: /*0.

leetcode 87 Scramble String(c++,beat 80%~100%)

题解 符号: S_(i-j):表示字符串s下标从i到j的字串。 思路 其实没什么规律,就是暴力枚举交换轴,然后每次有交换与不交换两种情况,递归判断是否可行。唯一剪枝就是假如S1_(i,j)=S2_(k,l),则他们所包含的字母的集合是相同的,如果不同,则不用再继续递归下去。 代码 class Solution {public:int *sum1,*sum2;bool dfs(int l1

论文A simple but tough-to-beat baseline for sentence embedding

转载自https://blog.csdn.net/sinat_31188625/article/details/72677088 论文原文:A simple but tough-to-beat baseline for sentence embedding 引言 在神经网络泛滥的时候,这篇文章像一股清流,提出了一个无监督的句子建模方法,并且给出了该方法的一些理论解释。通过该方法得到的句子向量

DETRs Beat YOLOs on Real-time Object Detection论文详解

论文题目:DETRs Beat YOLOs on Real-time Object Detection 论文地址:https://arxiv.org/abs/2304.08069 论文代码:mirrors / facebookresearch / ConvNeXt · GitCode 等我毕业再打败吧,别打败YOLO,广大研究生们不同意 1. 摘要         最近,基于端到端Tr

How to beat the CAP theorem

http://nathanmarz.com/blog/how-to-beat-the-cap-theorem.html http://kb.cnblogs.com/page/124567/   面对大数据, 提出一种不同的思路 传统的方法在保证可用性的前提下, 必须用很复杂的逻辑来保证数据的最终一致性, 比如Dynamo的方案, 矢量时钟(vector clock)记录数据的版本历史合并...