本文主要是介绍浅谈虚拟偶像背后的舞蹈生成,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
本文首发于:行者AI
随着二次元文化的发展,虚拟偶像越发火热。
虚拟偶像技术主要包含歌唱合成和舞蹈生成,即能唱和能跳。
本文针对舞蹈生成,选择发表在ICLR2021的《Dance Revolution: Long Sequence Dance Generation with Music via Curriculum Learning》予以介绍,该论文由复旦大学、微软、美团和Rinna AI合作完成。
1. 舞蹈生成
舞蹈生成(Dance Generation),输入一段音乐序列(往往是音频特征),得到一段同样时长有意义的动作序列,即给音乐配舞蹈。下面将简单介绍音频特征和动作序列。
1.1 音频特征
音频的数据文件,由巨量的采样点组成。1秒钟音频可以达到上万个采样点,给模型训练带来巨大的困难。在实际使用中,音频一般不作为直接的输入输出,而是取音频的特征作为输入输出。
音频的常见特征有:
MFCC
MFCC delta
constant-Q chromagram
tempogram
在实际使用中,不需要详细了解上述音频特征,只需知道上述音频特征将音频的时间序列长度缩小了近百倍。
1.2 动作序列
图1. 动作序列提取图
动作序列是指姿态估计(pose estimation)生成的关于动作的时序数据,每个时间步的数据由关键点组成,用来表征人的肢体动作。如图1,纯色的点组成了当前动作的关键点,其连线能很好表征当前人物的肢体运动。(详情参见https://github.com/CMU-Perceptual-Computing-Lab/openpose)
动作序列可以只提取人物肢体运动,排除人物、背景等干扰音素,提取舞蹈动作,因而用动作序列表示舞蹈。
舞蹈是一种节奏很强的动作,除了上述常见特征
这篇关于浅谈虚拟偶像背后的舞蹈生成的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!