本文主要是介绍music to dance系列论文之DanceIt: Music-Inspired Dancing Video Synthesis,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
摘要
1)为了探索音乐和舞蹈运动之间的关系,本文提出一个跨模态对齐模块,来判断姿势序列的视觉特征和音乐的声学特征之间的一致性。
2)在想象模块中使用学习到的跨模态对齐模型,为给定音乐片段选择对应的姿势序列。
3)为了解决姿势序列之间的不连贯问题,提出了时空对齐模块,并开发了一种基于舞蹈运动趋势和周期性的空间对齐算法来预测不连续片段之间的舞蹈运动。
4)为了解决所选姿势序列与音乐节拍错位的问题,提出了时间对齐模块,并开发了时间对齐算法来对齐音乐和舞蹈的节奏。
介绍
要生成的舞蹈序列和音乐音频实质上是两种不同的媒体模式,从一种模式生成另一种模式并不是一对一的映射问题。因此需要解决两个主要问题:1)如何生成音乐节拍对应的舞蹈片段 2)如何使得生成的视频序列更为生动。
现存的相关工作弊端是学习了一对一映射,会导致网络训练中的拟合,本文提出通过建立不同模态之间的对应关系,而不是估计与每个音乐节拍对齐的特定姿态来解决此问题。第一步,通过deep metric learning方法来学习音乐和运动模态间的对应关系;第二步,提出将不同的片段与音乐节拍对齐并细化片段间的过渡,使生成的视频自然生动。
具体为,给定一个输入音乐片段,跨模态对齐模块的目的是找到音频片段和姿态片段之间的关联关系。输入音乐片段首先通过声音编码器转换到低维特征空间,姿态骨骼则是通过图卷积网络进行编码,将两种不同模式的姿态和音频特征嵌入到一个统一的空间中,然后通过最小化特征距离来学习它们之间的相关性。
基于学习得到的关联性,在生成阶段,通过检索每个音频片段的最佳匹配的姿态片段,并将它们连接为一个完整的姿态序列实现舞蹈序列的生成。为了解决生成舞蹈片段的不连续性、节拍错位这两个问题问题,提出了细化姿态序列的时空对齐模块。在空间域内,首先检测姿态序列的突然变化,再通过时间序列分解(TSD)对其进行细化。在时间域内,提取音乐节拍作为关键线索,并强制执行与所提取的节拍相匹配的局部最大姿态运动。
相关工作
姿态估计
动作预测
动作识别
图像合成
多模态学习
数据集
数据收集
为了从相应的视频中获得舞蹈片段,文本首先收集了真实场景中的舞蹈视频,其中可以同时获得舞蹈和声音。
1)声音处理:利用MFCC算法将频率信号转换为低维向量,选择41.66ms为采样窗口,得到的音频特征为13维。
2)姿态提取:利用OpenPose算法从收集到的舞蹈视频中获得人体关键点。为了平滑姿态序列并过滤外线,本文提出在不同的姿态帧之间进行简单的线性插值。再通过两条规则自动删除不完整的检测 1)比如两帧间的姿态距离相隔太远 2)手部和脚部节点未被检测到。在对异常数据进行过滤后,将视频片段分割为具有不重叠滑动窗口的片段,1s-4s,以构建序列数据库。
数据统计
122个女性视频和32个男性视频,包括ACGN、robot和hip-hop。一共706463帧。
方法
概况
给定输入声音片段和原视频片段,本文提出的生成框架的目标是以姿态特征为中介,学习生成目标视频片段。
在源域中, x i s = ( v i s , a i s , p i s ) x_{i}^s=(v_{i}^s, a_{i}^s, p_{i}^s) xis=(vis,ais,pis),是视频、音频、姿态帧的三元组,目标域三元组同样以此定义。通过分割源域和目标域,本文的框架分为两个阶段,匹配阶段(matching phrase)和生成阶段(generation phrase)。
在匹配阶段,本文以 x s x^s xs为输入,正则化跨模态对齐来学习姿态和音乐之间的对应关系。本文通过测量音频和姿态序列之间的距离来简介测量音频和姿态序列之间的距离。此目标函数使来自同一帧的声音和视频距离较近,反之亦然。
基于学习到的视频和音频关系,生成阶段以目标域的音频为输入,从构建的序列数据集检索距离最近的姿态序列, θ c \theta_c θc是模型参数:
检索到的姿态序列通常是碎片化的,导致产生的舞蹈动作不自然。因此,我们提出了一个时空对齐模块,它从两个不同的方面细化了动作序列,在空间域内,检测相邻帧之间的突然变化,并通过插值操作来平滑结果;在时间域内,本文通过将音乐节拍与身体运动对应,使舞者有节奏的跳舞。
在对齐模块之后,将姿态序列和目标视频片段一起进行编码,生成真实的舞蹈动作,通过对抗训练进行监督。
跨模态对齐模块
采用音频编码器和姿态编码器将不同的模态嵌入到相同的潜在空间,并使用度量学习优化来学习这种相关性。
1)音频编码器
利用双向LSTM模型以及一个全连接层来提取音频特征,通过双向信息流,本文编码器可以提取正向和反向的信息,从音频中聚合更丰富的特征。
2)姿态编码器
为了提取长时段帧的上下文信息,生成的姿态帧序列输入到图编码器中。本文利用ST-GCN来应用不同姿态骨骼之间的关系,从而形成了对每个姿势片段的整体理解。图编码器提取姿态在二维卷积核上的时间信息,并利用图卷积核提取空间信息。
音乐和姿态输入都被编码至16维特征。
在获得音乐和相应的舞蹈特征后,本文利用欧式距离计算相似度,提出一种相关匹配损失来正则化特征的相似度。基于这个损失,属于相同序列的音频特征和姿态特征距离会更近。
为了防止过拟合,本文在训练数据中添加了一个非对应情况(上式第二项),其中姿态片段比MFCC音频特征延迟了几秒钟。
时空对齐模块
1)spatial alignment
虽然检索到的姿态片段产生可靠的运动,但考虑到在数据库构建中片段进行离散采样,不同的姿态片段之间产生严重的错位。
step1:检测检索到的姿态序列中的不连续帧,其骨架与前一帧发生明显抖动。此处不连续帧是指关键点运动大于10个像素的不连续帧,然后提出利用一个平滑的运动函数完善这些不连续帧。
检测到异常帧后,以异常帧为窗口中心,取其前后各 w α / 2 w_{\alpha}/2 wα/2帧形成Time Series Decomposition(TSD)算法。对于已定义的滑动窗口,需要保证起点和重点的位置不变,以及整体细化的连续性。
step2:提出一个线性拟合操作 R = F ( p ) R=F(p) R=F(p),其中 F ( p i ) F(p_i) F(pi)表示第 i i i帧的值,因此本文将非对齐函数 d i = p i − F ( p i ) d_i=p_i-F(p_i) di=pi−F(pi)作为优化目标。
TSD的基本思想是,将关键点非对齐 d d d分解为trend term M M M,periodic tern S S S和random term r r r
d i = S i + M i + r i d_i = S_i + M_i + r_i di=Si+Mi+ri
其中,趋势项通过对 d i d_i di进行微分操作,消除周期项,即为,趋势项可由最小化三次多项式函数获得:
周期项通过计算 d i d_i di和微分 d i d_{i} di的插值期望计算得到:
随机项通过在正态分布重采样获得。
2)temporal alignment
虽然舞蹈序列被空间对齐模块进行平滑了,但是音乐节拍不能与较大的动作进行对其,导致舞蹈十分不自然。为了保证动作序列与音乐节拍对齐,本文提出利用librosa库来提取目标音频的节拍点。
对于一段姿态序列,姿态节拍点定义为:
本文选择 w c w_c wc个相邻帧作为滑动窗口来搜索局部最大值以实现对齐。将 μ \mu μ帧前后帧分段,并与音乐节拍点对齐。
对于当前节拍点的前帧和后帧,提出采用三次拟合插值得到对应的姿态。
姿态生成视频
给定优化后的姿态序列帧和目标域的视频片段,最后是要生成可靠的基于估计姿态的视频片段,为此,本文利用pix2pixHD作为poseGan的生成器,对于生成器和判断器采用对抗训练的方式进行学习。
但在生成的图像中仍存在一些异常区域,特别是在人脸区域。为了增强人脸区域的表示,本文采用FaceGAN对生成图像的人脸区域进行增强。FaceGAN中的生成器的目的是合成合成图像和真实图像之间的人脸面积的详细补充。
实验
对比实验
骨骼对齐对比和移动分布对比
评价指标
1)beat alignment score:计算对齐节拍的个数,其中 a m t a_{m}^t amt是输入音乐的节拍, μ \mu μ是身体运动。输入音乐和舞蹈动作的同步性越高, S B A S_{BA} SBA的值越高。
2)hand/foot moving distribution distance(MDD):测量相邻帧之间的骨骼移动,通过测量真实值和预测值之间的的手脚分布距离获得, p t p^t pt为真实值, p s p^s ps为估计值:
3)hand/foot spacing distribution distance(SDD):除了手脚关键点的移动,还提出了一个新的测量方法来描述一个人的间距距离,利用一个人的脚之间的距离,其公式与MDD一致
可视化对比
节拍对齐可视化
运动连续性可视化
表现分析
1)匹配阶段
基于欧式距离评估匹配精度,如果两个特征之间的欧氏距离小于1则音乐和姿态片段是对应的。
通过变动姿态片段的长度来观察训练时的拟合情况
通过骨骼运动的展示评估匹配结果,展示不同音乐片段匹配得到的姿态片段,观察发现通过音乐的不同姿态片段与音乐内容紧密匹配,骨骼的运动没有突然变化。
2)生成阶段:在姿态序列生成阶段,需要从数据库中检索足够的姿态片段,但是这些片段是从不同视频帧中收集出来的,所以身体骨骼规模并不相同。为了解决这一问题,提出了一种归一化算法,将姿态片段统一到相同的尺度上。对于每个选定的姿态片段,记录鼻子关键点和脚部关键点之间的最大距离,然后将检索到的片段调整为与目标人相同的大小。
时间对齐和空间对齐效果
3)合成阶段
(略过)
这篇关于music to dance系列论文之DanceIt: Music-Inspired Dancing Video Synthesis的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!