music to dance系列论文之DanceIt: Music-Inspired Dancing Video Synthesis

2023-11-20 14:59

本文主要是介绍music to dance系列论文之DanceIt: Music-Inspired Dancing Video Synthesis,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

摘要

1)为了探索音乐和舞蹈运动之间的关系,本文提出一个跨模态对齐模块,来判断姿势序列的视觉特征和音乐的声学特征之间的一致性。
2)在想象模块中使用学习到的跨模态对齐模型,为给定音乐片段选择对应的姿势序列。
3)为了解决姿势序列之间的不连贯问题,提出了时空对齐模块,并开发了一种基于舞蹈运动趋势和周期性的空间对齐算法来预测不连续片段之间的舞蹈运动。
4)为了解决所选姿势序列与音乐节拍错位的问题,提出了时间对齐模块,并开发了时间对齐算法来对齐音乐和舞蹈的节奏。

介绍

要生成的舞蹈序列和音乐音频实质上是两种不同的媒体模式,从一种模式生成另一种模式并不是一对一的映射问题。因此需要解决两个主要问题:1)如何生成音乐节拍对应的舞蹈片段 2)如何使得生成的视频序列更为生动。
现存的相关工作弊端是学习了一对一映射,会导致网络训练中的拟合,本文提出通过建立不同模态之间的对应关系,而不是估计与每个音乐节拍对齐的特定姿态来解决此问题。第一步,通过deep metric learning方法来学习音乐和运动模态间的对应关系;第二步,提出将不同的片段与音乐节拍对齐并细化片段间的过渡,使生成的视频自然生动。
具体为,给定一个输入音乐片段,跨模态对齐模块的目的是找到音频片段和姿态片段之间的关联关系。输入音乐片段首先通过声音编码器转换到低维特征空间,姿态骨骼则是通过图卷积网络进行编码,将两种不同模式的姿态和音频特征嵌入到一个统一的空间中,然后通过最小化特征距离来学习它们之间的相关性。
基于学习得到的关联性,在生成阶段,通过检索每个音频片段的最佳匹配的姿态片段,并将它们连接为一个完整的姿态序列实现舞蹈序列的生成。为了解决生成舞蹈片段的不连续性、节拍错位这两个问题问题,提出了细化姿态序列的时空对齐模块。在空间域内,首先检测姿态序列的突然变化,再通过时间序列分解(TSD)对其进行细化。在时间域内,提取音乐节拍作为关键线索,并强制执行与所提取的节拍相匹配的局部最大姿态运动。

相关工作

姿态估计
动作预测
动作识别
图像合成
多模态学习

数据集

数据收集

为了从相应的视频中获得舞蹈片段,文本首先收集了真实场景中的舞蹈视频,其中可以同时获得舞蹈和声音。
1)声音处理:利用MFCC算法将频率信号转换为低维向量,选择41.66ms为采样窗口,得到的音频特征为13维。
2)姿态提取:利用OpenPose算法从收集到的舞蹈视频中获得人体关键点。为了平滑姿态序列并过滤外线,本文提出在不同的姿态帧之间进行简单的线性插值。再通过两条规则自动删除不完整的检测 1)比如两帧间的姿态距离相隔太远 2)手部和脚部节点未被检测到。在对异常数据进行过滤后,将视频片段分割为具有不重叠滑动窗口的片段,1s-4s,以构建序列数据库。

数据统计

122个女性视频和32个男性视频,包括ACGN、robot和hip-hop。一共706463帧。

方法

在这里插入图片描述

概况

给定输入声音片段和原视频片段,本文提出的生成框架的目标是以姿态特征为中介,学习生成目标视频片段。
在源域中, x i s = ( v i s , a i s , p i s ) x_{i}^s=(v_{i}^s, a_{i}^s, p_{i}^s) xis=(vis,ais,pis),是视频、音频、姿态帧的三元组,目标域三元组同样以此定义。通过分割源域和目标域,本文的框架分为两个阶段,匹配阶段(matching phrase)和生成阶段(generation phrase)。
在匹配阶段,本文以 x s x^s xs为输入,正则化跨模态对齐来学习姿态和音乐之间的对应关系。本文通过测量音频和姿态序列之间的距离来简介测量音频和姿态序列之间的距离。此目标函数使来自同一帧的声音和视频距离较近,反之亦然。
在这里插入图片描述
基于学习到的视频和音频关系,生成阶段以目标域的音频为输入,从构建的序列数据集检索距离最近的姿态序列, θ c \theta_c θc是模型参数:
在这里插入图片描述
检索到的姿态序列通常是碎片化的,导致产生的舞蹈动作不自然。因此,我们提出了一个时空对齐模块,它从两个不同的方面细化了动作序列,在空间域内,检测相邻帧之间的突然变化,并通过插值操作来平滑结果;在时间域内,本文通过将音乐节拍与身体运动对应,使舞者有节奏的跳舞。
在对齐模块之后,将姿态序列和目标视频片段一起进行编码,生成真实的舞蹈动作,通过对抗训练进行监督。

跨模态对齐模块

采用音频编码器和姿态编码器将不同的模态嵌入到相同的潜在空间,并使用度量学习优化来学习这种相关性。
1)音频编码器
利用双向LSTM模型以及一个全连接层来提取音频特征,通过双向信息流,本文编码器可以提取正向和反向的信息,从音频中聚合更丰富的特征。
在这里插入图片描述
2)姿态编码器
为了提取长时段帧的上下文信息,生成的姿态帧序列输入到图编码器中。本文利用ST-GCN来应用不同姿态骨骼之间的关系,从而形成了对每个姿势片段的整体理解。图编码器提取姿态在二维卷积核上的时间信息,并利用图卷积核提取空间信息。
在这里插入图片描述
音乐和姿态输入都被编码至16维特征。
在获得音乐和相应的舞蹈特征后,本文利用欧式距离计算相似度,提出一种相关匹配损失来正则化特征的相似度。基于这个损失,属于相同序列的音频特征和姿态特征距离会更近。
在这里插入图片描述
为了防止过拟合,本文在训练数据中添加了一个非对应情况(上式第二项),其中姿态片段比MFCC音频特征延迟了几秒钟。

时空对齐模块

1)spatial alignment
虽然检索到的姿态片段产生可靠的运动,但考虑到在数据库构建中片段进行离散采样,不同的姿态片段之间产生严重的错位。
step1:检测检索到的姿态序列中的不连续帧,其骨架与前一帧发生明显抖动。此处不连续帧是指关键点运动大于10个像素的不连续帧,然后提出利用一个平滑的运动函数完善这些不连续帧。
检测到异常帧后,以异常帧为窗口中心,取其前后各 w α / 2 w_{\alpha}/2 wα/2帧形成Time Series Decomposition(TSD)算法。对于已定义的滑动窗口,需要保证起点和重点的位置不变,以及整体细化的连续性。
step2:提出一个线性拟合操作 R = F ( p ) R=F(p) R=F(p),其中 F ( p i ) F(p_i) F(pi)表示第 i i i帧的值,因此本文将非对齐函数 d i = p i − F ( p i ) d_i=p_i-F(p_i) di=piF(pi)作为优化目标。
TSD的基本思想是,将关键点非对齐 d d d分解为trend term M M M,periodic tern S S S和random term r r r
d i = S i + M i + r i d_i = S_i + M_i + r_i di=Si+Mi+ri
其中,趋势项通过对 d i d_i di进行微分操作,消除周期项,即为,趋势项可由最小化三次多项式函数获得:
在这里插入图片描述
周期项通过计算 d i d_i di和微分 d i d_{i} di的插值期望计算得到:
在这里插入图片描述
随机项通过在正态分布重采样获得。
在这里插入图片描述

2)temporal alignment
虽然舞蹈序列被空间对齐模块进行平滑了,但是音乐节拍不能与较大的动作进行对其,导致舞蹈十分不自然。为了保证动作序列与音乐节拍对齐,本文提出利用librosa库来提取目标音频的节拍点。
对于一段姿态序列,姿态节拍点定义为:
在这里插入图片描述
本文选择 w c w_c wc个相邻帧作为滑动窗口来搜索局部最大值以实现对齐。将 μ \mu μ帧前后帧分段,并与音乐节拍点对齐。
对于当前节拍点的前帧和后帧,提出采用三次拟合插值得到对应的姿态。
在这里插入图片描述

姿态生成视频

给定优化后的姿态序列帧和目标域的视频片段,最后是要生成可靠的基于估计姿态的视频片段,为此,本文利用pix2pixHD作为poseGan的生成器,对于生成器和判断器采用对抗训练的方式进行学习。
但在生成的图像中仍存在一些异常区域,特别是在人脸区域。为了增强人脸区域的表示,本文采用FaceGAN对生成图像的人脸区域进行增强。FaceGAN中的生成器的目的是合成合成图像和真实图像之间的人脸面积的详细补充。

实验

对比实验
骨骼对齐对比和移动分布对比

评价指标
1)beat alignment score:计算对齐节拍的个数,其中 a m t a_{m}^t amt是输入音乐的节拍, μ \mu μ是身体运动。输入音乐和舞蹈动作的同步性越高, S B A S_{BA} SBA的值越高。
在这里插入图片描述
2)hand/foot moving distribution distance(MDD):测量相邻帧之间的骨骼移动,通过测量真实值和预测值之间的的手脚分布距离获得, p t p^t pt为真实值, p s p^s ps为估计值:
在这里插入图片描述
3)hand/foot spacing distribution distance(SDD):除了手脚关键点的移动,还提出了一个新的测量方法来描述一个人的间距距离,利用一个人的脚之间的距离,其公式与MDD一致

可视化对比

在这里插入图片描述
节拍对齐可视化
在这里插入图片描述
运动连续性可视化

表现分析

1)匹配阶段
基于欧式距离评估匹配精度,如果两个特征之间的欧氏距离小于1则音乐和姿态片段是对应的。
通过变动姿态片段的长度来观察训练时的拟合情况
通过骨骼运动的展示评估匹配结果,展示不同音乐片段匹配得到的姿态片段,观察发现通过音乐的不同姿态片段与音乐内容紧密匹配,骨骼的运动没有突然变化。
2)生成阶段:在姿态序列生成阶段,需要从数据库中检索足够的姿态片段,但是这些片段是从不同视频帧中收集出来的,所以身体骨骼规模并不相同。为了解决这一问题,提出了一种归一化算法,将姿态片段统一到相同的尺度上。对于每个选定的姿态片段,记录鼻子关键点和脚部关键点之间的最大距离,然后将检索到的片段调整为与目标人相同的大小。
时间对齐和空间对齐效果
在这里插入图片描述
在这里插入图片描述

3)合成阶段
(略过)

这篇关于music to dance系列论文之DanceIt: Music-Inspired Dancing Video Synthesis的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/395444

相关文章

Spring Security 从入门到进阶系列教程

Spring Security 入门系列 《保护 Web 应用的安全》 《Spring-Security-入门(一):登录与退出》 《Spring-Security-入门(二):基于数据库验证》 《Spring-Security-入门(三):密码加密》 《Spring-Security-入门(四):自定义-Filter》 《Spring-Security-入门(五):在 Sprin

科研绘图系列:R语言扩展物种堆积图(Extended Stacked Barplot)

介绍 R语言的扩展物种堆积图是一种数据可视化工具,它不仅展示了物种的堆积结果,还整合了不同样本分组之间的差异性分析结果。这种图形表示方法能够直观地比较不同物种在各个分组中的显著性差异,为研究者提供了一种有效的数据解读方式。 加载R包 knitr::opts_chunk$set(warning = F, message = F)library(tidyverse)library(phyl

AI hospital 论文Idea

一、Benchmarking Large Language Models on Communicative Medical Coaching: A Dataset and a Novel System论文地址含代码 大多数现有模型和工具主要迎合以患者为中心的服务。这项工作深入探讨了LLMs在提高医疗专业人员的沟通能力。目标是构建一个模拟实践环境,人类医生(即医学学习者)可以在其中与患者代理进行医学

【生成模型系列(初级)】嵌入(Embedding)方程——自然语言处理的数学灵魂【通俗理解】

【通俗理解】嵌入(Embedding)方程——自然语言处理的数学灵魂 关键词提炼 #嵌入方程 #自然语言处理 #词向量 #机器学习 #神经网络 #向量空间模型 #Siri #Google翻译 #AlexNet 第一节:嵌入方程的类比与核心概念【尽可能通俗】 嵌入方程可以被看作是自然语言处理中的“翻译机”,它将文本中的单词或短语转换成计算机能够理解的数学形式,即向量。 正如翻译机将一种语言

论文翻译:arxiv-2024 Benchmark Data Contamination of Large Language Models: A Survey

Benchmark Data Contamination of Large Language Models: A Survey https://arxiv.org/abs/2406.04244 大规模语言模型的基准数据污染:一项综述 文章目录 大规模语言模型的基准数据污染:一项综述摘要1 引言 摘要 大规模语言模型(LLMs),如GPT-4、Claude-3和Gemini的快

flume系列之:查看flume系统日志、查看统计flume日志类型、查看flume日志

遍历指定目录下多个文件查找指定内容 服务器系统日志会记录flume相关日志 cat /var/log/messages |grep -i oom 查找系统日志中关于flume的指定日志 import osdef search_string_in_files(directory, search_string):count = 0

论文阅读笔记: Segment Anything

文章目录 Segment Anything摘要引言任务模型数据引擎数据集负责任的人工智能 Segment Anything Model图像编码器提示编码器mask解码器解决歧义损失和训练 Segment Anything 论文地址: https://arxiv.org/abs/2304.02643 代码地址:https://github.com/facebookresear

GPT系列之:GPT-1,GPT-2,GPT-3详细解读

一、GPT1 论文:Improving Language Understanding by Generative Pre-Training 链接:https://cdn.openai.com/research-covers/languageunsupervised/language_understanding_paper.pdf 启发点:生成loss和微调loss同时作用,让下游任务来适应预训

论文翻译:ICLR-2024 PROVING TEST SET CONTAMINATION IN BLACK BOX LANGUAGE MODELS

PROVING TEST SET CONTAMINATION IN BLACK BOX LANGUAGE MODELS https://openreview.net/forum?id=KS8mIvetg2 验证测试集污染在黑盒语言模型中 文章目录 验证测试集污染在黑盒语言模型中摘要1 引言 摘要 大型语言模型是在大量互联网数据上训练的,这引发了人们的担忧和猜测,即它们可能已

OmniGlue论文详解(特征匹配)

OmniGlue论文详解(特征匹配) 摘要1. 引言2. 相关工作2.1. 广义局部特征匹配2.2. 稀疏可学习匹配2.3. 半稠密可学习匹配2.4. 与其他图像表示匹配 3. OmniGlue3.1. 模型概述3.2. OmniGlue 细节3.2.1. 特征提取3.2.2. 利用DINOv2构建图形。3.2.3. 信息传播与新的指导3.2.4. 匹配层和损失函数3.2.5. 与Super