本文主要是介绍SLT2021: LEARN2SING: TARGET SPEAKER SINGING VOICE SYNTHESIS BY LEARNING FROM A SINGING TEACHER,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
0. 题目
LEARN2SING: TARGET SPEAKER SINGING VOICE SYNTHESIS BY LEARNING FROM A SINGING TEACHER
学会唱歌: 目标说话人从一个歌唱老师那里学会唱歌(歌声合成)
1. 摘要
唱歌声合成已受到越来越多的关注 语音合成领域发展迅速。通常,为了从歌词和与音乐相关的录音, 乐谱等中产生自然的演唱声音,通常需要录音棚级的演唱语料库。但是,这样的语料库很难收集,因为我们很多人都很难像专业歌手一样唱歌。在本文中,我们提出了一种方法– Learn2Sing,该方法只需要唱歌老师即可生成目标演讲者的歌声,而无需他们(目标者, 学生)的歌声数据。在我们的方法中,使用自回归合成框架, 老师的歌唱语料库和多说话者语料共同训练,共享speaker embedding结构和空间, 共享韵律标签embedding向量。同时,由于目标说话人没有与音乐相关的转录,因此我们使用对数刻度基频(LF0)作为辅助功能,作为声学模型的输入,以建立统一的输入表示。为了使目标说话者在推理阶段无需参考歌声音频就可以歌声合成,还训练了持续时间模型和LF0预测模型。特别是,我们在声学模型中采用领域对抗训练(DAT),其目的是通过将风格与歌唱和说话数据的声学特征区分开来提高目标说话者的歌唱性
这篇关于SLT2021: LEARN2SING: TARGET SPEAKER SINGING VOICE SYNTHESIS BY LEARNING FROM A SINGING TEACHER的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!