icme2024专题

ICME2024 | 基于半监督对比学习的表现力语音合成

人类的语音极富表现力,不仅包括语调和重读,还包括风格和情感等多种元素。表现力语音合成的目标是要精准捕捉并再现这些元素。先前表现力语音合成方面的研究通常将表现力视为单一维度,如风格或情感。但实际上,风格可以随着文本和场景变化而变化,情感也可以根据态度和意图而有所不同。此外,还可能根据需要切换不同语种。因此,在表现力语音合成中,对风格、情感、音色和语种进行独立建模和控制,是一个极具研究价值的方向。