icme2024专题

ICME2024 | 基于半监督对比学习的表现力语音合成

人类的语音极富表现力，不仅包括语调和重读，还包括风格和情感等多种元素。表现力语音合成的目标是要精准捕捉并再现这些元素。先前表现力语音合成方面的研究通常将表现力视为单一维度，如风格或情感。但实际上，风格可以随着文本和场景变化而变化，情感也可以根据态度和意图而有所不同。此外，还可能根据需要切换不同语种。因此，在表现力语音合成中，对风格、情感、音色和语种进行独立建模和控制，是一个极具研究价值的方向。