本文系个人知乎专栏文章迁移 VALL-E 网络是GPT-SOVITS很重要的参考 知乎专栏地址: 语音生成专栏 相关文章链接: 【VALL-E-01】环境搭建 【VALL-E-02】核心原理 【参考】 【1】Neural Codec Language Models are Zero-Shot Text to Speech Synthesizers 【2】https://www.shili
引言 “ Speak Foreign Languages with Your Own Voice: Cross-Lingual Neural Codec Language Modeling ”。 微软亚洲研究院最近发布了 VALL-E X,可以通过一个几秒的源语音片段生成目标语言的语音,并保留说话者的声音、情感和声学环境。VALL-E X 不需要说话人的跨语言语音进行训练即可执行各种语音生成任