本文主要是介绍语音合成:概述【不等长序列关系建模的生成任务】,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
一、什么是语音合成?
语音合成是一个“不等长序列关系建模的生成任务”
- 输入:【tex len 】;输入:【frequency dim, spectrum length】
- 输入形状:文本token序列长度;输出形状:(频率维度, 频谱序列长度)
“七百三十九”5个“token”对应着20多个语音“帧”
不能单独建模 “七”与X帧的关系,“百”与Y帧的关系,。。。。,然后拼接起来,这样是违反人类发音的本质的。
二、语音合成基本训练框架
1、训练数据介绍
采样率 = 16000
2、Token Embedding Layer
为了将字符映射为浮点数,pytorch采取了“可训练查询表”的方式,设数据集中含有的token 数量&
这篇关于语音合成:概述【不等长序列关系建模的生成任务】的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!