PortaSpeech CLAPSpeech: 提升TTS的韵律自然度音质

本文主要是介绍PortaSpeech CLAPSpeech: 提升TTS的韵律自然度音质，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

会议：2021 NIPS
作者：ren yi，Jinglin Liu
单位：浙大

PortaSpeech

非自回归TTS——
- 基于VAE：善于建模长时语义特征（比如韵律），但是生成结果模糊、不自然；
- normalizing flow：善于建模freq-bin细节，但是参数量少的时候表现不好。
motivation：使用少的数据量，生成情感、韵律变化丰富的语音。使用VAE+F
（1）建模韵律和mel谱细节， we adopt a lightweight VAE with an enhanced prior followed by a flow-based post-net with strong conditional inputs as the main architecture.
（2）为了压缩模型参数：introduce the grouped parameter sharing mechanism to the affine coupling layers in the post-net.
（3）为了改善语音的表现力，减少对text和语音精确对齐的依赖：引入linguistic encoder，进行hard word-level和soft phoneme-level的对齐，也精确的提取了字级别的情感；
结果：相比于FastSpeech2，4x模型压缩，3x运行内存减少，

VAE可以增强合成语音的表现力，但是生成谱over-smooth
flow的应用：Flow-TTS 将fastspeech中的decoder用glow替代，并且用一个单独的网络学习对齐；Glow-TTS引入normalize flow+动态规划单向对齐，实现快速、多样、可控的合成。这种方法生成谱的质量比较高，但是实验发现需要的数据量比较大，如果数据量少，生成质量明显下降。

在这里插入图片描述
total_loss = mel_loss + kl_loss + MLE loss + dur_loss + align_loss

在这里插入图片描述

FastSpeech使用对齐工具获得 phoneme-level hard alignment，但是由于一些音素边界天然的模糊，因此phn-level的对齐结果会有一定的误差，然后这些误差会影响duration predictor，进而传导到生成语音的韵律。因此本文使用soft alignment in phoneme level 以及hard alignment in word level.
音素编码得到隐变量 $H_p$ ，根据分字边界对同一个字的音素进行average pooling，得到字级别的隐变量 $H_w$ ，根据duration predictor预测的word duration对word embedding进行扩帧。duration predictor是预测每个phn的时长，然后将属于一个word的phn duration累加。
$H_w$ 作为Q， $H_p$ 作为key,value, 寻找对齐的word-to-phn attention， $H_p$ 和 $H_w$ 送入attention之前都加上word的相对位置编码信息；以找到一个单向的、对角对齐。
优点：避免phn对齐不准确的失误，同时保留了细粒度，soft，close-to-diagonal text-to-spectrogram alignment。

在这里插入图片描述

本模块本质是利用文本作为条件监督，从mel中提取出韵律相关的表征
-使用轻量级的结构实现有表现力、多样的语音生成，因此采用VAE结构作为mel-spec generator。传统的VAE使用高斯作为先验，给后验分布很强的约束，从而限制了decoder的多样性和生成能力。为了增强先验分布，引入small volume-preserving normalizing flow，用一系列K可逆映射将简单的高斯分布转换为复杂的分布，此变换后的复杂分布作为VAE先验。
训练阶段：
- mel+txt condition输入encoder，得到 $\mu，\sigma$ 分布，重采样得到 $z$ ，送入decoder（此处起名不太合适），应该就是几层非线性变换。
- 同时为了训练VP-Flow， $\mu_q$ , $\sigma_q$ 通过VP-Flow变成标准正态分布，并求KL loss；
inference阶段，没有ref-mel，VP-Flow把一个标准正态分布的样本重采样为 $z_p$ ，然后送给decoder。
说明：送给decoder的 $z_p$ 不再是标准高斯的重采样，训练阶段是encoder输出重采样，inference阶段是标准高斯经过flow变换成复杂分布之后的采样。

在这里插入图片描述

Flow可以生成更真实的mel-spec,但是模型参数量很大。本文的flow作为postnet，不需要关注文本和韵律信息，只需要关注mel-spec的细节。并且引入参数共享的想法，降低对flow建模的参数要求。
训练阶段：postnet将真实的mel-spec映射到latent prior distribution (isotropic multivariate Gaussian，各向同性多元高斯)，并计算对数似然估计；
预测阶段：从latent prior distribution中采样，反向送入postnet，得到高保真的mel-spec
postnet的条件输入有文本&韵律的信息，所以网络只关注在mel-spec细节的建模；降低了模型建模难度（参数量不需要那么大）；为了进一步减少参数量，在affine coupling layers中引入grouped parameter sharing mechanism
参数共享的想法借鉴了Nanoflow的文章，做出改进：
- 移除flow indication embedding以简化模型：不同flow step的unshared conditional projection layer可以帮助模型确定当前step的位置；
- 一个group中flow steps的参数共享，而不是所有flow step的参数共享：不需要改变模型结构就可以更好的调整可训练的参数。

training stage

inference stage

text seq（phn+word 边界）——【linguistic encoder】预测word duration + 使用mix align做hidden state扩帧—— linguistic emb $H_L$ ——【VAE】根据vae-encoder输出采样+ $H_L$ ，送给vae-decoder生成粗粒度的mel-spec $M_c$ ——【postnet】根据 $H_L$ 和重采样的分布，生成细粒度的mel-spec $M_f$

在这里插入图片描述

在这里插入图片描述

作者认为韵律和上下文文本有关系，传统的基于BERT的改进，只停留在文本层面的上下文建模；VAE主要在speech空间。因此仿照CLIP，使用对比学习，训练text-prosody的映射，建立一个共享空间，提取的embedding可以直接plugin的方式，加入到PortaSpeech中，作为输入端的韵律补充。