Fantasy Mix-Lingual Tacotron Version 4: Google-ZYX-Phoneme-HCSI-DBMIX 调整LID

本文主要是介绍Fantasy Mix-Lingual Tacotron Version 4: Google-ZYX-Phoneme-HCSI-DBMIX 调整LID，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

0. 说明

VAE + LID效果目前是最好的, 将LID调整下, 不在decoder拼接LID, 在encoder_output处拼接

有以下方案

speaker emb和residual仍然在decoder拼接, 只LID在前面
speaker emb和residual放在前面与否, 仅仅是被query的内容不同; 而根据query为声学特征, memory为文本特征, 放在后面更好, 或者说没必要多尝试. ~~全部提到前面, 但是否掉这个, 因为speaker 信息放在decoder部分加, 是挺好的, 也可以影响到alignment的, 并且保证了text encoding中统一对TXT进行分析~~
Language放前面, 统一经过RNN Encoder, 尝试这个分支思路的话, 带上residual phoneme的那版论文, 应该是谢磊老师的Phoneme-informed attention-"Building a mixed-lingual neural TTS system with only monolingual data"论文, 先不做

其实也是有问题的, RNN会不会把Phoneme整错位了, LID用不用直接拼接到phoneme embedding上; 不过差别还挺大的, 因为拼接到encoder_output, 很强的语言信息了

同时把 Fantasy Mix-Lingual Tacotron Version 5也复现一版LID在前面的