本文主要是介绍WAV2VEC:语音识别非监督预训练模型,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
1 简介
本文根据2019年《WAV2VEC: UNSUPERVISED PRE-TRAINING FOR SPEECH RECOGNITION》翻译总结的。
在图像、NLP领域,预训练已大放异彩,而语音识别领域尚缺乏。本文提的WAV2VEC就是语音识别方面的非监督预训练模型,也如论文题目所说。相比Deep Speech 2,WER(word error rate)从3.1%降到2.43%。
2 预训练方法
2.1 模型
原始的语音样本x;
特征表达z;
如上图所示,原始的语音应作用到两个网络,其中encoder 网络将x变成z,context 网络将z变成c。
encoder 网络和context 网络的层中都包括一个512 channels的causal convolution、一个group normalization layer 和一个 ReLU nonlinearity。
2.2 wav2vec large
encoder使用了两个附加的linear transformations;
context网络增加到12层,增加 kernel sizes (2, 3, . . . , 13).
也使用了skip connection,帮助收敛。
最后的context网络层,感受野增加到810毫秒。
2.3 目标函数
2.4 输入声学模型
在训练后,我们将c_i代替log-mel filterbank features输入到声学模型。
3 实验
我们使用wav2letter++工具包训练和评估声学模型。
3.1 Decoding
我们从context网络c输出(或者log-mel filterbank)来decode 单词序列y:
4 结果
从下表可以看出来,最好的wav2vec large相比Deep Speech 2,WER(word error rate)从3.1%降到2.43%。
这篇关于WAV2VEC:语音识别非监督预训练模型的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!