WAV2VEC：语音识别非监督预训练模型

本文主要是介绍WAV2VEC：语音识别非监督预训练模型，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

本文根据2019年《WAV2VEC: UNSUPERVISED PRE-TRAINING FOR SPEECH RECOGNITION》翻译总结的。

在图像、NLP领域，预训练已大放异彩，而语音识别领域尚缺乏。本文提的WAV2VEC就是语音识别方面的非监督预训练模型，也如论文题目所说。相比Deep Speech 2，WER（word error rate）从3.1%降到2.43%。

原始的语音样本x；
特征表达z；
在这里插入图片描述

如上图所示，原始的语音应作用到两个网络，其中encoder 网络将x变成z，context 网络将z变成c。

在这里插入图片描述

encoder 网络和context 网络的层中都包括一个512 channels的causal convolution、一个group normalization layer 和一个 ReLU nonlinearity。

encoder使用了两个附加的linear transformations；
context网络增加到12层，增加 kernel sizes (2, 3, . . . , 13).
也使用了skip connection，帮助收敛。
最后的context网络层，感受野增加到810毫秒。

在这里插入图片描述

在训练后，我们将c_i代替log-mel filterbank features输入到声学模型。

我们使用wav2letter++工具包训练和评估声学模型。

我们从context网络c输出(或者log-mel filterbank)来decode 单词序列y：
在这里插入图片描述

从下表可以看出来，最好的wav2vec large相比Deep Speech 2，WER（word error rate）从3.1%降到2.43%。

在这里插入图片描述

这篇关于WAV2VEC：语音识别非监督预训练模型的文章就介绍到这儿，希望我们推荐的文章对编程师们有所帮助！