本文主要是介绍《PHONEME-BASED DISTRIBUTION REGULARIZATION FOR SPEECH ENHANCEMENT》论文阅读,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
ABSTRACT
现存的语音增强方法有时域和频域的方法,但是这些方法啊没有关注过带噪信号里面的语义信息。这篇论文,作者希望借用语义信息能够使得增强的效果更好。因而,提出了一个音素级分布正则化模块PbDr,将帧级语义信息作为条件整合到增强网络里面。频域上不同的音素导致不同的特征分布,通过因素分类模块产生了一个参数对,尺度和偏置。这个参数对不只包括帧级,也包括频域级,能够有效的将特征映射到音素相关的分布。
网络的整体结构
整个网络包含两部分,一部分是音素分类网络,一部分是增强网络。对于每一帧,从音素分类网络里面获得一个概率向量,表明不同音素的分类概率。之后概率向量送到PDPR模块来得到一个参数对,尺度和偏置。得到的参数对进行乘法和加法,模块参数对和目标特征进行相乘和相加,将特征正则化。由于语义信息很重要,模块在早期的编码层上实现操作的功能来指导增强的过程。通过这种方式,有效地将帧级元素音素信息整合到增强网络里面。
增强网络
送入增强网络的是带噪复数谱,包含了编码器,4个残差块,一个解码器。编码器有三个卷积层和一个最大池化层,每一个残差块包含2个卷积层,用一个跳过连接,解码器包含了3个反卷积,将信号恢复到原始的分辨率上。进一步,编码器和解码器之间有跳过连接来恢复丢失掉的信息。解码器输出了幅度和相位,,经过逆傅里叶恢复语音。
帧级音素分类网络
送入到帧级音素网络里面的特征是MFCC,网络包含了CBHG和一个分类模块,CBHG提取了一些综合性的特征,分类模块输出了预测音素的分类。CBHG包含了一些1维的卷积滤波器,一个网络和一个双向的GRU。这些一维卷探索局部信息和文本信息,而high-way网络和GRU提取高频的信息。对于音素级分类,用的是交叉熵损失函数。
PDPR模块
频率上不同的音素分类会产生不同的分布。PDPR模块基于分类概率向量学习到了分布模块参数对,之后和特征进行相乘和相加。有的预测的标签是不准确的,为了提高鲁棒性,每一帧通过分类网络产生的概率向量来帮助增强网络,pdpr 模块根据分类得到的向量学习到了一个参数对,尺度和偏置。中间特征被映射到音素相关的分布。这些模块参数应用到所有的通道。
将语义信息整合到网络里面是很重要的,模块的参数对被执行在早期的编码器指导增强网络的过程。另外,特征矩阵的分辨率在不同的编码器层并不同,所以需要用到不同的尺度因子。把音素的条件信息和一个大的尺度因子加上意味着会关注到更多语音的高维信息,相反,如果如果把条件信息应用到一个小尺度,意味着我们更加关注语音的细节。
数据集
用的是LIBRISPEECH 和AUDIOSET数据集产生训练集21855条和测试集500条,信噪比在[-5,25]dB。傅里叶窗长是20ms,窗移是10ms,汉明窗。 对于分类网络,输入到里面的是mfcc特征,窗长是40ms,窗移是10ms.。用的是ADAM优化器,学习率分别是0.0002,和0.001.训练250轮。
基线模型是只用了增强网络。
粗略模型,应用一个预训练的音素级分类网络到语音增强网络,同时一起微调。
E-PDPRNET,首先用增强网络获得增强的语音,之后从增强信号种学习到语义信息。这个可以表明语音信息能够增强语音。
CONCAT,从音素分类网络里面学习到的特征和增强网络的特征进行拼接;实验证明,这个效果不好,反而会破坏掉信息。
pdprnet_1,_2在编码器上面的第一层和第二层卷积分别加了条件信息,信息融合是以一个小尺度因子实现的。尺度因子越小,代表越关注语音信息,所以信噪比会高,因子越大,意味着关注的是高水平的信息,因为那些指标会越大。如果没有特殊说明,_2就是所有实验当中使用的模型。
结果:CER代表字错误率,WER代表词错误率。
这篇关于《PHONEME-BASED DISTRIBUTION REGULARIZATION FOR SPEECH ENHANCEMENT》论文阅读的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!