本文主要是介绍MFCC说明及参数,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
版权声明:转载时请以超链接形式标明文章原始出处和作者信息及本声明
http://www.blogbus.com/pohai-logs/10578307.html
在语音识别工作中,我们最经常会遇到的特征就是MFCC参数。它的出现,仿佛让大家看了一种放之四海而皆准的特征,在不同的语音处理工作中都可以比较好的发挥其作用。
相比通过对人的发声机理的研究而得到的声学特征LPC,Mel倒谱系数MFCC和感知线性预测PLP是受人的听觉系统研究成果推动而导出的声学特征。对人的听觉机理的研究发现,当两个频率相近的音调同时发出时,人只能听到一个音调。临界带宽指的就是这样一种令人的主观感觉发生突变的带宽边界,当两个音调的频率差小于临界带宽时,人就会把两个音调听成一个,这称之为屏蔽效应。Mel刻度是对这一临界带宽的度量方法之一。由于充分模拟了人的听觉特性,而且没有任何前提假设,MFCC参数具有识别性能和抗噪能力,实验证明在汉语语音识别中MFCC性能明显优于LPCC参数。
MFCC的计算首先用FFT将时域信号转化成频域,之后对其对数能量谱用依照Mel刻度分布的三角滤波器组进行卷积,最后对各个滤波器的输出构成的向量进行离散余弦变换DCT,取前N个系数。一般我们用到的MFCC有12维、13维(加入F0能量)、39维(13维的MFCC加上13维的一阶导和13维的二阶导)。在HTK中,39维MFCC参数用MFCC_0_D_A表示,0表示加上F0,D表示一阶导(differential coefficient),A表示二阶导(accelerate coefficient)。
这篇关于MFCC说明及参数的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!