本文主要是介绍ASR-MFCC特征的物理意义,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
文章目录
- 一.MFCC简介
- 二.MFCC特征提取过程
- 三.MFCC的物理含义
一.MFCC简介
梅尔倒谱系数(Mel-scale Frequency Cepstral Coefficients,简称MFCC)是在Mel标度频率域提取出来的倒谱参数,Mel标度描述了人耳频率的非线性特性,它与频率的关系可用下式近似表示:
式中f为频率,单位为Hz。下图展示了Mel频率与线性频率的关系:
MFCC特征组成(以40维为例):
13维静态系数 + 13维一阶差分系数 + 13维二阶差分系数 + 1维帧能量
其中差分系数用来描述动态特征,也即声学特征在相邻帧间的变化情况。 静态MFCC假设帧与帧之间相互独立,这与实际情况未必符合,比如浊音时相邻帧之间相关程度很高,对应的静态MFCC可能也有较大相关,而动态系数描述了相邻帧的联系,解决了静态MFCC不合理假设可能带来的问题。
二.MFCC特征提取过程
预加重
语音信号通过一个高通滤波器:
u值一般取0.9-1.0之间,用以提升高频信息
分帧
因为音频信号是非平稳的,但很多音频处理技术都是基于概率模型进行的,则需要对信号有一个要求:信号是平稳信号。否则其均值方差等统计量没有意义了。为了处理这一个问题,一般都是讲音频信号进行分帧处理,假设每帧内都是平稳的,一般采用20-30ms为一帧,25%,50%,75%的重叠率。重叠是为了避免信号间的变化过大。
加窗
在之后求傅里叶变换时,为了避免频谱泄露,先进行加窗。常用的窗函数就是汉明窗。
频域转换
将上述加窗后的短时时域信号经过快速傅里叶变换FFT转换到频域。
梅尔刻度滤波器过滤
将信号进行一个平滑,分成几个子带。一般有两种,三角带通滤波器
还有一种是等高度的梅尔滤波
由上图可知:
1、低频分辨率高,高频分辨率低。
2、三角滤波会对高频信息的幅度进行一个衰减。
至于三角滤波还是等高梅尔滤波,看实际研究的需要,如果需要子带之间的相对值大小,则衰减有意义,如果不需要子带间的相对大小,则衰减影响不大。
三角带通滤波器有两个主要目的:
对频谱进行平滑化,并消除谐波的作用,突显原先语音的共振峰。此外,还可以降低运算量。
对数能量
计算每个滤波器组输出的对数能量,即子带能量
DCT变换
经DCT变换得到MFCC系数
三.MFCC的物理含义
MFCC的物理含义就是将语音物理信息(频谱包络和细节)进行编码运算得到的一组特征向量,表示信号频谱的能量在不同频率区间的分布。
这篇关于ASR-MFCC特征的物理意义的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!