MFCC（梅尔倒频谱系数）总结

本文主要是介绍MFCC（梅尔倒频谱系数）总结，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

看了很多MFCC的资料，经常过一段时间就忘了。现在总结一下其中的要点，便于今后翻看。

MFCC（梅尔倒频谱系数）是在1980年由Davis和Mermelstein搞出来的。MFCC是一种人工（hand crafted）特征，可以用于语音识别等。当年在语音领域取得了重大的成就，后来出现了深度学习，这种deep learned特征就是另一说了。虽然现在深度学习如日中天，也取得了非常好的效果，但是MFCC仍然有很高的出现频率，甚至有把音频的MFCC作为RNN的输入再提特征的。

MFCC的提取过程

对一段连续的音频信号分帧
把每一帧转换为它的频谱（或者能量谱）
对每一帧的频谱用梅尔滤波器（mel filterbank）进行滤波，再对每个滤波器的结果求和得到一个长度为 $n_{滤波器}$ 的向量
对3.中得到的向量的每个元素取对数
对4.中的向量做DCT，得到另一个向量（倒频谱）
保留第2~13个元素，舍弃其他。这个长度为12的向量即为MFCC

Mel scale（梅尔刻度）

梅尔刻度产生，是由于人的听力对不同频率的声音变化的敏感性不同而提出的。具体地，人耳对于低频声音的变化要比高频敏感。所以对频率做一个非线性变换，得到梅尔刻度：
这里写图片描述
反之，

正向变换的函数图像为：

通过这个函数图像可以明显地看到，变换后，低频部分的差异被拉大（纵轴范围变大，即纵向拉长），而高频部分的差异被压缩（纵轴范围变小）。可以想象为，一把长度为5的尺子，上面所有的刻度点都右移不等，使得左边的刻度稀疏，右边稠密。

实现方法

假设声音信号频率为16kHz。

1. 对音频分帧

通常每帧的长度为20~40ms，25ms是标准的。这意味着每帧有 $0.025*16000 = 400$ 个采样点。而分帧步长（frame step）通常为10ms，即160 samples；两帧之间有重叠。如果帧数不为偶数，通常还要padding。

下面的步骤就是对每帧进行操作，每帧会提取出12个MFCC。
假设我们的声音信号为 $s(n)$ ，分帧后为 $s_i(n)$ ， $n$ 为 $1$ ~ $N$ (400)， $i$ 为 $1$ ~总帧数。 $s_i(n)$ 经过DFT之后得到 $S_i(k)$ ，对应的功率谱为 $P_i(k)$ 。