短时傅里叶变换（Short-Time Fourier Transform, STFT），语音识别

本文主要是介绍短时傅里叶变换（Short-Time Fourier Transform, STFT），语音识别，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

高能预警！！！

.wav文件为笔者亲自一展歌喉录制的噪声，在家中播放，可驱赶耗子，蟑螂

介绍

短时傅里叶变换（Short-Time Fourier Transform, STFT）是一种时频分析方法，用于分析非平稳信号的频率成分随时间的变化。与传统的傅里叶变换不同，STFT在处理信号时考虑了时间局部性，使得它能够同时在时间域和频率域上分析信号。

STFT的背景

傅里叶变换可以将信号从时间域转换到频率域，揭示出信号的频率成分。然而，傅里叶变换有一个显著的局限性，即它假定信号在整个时间范围内都是稳定的，频率成分不随时间变化。因此，对于非平稳信号——即其频率成分随时间变化的信号——傅里叶变换难以提供充分的信息。

为了克服这一局限性，STFT被引入，它通过将信号分割为一系列较短的时间窗口，假定每个窗口内的信号是近似平稳的。然后对每个窗口内的信号应用傅里叶变换，从而获得在这些窗口内的频率成分。

STFT的定义

STFT的基本思想是使用一个滑动窗口函数，将信号分割成若干个短时段，对每个时段进行傅里叶变换。STFT定义为：
$\int_{-\infty}^{\infty}x(\tau)\cdot w(\tau-t)\cdot e^{-j2\pi f\tau}d\tau$
其中，
$x(\tau)$ 是原始信号。
$w(\tau -t)$ 是一个窗口函数（通常为高斯窗、汉宁窗、矩形窗等），它在时间 $t$ 处对信号进行加权。
$f$ 是频率， $t$ 是时间。
$X (t, f)$ 是时间 $t$ 处的频谱。
通过选择不同的窗口函数和窗口长度，可以在时间分辨率和频率分辨率之间进行权衡。

STFT的计算步骤

信号分段：将信号分割成若干重叠的短时间片段，每个片段与相邻片段之间通常有部分重叠，以确保时间域上的连续性。

加窗：对每个片段施加一个窗口函数，使得信号的边缘部分平滑过渡，减少频谱泄露效应。

傅里叶变换：对每个加窗后的片段应用傅里叶变换，得到该时间片段的频谱信息。

时频图：将每个时间片段的频谱信息组合起来，形成一个二维的时频图（或称为声谱图），横轴为时间，纵轴为频率，颜色或强度表示该时间和频率位置处的信号幅度。

STFT的性质

时间分辨率与频率分辨率的权衡：窗口函数的长度决定了STFT的时间分辨率和频率分辨率。短窗口提供较好的时间分辨率，但频率分辨率较差；长窗口则提供较好的频率分辨率，但时间分辨率较差。

频谱泄露：由于窗口函数的截断效应，STFT会产生频谱泄露，即频谱成分扩展到其他频率范围。通过选择合适的窗口函数（如汉宁窗或高斯窗）可以减少这种效应。

时频不确定性：STFT的时频分析受到不确定性原理的限制，即无法同时获得无限好的时间分辨率和频率分辨率。

STFT的应用

STFT广泛应用于各种需要时频分析的领域，以下是一些典型的应用场景：

语音信号处理：在语音信号处理中，STFT被用来分析语音信号的时频特性，如语音识别、语音增强和语音分离等任务中。

音乐信号分析：STFT用于音乐信号的频谱分析、音高检测、乐器识别等。它可以显示乐曲随时间变化的频谱结构，帮助理解音乐的动态特性。

地震波分析：在地震波信号处理中，STFT可以帮助分析地震波的频率成分随时间的变化，特别是在地震事件中的高频噪声或波形变化。

生物医学信号分析：在心电图（ECG）、脑电图（EEG）等生物医学信号处理中，STFT可以用于检测信号中的异常波形或事件，例如癫痫发作期间的EEG频谱变化。

机器故障诊断：在机械系统的振动信号分析中，STFT可以用于检测和识别随时间变化的频率成分，从而诊断出潜在的机械故障。

STFT的局限性

尽管STFT在时频分析中非常有用，但它也有一些局限性：

分辨率权衡：如前所述，时间分辨率和频率分辨率之间存在固有的权衡，无法同时获得高时间分辨率和高频率分辨率。

计算复杂度：STFT涉及对每个时间片段进行傅里叶变换，计算量较大，尤其是对于长时间序列信号，这可能成为计算资源的瓶颈。

窗口效应：窗口函数的选择对STFT结果有显著影响，不同的窗口函数可能导致不同的频谱特征，从而影响分析结果的准确性。

STFT与其他时频分析方法的比较

除了STFT之外，还有一些其他时频分析方法，例如小波变换（Wavelet Transform, WT）、希尔伯特黄变换（Hilbert-Huang Transform, HHT）等。这些方法各有优缺点，适用于不同类型的信号分析任务：

小波变换：通过不同尺度的多分辨率分析，提供更灵活的时频分辨率选择，适合分析具有突变点或非平稳特性的信号。

希尔伯特黄变换：基于经验模态分解（EMD）方法，用于处理非线性和非平稳信号，能够自适应地分解信号的本征模态函数。

STFT的优势在于其相对简单且直观的时频分析方法，特别适用于处理较为平稳的信号或在短时间内频率变化不大的信号。小波变换则在处理突变或非线性信号时表现更好，而希尔伯特黄变换适合处理复杂的非平稳信号。

本文代码

我们将展示如何使用短时傅里叶变换（STFT）进行语音信号的处理与分析，以用于语音识别场景。这段代码涵盖了语音信号的预处理、STFT计算、特征提取，以及用于语音识别的MFCC（Mel-Frequency Cepstral Coefficients）特征的计算

核心代码

% MATLAB Code for Speech Recognition using STFT% Step 1: Load and Preprocess the Speech Signal
[speechSignal, Fs] = audioread('1725125026821.wav'); % Load speech signal from a .wav file
speechSignal = speechSignal(:,1); % Use only one channel if the signal is stereo
speechSignal = speechSignal / max(abs(speechSignal)); % Normalize the signal% Step 2: Parameters Setup
frameLength = 0.025 * Fs; % 25 ms per frame
frameOverlap = 0.015 * Fs; % 15 ms overlap
nfft = 2^nextpow2(frameLength); % FFT length, next power of 2 from frame length
window = hamming(frameLength); % Hamming window for each frame% Step 3: Compute STFT
[S, F, T] = stft(speechSignal, Fs, 'Window', window, 'OverlapLength', frameOverlap, 'FFTLength', nfft);% Convert STFT result to magnitude spectrogram
magnitudeSpectrogram = abs(S);% Step 4: Mel-Frequency Cepstral Coefficients (MFCC) Calculation
% The mfcc function should be used with proper parametersmfccs = mfcc(speechSignal, Fs, 'NumCoeffs', 13, 'WindowLength', frameLength, 'OverlapLength', frameOverlap);% Step 5: Visualize the Results% Plot the original speech signal
figure;
subplot(3,1,1);
plot((1:length(speechSignal))/Fs, speechSignal);
title('Original Speech Signal');
xlabel('Time (s)');
ylabel('Amplitude');% Plot the magnitude spectrogramtitle('Magnitude Spectrogram (dB)');
xlabel('Time (s)');
ylabel('Frequency (Hz)');
colorbar;% Plot the MFCCs
subplot(3,1,3);
imagesc(T, 1:13, mfccs');
axis xy;
title('MFCCs');
xlabel('Time (s)');
ylabel('MFCC Coefficient Index');
colorbar;% Step 6: Application in Speech Recognition
% Assuming the MFCCs are now used as features for a machine learning model (e.g., HMM, GMM, DNN)% For demonstration purposes, we'll cluster the MFCCs using k-means% Visualize clustered MFCCs
figure;
for i = 1:numClustersscatter(T(idx == i), idx(idx == i), 'DisplayName', sprintf('Cluster %d', i));hold on;
end
title('Clustered MFCC Features');
xlabel('Time (s)');
ylabel('Cluster Index');
legend show;

代码说明

语音信号加载与预处理
audioread 函数加载语音信号文件。此处假设输入的是一个.wav文件，名字为speech_sample.wav。
信号被归一化处理，以确保幅度范围在 -1 到 1 之间。
参数设置
窗口长度设置为25毫秒，这在语音处理中是常见的选择，足够短以捕捉语音中的瞬态变化，又足够长以包含足够多的频率信息。
重叠部分设置为15毫秒，有助于提高时间分辨率并平滑过渡。
FFT长度设置为接近窗口长度的2的次幂，确保FFT计算效率。
STFT计算
使用MATLAB的stft函数计算短时傅里叶变换（STFT）。
生成的S是复数矩阵，其大小为[频率分辨率 x 时间分辨率]。
magnitudeSpectrogram 计算STFT的幅度谱，显示信号在频率和时间上的变化。
MFCC计算
Mel频率倒谱系数（MFCCs）是语音识别中常用的特征。
mfcc函数基于Mel尺度对STFT幅度谱进行滤波，提取语音的低维特征。
这部分提取的MFCC特征将用于语音识别模型中。
结果可视化
绘制了原始语音信号的时域图像。
绘制了幅度谱图，通过二维图展示频谱随时间的变化（时频图）。
绘制了MFCC系数随时间的变化，帮助分析语音信号的低维特征。
语音识别应用示例
使用k-means聚类算法对提取的MFCC特征进行聚类，模拟语音识别中的特征分类过程。
聚类结果被可视化展示，不同颜色代表不同的聚类（可能代表不同的语音音素或单词）