ASR-MFCC特征的物理意义

2024-08-24 17:32
文章标签 特征 意义 物理 mfcc asr

本文主要是介绍ASR-MFCC特征的物理意义,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

文章目录

    • 一.MFCC简介
    • 二.MFCC特征提取过程
    • 三.MFCC的物理含义

一.MFCC简介

梅尔倒谱系数(Mel-scale Frequency Cepstral Coefficients,简称MFCC)是在Mel标度频率域提取出来的倒谱参数,Mel标度描述了人耳频率的非线性特性,它与频率的关系可用下式近似表示:
在这里插入图片描述
式中f为频率,单位为Hz。下图展示了Mel频率与线性频率的关系:
在这里插入图片描述
MFCC特征组成(以40维为例):
13维静态系数 + 13维一阶差分系数 + 13维二阶差分系数 + 1维帧能量
其中差分系数用来描述动态特征,也即声学特征在相邻帧间的变化情况。 静态MFCC假设帧与帧之间相互独立,这与实际情况未必符合,比如浊音时相邻帧之间相关程度很高,对应的静态MFCC可能也有较大相关,而动态系数描述了相邻帧的联系,解决了静态MFCC不合理假设可能带来的问题。

二.MFCC特征提取过程

在这里插入图片描述
预加重
语音信号通过一个高通滤波器:
在这里插入图片描述
u值一般取0.9-1.0之间,用以提升高频信息

分帧
因为音频信号是非平稳的,但很多音频处理技术都是基于概率模型进行的,则需要对信号有一个要求:信号是平稳信号。否则其均值方差等统计量没有意义了。为了处理这一个问题,一般都是讲音频信号进行分帧处理,假设每帧内都是平稳的,一般采用20-30ms为一帧,25%,50%,75%的重叠率。重叠是为了避免信号间的变化过大。

加窗
在之后求傅里叶变换时,为了避免频谱泄露,先进行加窗。常用的窗函数就是汉明窗。
在这里插入图片描述
频域转换
将上述加窗后的短时时域信号经过快速傅里叶变换FFT转换到频域。

梅尔刻度滤波器过滤
将信号进行一个平滑,分成几个子带。一般有两种,三角带通滤波器
在这里插入图片描述
还有一种是等高度的梅尔滤波
在这里插入图片描述
由上图可知:
1、低频分辨率高,高频分辨率低。
2、三角滤波会对高频信息的幅度进行一个衰减。
至于三角滤波还是等高梅尔滤波,看实际研究的需要,如果需要子带之间的相对值大小,则衰减有意义,如果不需要子带间的相对大小,则衰减影响不大。
三角带通滤波器有两个主要目的:
对频谱进行平滑化,并消除谐波的作用,突显原先语音的共振峰。此外,还可以降低运算量。

对数能量
计算每个滤波器组输出的对数能量,即子带能量
在这里插入图片描述
DCT变换
经DCT变换得到MFCC系数
在这里插入图片描述

三.MFCC的物理含义

MFCC的物理含义就是将语音物理信息(频谱包络和细节)进行编码运算得到的一组特征向量,表示信号频谱的能量在不同频率区间的分布。

这篇关于ASR-MFCC特征的物理意义的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1103131

相关文章

OmniGlue论文详解(特征匹配)

OmniGlue论文详解(特征匹配) 摘要1. 引言2. 相关工作2.1. 广义局部特征匹配2.2. 稀疏可学习匹配2.3. 半稠密可学习匹配2.4. 与其他图像表示匹配 3. OmniGlue3.1. 模型概述3.2. OmniGlue 细节3.2.1. 特征提取3.2.2. 利用DINOv2构建图形。3.2.3. 信息传播与新的指导3.2.4. 匹配层和损失函数3.2.5. 与Super

UVM:callback机制的意义和用法

1. 作用         Callback机制在UVM验证平台,最大用处就是为了提高验证平台的可重用性。在不创建复杂的OOP层次结构前提下,针对组件中的某些行为,在其之前后之后,内置一些函数,增加或者修改UVM组件的操作,增加新的功能,从而实现一个环境多个用例。此外还可以通过Callback机制构建异常的测试用例。 2. 使用步骤         (1)在UVM组件中内嵌callback函

《计算机视觉工程师养成计划》 ·数字图像处理·数字图像处理特征·概述~

1 定义         从哲学角度看:特征是从事物当中抽象出来用于区别其他类别事物的属性集合,图像特征则是从图像中抽取出来用于区别其他类别图像的属性集合。         从获取方式看:图像特征是通过对图像进行测量或借助算法计算得到的一组表达特性集合的向量。 2 认识         有些特征是视觉直观感受到的自然特征,例如亮度、边缘轮廓、纹理、色彩等。         有些特征需要通

Matter.js:Web开发者的2D物理引擎

Matter.js:Web开发者的2D物理引擎 前言 在现代网页开发中,交互性和动态效果是提升用户体验的关键因素。 Matter.js,一个专为网页设计的2D物理引擎,为开发者提供了一种简单而强大的方式,来实现复杂的物理交互效果。 无论是模拟重力、碰撞还是复杂的物体运动,Matter.js 都能轻松应对。 本文将带你深入了解 Matter.js ,并提供实际的代码示例,让你一窥其强大功能

HalconDotNet中的图像特征与提取详解

文章目录 简介一、边缘特征提取二、角点特征提取三、区域特征提取四、纹理特征提取五、形状特征提取 简介   图像特征提取是图像处理中的一个重要步骤,用于从图像中提取有意义的特征,以便进行进一步的分析和处理。HalconDotNet提供了多种图像特征提取方法,每种方法都有其特定的应用场景和优缺点。 一、边缘特征提取   边缘特征提取是图像处理中最基本的特征提取方法之一,通过检

JAVAEE初阶第七节(中)——物理原理与TCP_IP

系列文章目录 JAVAEE初阶第七节(中)——物理原理与TCP_IP 文章目录 系列文章目录JAVAEE初阶第七节(中)——物理原理与TCP_IP 一.应用层重点协议)1. DNS2 .NAT3. NAT IP转换过程 4 .NAPT5. NAT技术的缺陷6. HTTP/HTTPS7. 自定义协议 二. 传输层重点协议 1 .UDP协议 2.1.1 UDP协议端格式 2.1.2 UD

WebShell流量特征检测_哥斯拉篇

90后用菜刀,95后用蚁剑,00后用冰蝎和哥斯拉,以phpshell连接为例,本文主要是对后三款经典的webshell管理工具进行流量分析和检测。 什么是一句话木马? 1、定义 顾名思义就是执行恶意指令的木马,通过技术手段上传到指定服务器并可以正常访问,将我们需要服务器执行的命令上传并执行 2、特点 短小精悍,功能强大,隐蔽性非常好 3、举例 php一句话木马用php语言编写的,运行

图特征工程实践指南:从节点中心性到全局拓扑的多尺度特征提取

图结构在多个领域中扮演着重要角色,它能有效地模拟实体间的连接关系,通过从图中提取有意义的特征,可以获得宝贵的信息提升机器学习算法的性能。 本文将介绍如何利用NetworkX在不同层面(节点、边和整体图)提取重要的图特征。 本文将以NetworkX库中提供的Zachary网络作为示例。这个广为人知的数据集代表了一个大学空手道俱乐部的社交网络,是理解图特征提取的理想起点。 我们先定义一些辅助函数

基础物理-向量3

总结 标量和向量 标量,如温度,仅具有大小。它们通过一个带有单位的数字(例如 10°C)表示,并遵循算术和普通代数的规则。向量,如位移,既具有大小又具有方向(例如 5 米,向北),并遵循向量代数的规则。 几何法加向量 两个向量 a ⃗ \vec{a} a 和 b ⃗ \vec{b} b 可以通过几何法相加,即将它们按照共同的比例绘制,并首尾相接放置。连接第一个向量的尾部和第二个

【ML--05】第五课 如何做特征工程和特征选择

一、如何做特征工程? 1.排序特征:基于7W原始数据,对数值特征排序,得到1045维排序特征 2. 离散特征:将排序特征区间化(等值区间化、等量区间化),比如采用等量区间化为1-10,得到1045维离散特征 3. 计数特征:统计每一行中,离散特征1-10的个数,得到10维计数特征 4. 类别特征编码:将93维类别特征用one-hot编码 5. 交叉特征:特征之间两两融合,x+y、x-y、