ASR-声学特征提取

2024-08-24 17:32
文章标签 声学 特征提取 asr

本文主要是介绍ASR-声学特征提取,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

文章目录

    • 方法一:MFCC特征提取
      • step 1:A/D转换(采样)
      • step 2:预加重
      • step 3:加窗分帧
      • step 4:DFT+取平方
      • step 5:Mel滤波
      • step 6:取对数
      • step 7:IDFT
      • step 8:动态特征
    • 方法二:深度学习特征提取
      • step 1:采样
      • step 2:分帧
      • step 3:傅里叶变换
      • step 4:识别字符
      • step 5:获取映射图

方法一:MFCC特征提取

在这里插入图片描述

step 1:A/D转换(采样)

通过采样将连续的模拟信号转换为离散的数字信号,便于后续的数字化处理

step 2:预加重

正常的音频一般低频成分比高频成分多,通过预加重提升语音信号的高频部分,使频谱光滑
1.目的:增加高频成分,使频谱光滑
2.方法:
在这里插入图片描述在这里插入图片描述
3.效果图:
在这里插入图片描述

step 3:加窗分帧

数字化的语音信号是一个不平稳的时变信号,具有短时平稳性。因此在对语音信号进行分析前,
需要对其进行分帧,通常将每帧的长度设为20ms,相邻两帧之间有10ms的帧移

1.目的:利用音频信号的短时平稳性,分帧后的信号更便于后续处理

2.方法:帧长20ms,帧移10ms进行帧

3.效果图:
在这里插入图片描述

step 4:DFT+取平方

离散傅里叶变换的目的就是将音频信号从时域转换到频域

1.目的:将音频信号从时域转到频域

2.方法:
在这里插入图片描述

step 5:Mel滤波

将线性频率转换成人类听觉敏感的Mel频率,同时对频谱进行平滑(消除谐波的影响,突出原始
语音的共振峰)和降低信息量

1.目的:将之前得到的线性频率转换为符合人耳频率的Mel频率

2.转换公式:
在这里插入图片描述
3.Mel滤波器:
在这里插入图片描述

step 6:取对数

采用log压缩动态范围,人类对信号能量的感知是对数的

step 7:IDFT

得到倒谱系数,平滑对数功率谱

step 8:动态特征

描述倒谱系数随时间的变化。一阶差分是计算当前时刻的后一时刻与前一时刻的差值,二阶差分是
将一阶差分结果作为当前序列,计算当前时刻的后一时刻与前一时刻的差值

方法二:深度学习特征提取

step 1:采样

对于语音识别,16KHz的采样率就足以覆盖人类语音的频率范围了。16KHz即每秒采样16000个样本点,
下图给出的是前100个采样点的截图,其中每个点的值表示声波在1/16000处的振幅。
在这里插入图片描述
在这里插入图片描述

step 2:分帧

直接把这16000个数字输入到神经网络中分析采样来进行语音识别仍然很困难。所以可以通过对音频数据进行一些预处理来使问题变得更容易。比如首先将采样音频分成每份20ms长的音频块,下图给出的第一 个20ms的音频(即前320个采样点):
在这里插入图片描述
在这里插入图片描述

step 3:傅里叶变换

通过傅里叶变换将复杂的声波分解为一系列简单声波的叠加。有了这些单独的声波后就可以将每一份频段所包含的能量加在一起,最终得到的结果就是从低音到高音,每个频率范围的重要程度。以50Hz为一个频段的话,20ms的音频所含有的能量从低频到高频就可以表示为下图,其中每个数字表示50Hz的频段所含的能量:
在这里插入图片描述
对每20ms的音频块重复这个过程,最终得到一个频谱图(每一列从左到右都是一个20ms的块):
在这里插入图片描述

step 4:识别字符

有了格式易于处理的音频,再将它输入到神经网络中去。神经网络的输入便是这些20ms的音频块,对于每个小的音频切片,神经网络都将尝试找出当前正在说的声音所对应的字母。
在这里插入图片描述

step 5:获取映射图

通过神经网络跑完整个音频剪辑(一次一块)之后,将最终得到一份映射(mapping),其中标明了每个音频块和其最有可能对应的字母。
在这里插入图片描述

这篇关于ASR-声学特征提取的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1103133

相关文章

【LVI-SAM】激光雷达点云处理特征提取LIO-SAM 之FeatureExtraction实现细节

激光雷达点云处理特征提取LIO-SAM 之FeatureExtraction实现细节 1. 特征提取实现过程总结1.0 特征提取过程小结1.1 类 `FeatureExtraction` 的整体结构与作用1.2 详细特征提取的过程1. 平滑度计算(`calculateSmoothness()`)2. 标记遮挡点(`markOccludedPoints()`)3. 特征提取(`extractF

图特征工程实践指南:从节点中心性到全局拓扑的多尺度特征提取

图结构在多个领域中扮演着重要角色,它能有效地模拟实体间的连接关系,通过从图中提取有意义的特征,可以获得宝贵的信息提升机器学习算法的性能。 本文将介绍如何利用NetworkX在不同层面(节点、边和整体图)提取重要的图特征。 本文将以NetworkX库中提供的Zachary网络作为示例。这个广为人知的数据集代表了一个大学空手道俱乐部的社交网络,是理解图特征提取的理想起点。 我们先定义一些辅助函数

语音特征提取方法 (二)MFCC

下面总结的是第四个知识点:MFCC。因为花的时间不多,所以可能会有不少说的不妥的地方,还望大家指正。谢谢。         在任意一个Automatic speech recognition 系统中,第一步就是提取特征。换句话说,我们需要把音频信号中具有辨识性的成分提取出来,然后把其他的乱七八糟的信息扔掉,例如背景噪声啊,情绪啊等等。       搞清语音是怎么产生的对于我们理解语音有很大

流动会场:覆盖广泛、声学出色的创新选择—轻空间

在现代社会,活动的多样性和灵活性要求场馆具备更高的适应性。流动会场作为一种创新的场馆形式,以其覆盖人群广泛、快速搭建、成本低廉、优异的声学效果等优势,迅速成为各类活动的首选。无论是商业活动、体育赛事、音乐演出,还是社区集会,流动会场都能在满足不同需求的同时,提供传统场馆难以实现的灵活性、经济性和卓越的音效体验。  覆盖人群广泛,打破空间限制 流动会场最大的优势在于其覆盖人群的广泛性。传

Dimension out of range 等报错解决,可以加拼接后的深度特征提取了

报错 Extracting test features for class bagel: 0%| | 0/110 [00:00<?, ?it/s]Traceback (most recent call last):File "/home/cszx/c1/zgp/3D-ADS-main/patchcore_runner.py", line 46, in evaluatemet

中国科学院声学研究所博士招生目录

中国科学院声学研究所(以下简称声学所)成立于1964年,是从事声学和信息处理技术研究的综合性研究所,总部位于北京市海淀区中关村。目前,声学所在北京设有声场声信息国家重点实验室、国家网络新媒体工程技术研究中心等9个研究单元;在海南建有南海研究站、在上海建有东海研究站、在青岛建有北海研究站。声学所定位是:主要致力于声学和信息处理技术学科的应用基础和高技术发展研究,围绕未来5到10年我国在海洋、安全、能

打造灵动空间,流动会场的声学优势—轻空间

在现代社会中,各类会议、展览、演出、培训等活动越来越多,对场地的需求也越来越多样化。传统的固定场地往往难以满足不同活动的需求,而“流动会场”凭借其灵活多变的特点,迅速成为各类活动的新宠。特别是其独特的声学优势,更是为各种类型的活动提供了不可替代的优质体验。  一、快速搭建,灵活应对多样化需求 流动会场最大的特点是其高效的搭建方式。与传统建筑相比,流动会场无需繁琐的建筑施工和长期的规划审

跨模态检索研究进展综述【跨模态检索的核心工作在于:①不同模态数据的特征提取、②不同模态数据之间内容的相关性度量】【主流研究方法:基于传统统计分析的技术、基于深度学习的技术】【哈希编码提高检索速度】

随着互联网上多媒体数据的爆炸式增长,单一模态的检索已经无法满足用户需求,跨模态检索应运而生. 跨模态检索旨在以一种模态的数据去检索另一种模态的相关数据。 跨模态检索的核心任务是:数据特征提取 和 不同模态数据之间内容的相关性度量。 文中梳理了跨模态检索领域近期的研究进展,从以下角度归纳论述了跨模态检索领域的研究成果.: 传统方法;深度学习方法;手工特征的哈希编码方法;深度学习的哈希编码方法

Pointnet++改进即插即用系列:全网首发ACConv2d|即插即用,提升特征提取模块性能

简介:1.该教程提供大量的首发改进的方式,降低上手难度,多种结构改进,助力寻找创新点!2.本篇文章对Pointnet++特征提取模块进行改进,加入ACConv2d,提升性能。3.专栏持续更新,紧随最新的研究内容。 目录 1.理论介绍 2.修改步骤 2.1 步骤一          2.2 步骤二          2.3 步骤三 1.理论介绍 由于在给定的应用环境中

计算特征相关性的方法,特征提取的方法,如何判断特征是否重要

计算特征相关性可以用皮尔逊系数 (公式及含义解释:表示两组数据的线性关系程度,取值为[-1,1]),衡量的是变量之间的线性相关性,简单快速,但是只对线性关系敏感,非线性不适合;计算特征相关性的指标还有互信息MIC和距离相关系数(Python gist包),取值为[0,1]。 特征工程中包含特征选择和特征提取(区别),特征选择用的是Lasso,OMP,WOMP(特征排序)算法(流程讲清楚),