【语音识别】基于matlab功率谱和倍频法男女生识别【含Matlab源码 705期】

2024-04-11 07:48

本文主要是介绍【语音识别】基于matlab功率谱和倍频法男女生识别【含Matlab源码 705期】,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

✅博主简介:热爱科研的Matlab仿真开发者,修心和技术同步精进,Matlab项目合作可私信。
🍎个人主页:海神之光
🏆代码获取方式:
海神之光Matlab王者学习之路—代码获取方式
⛳️座右铭:行百里者,半于九十。

更多Matlab仿真内容点击👇
Matlab图像处理(进阶版)
路径规划(Matlab)
神经网络预测与分类(Matlab)
优化求解(Matlab)
语音处理(Matlab)
信号处理(Matlab)
车间调度(Matlab)

⛄一、简介

1 语音信号倍频程谱、1/3倍频程谱
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
2 原始信号频谱、功率谱及功率谱密度分析
2.1 频谱分析
由图1和图2的(男/女声)原始信号频谱对比分析可知,女声的频谱幅值在每个频段基本都大于男声,且在1000Hz处女声的频谱幅值大于800,而男声的小于800;在6000以上频段女声的频谱幅值较男声的明显更大。

2.2 功率谱及功率谱密度分析
这段录音是非周期性的,可将其看作随机信号处理,一个信号有三个组成部分:幅值、相位和频率成分。对于随机信号而言,这三个组成部分都是随机的,当然它的幅值是围绕平均值在交变,包含所有的频率成分,相位完全杂乱无序。任一时刻与下一时刻之间没有任何关联,所以,不能用确定的数学函数来表征,只能从统计学角度来分析处理。将一个信号从时域通过FFT变换到频域,得到的直接结果就是所谓的频谱,频谱是复数形式,有幅值和相位。由于频谱是复数形式,包含相位信息,当信号中包含不相关的噪声成分时,由于噪声成分的相位是杂乱无序的,那么多次线性平均之后,可以将不相关的噪声平均掉。
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

⛄二、部分源代码

clc;
clear;
close all;
%%原始声音信号
[x,fs]=audioread('男声.m4a');%读取声音信号
N=length(x);
t=(0:1/fs:(N-1)/fs);%定义采样时间
figure(1);
subplot(2,2,1);
plot(t,x);
axis([0 60 -0.3 0.3]);
title('(男声)声音信号时域');
xlabel('时间');
ylabel('幅值');
y=fft(x,N);
y1=abs(y);       %计算双边谱
y2=y1(1:N/2+1);    %计算单边谱
f=fs*(0:(N/2))/N;  %计算频率
P=y2.^2;  %功率计算
subplot(2,2,2);
plot(f,y2);
axis([0 7600 0 900]);
title('原始信号频谱');
xlabel('频率');
ylabel('幅值');
subplot(2,2,3);
plot(f,P);
title('原始信号功率谱');
xlabel('频率');
ylabel('功率值'); 
%倍频程计算
n=1/3;                                     %倍频程数
k=0;                                       %循环次数初始化     
w2=22.4;                                   %初始化w2,人耳能听到的声音范围20Hz-20KHz 
while(w2<=fs/2)                            %循环到w2>Fs/2         w1=w2;         w2=w1*2^n;         k=k+1;     
end
w2=22.4; 
m=1:1:k-1;
centerf(m)=zeros(length(m),1);
r(m)=zeros(length(m),1);
for m=1:1:k-1                             %m从1每次加1,直到m=k-1         w1=w2;                                %确定频带下限频率w1         w2=w1*2^n;                            %确定频带上限频率w2          centerf(m)=(w1+w2)/2;                 %计算中心频率centerf n1=round(w1/(fs/N));n2=round(w2/(fs/N));y3=y1(n1-1:n2-1);n3=length(y3);r(m)=sum(((y3).^2)/n3);%每个频程的平均功率
end
pref=2e-5;%参考声压
subplot(2,2,4);
stem(centerf,20*log10(r/pref));
xlabel('中心频率');
ylabel('能量');
title('1/3倍频程谱');figure(2);
%倍频程计算
n=1;                                       %倍频程数
k=0;                                       %循环次数初始化     
w2=22.4;                                   %初始化w2,人耳能听到的声音范围20Hz-20KHz 
while(w2<=fs/2)                            %循环到w2>Fs/2         w1=w2;         w2=w1*2^n;         k=k+1;     
end
w2=22.4; 
m=1:1:k-1;
centerf(m)=zeros(length(m),1);
r(m)=zeros(length(m),1);
for m=1:1:k-1                             %m从1每次加1,直到m=k-1         w1=w2;                                %确定频带下限频率w1         w2=w1*2^n;                            %确定频带上限频率w2          centerf(m)=(w1+w2)/2;                 %计算中心频率centerf n1=round(w1/(fs/N));n2=round(w2/(fs/N));y3=y1(n1-1:n2-1);n3=length(y3);r(m)=sum(((y3).^2)/n3);%每个频程的平均功率
end
pref=2e-5;%参考声压
subplot(211);
stem(centerf,20*log10(r/pref));
xlabel('中心频率');
ylabel('能量');
title('倍频程谱');n=1/3;                                       %倍频程数
k=0;                                       %循环次数初始化     
w2=22.4;                                   %初始化w2,人耳能听到的声音范围20Hz-20KHz 
while(w2<=fs/2)                            %循环到w2>Fs/2         w1=w2;         w2=w1*2^n;         k=k+1;     
end
%%原始声音信号
[x,fs]=audioread('C:\Users\lenovo\Desktop\326a7c94289093dcf4885157a5936c6b\男女声音识别大作业\男声.m4a');%读取声音信号
N=length(x);
t=(0:1/fs:(N-1)/fs);%定义采样时间
figure(1);
subplot(221);
plot(t,x);
axis([0 60 -0.3 0.3]);
title('(男声)声音信号时域');
xlabel('时间');
ylabel('幅值');
y=fft(x,N);
y1=abs(y);       %计算双边谱
y2=y1(1:N/2+1);    %计算单边谱
f=fs*(0:(N/2))/N;  %计算频率
P=y2.^2;  %功率计算
subplot(223);
plot(f,P);
title('(男声)原始信号功率谱');
xlabel('频率');
ylabel('功率值'); figure(2);
subplot(321);
plot(f,y2);
axis([0 7600 0 900]);
title('(男声)原始信号频谱');
xlabel('频率');
ylabel('幅值');
%倍频程计算
n=1;                                       %倍频程数
k=0;                                       %循环次数初始化     
w2=22.4;                                   %初始化w2,人耳能听到的声音范围20Hz-20KHz 
while(w2<=fs/2)                            %循环到w2>Fs/2         w1=w2;         w2=w1*2^n;         k=k+1;     
end
w2=22.4; 
m=1:1:k-1;
centerf(m)=zeros(length(m),1);
r(m)=zeros(length(m),1);
for m=1:1:k-1                             %m从1每次加1,直到m=k-1         w1=w2;                                %确定频带下限频率w1         w2=w1*2^n;                            %确定频带上限频率w2          centerf(m)=sqrt(w1*w2);                 %计算中心频率centerf n1=round(w1/(fs/N));n2=round(w2/(fs/N));y3=y1(n1-1:n2-1);n3=length(y3);r(m)=sum(((y3).^2)/n3);%每个频带内频谱谱线幅值的均方根之和
end
pref=2e-5;%参考声压
subplot(323);
bar(20*log10(r/pref));%计算分贝值
set(gca,'XTick',(1:1:10)); grid   
set(gca,'XTickLabels',round(centerf(1:1:length(centerf))));
xlabel('中心频率/Hz');
ylabel('声压/dB');
title('(男声)倍频程谱');n=1/3;                                       %倍频程数
k=0;                                       %循环次数初始化     
w2=22.4;                                   %初始化w2,人耳能听到的声音范围20Hz-20KHz 
while(w2<=fs/2)                            %循环到w2>Fs/2         w1=w2;         w2=w1*2^n;         k=k+1;     
end
w2=22.4; 
m=1:1:k-1;
centerf(m)=zeros(length(m),1);
r(m)=zeros(length(m),1);
for m=1:1:k-1                             %m从1每次加1,直到m=k-1         w1=w2;                                %确定频带下限频率w1         w2=w1*2^n;                            %确定频带上限频率w2          centerf(m)=sqrt(w1*w2);                 %计算中心频率centerf n1=round(w1/(fs/N));n2=round(w2/(fs/N));y3=y1(n1-1:n2-1);n3=length(y3);r(m)=sum(((y3).^2)/n3);%每个频带内频谱谱线幅值的均方根之和
end
pref=2e-5;%参考声压
subplot(325);
bar(20*log10(r/pref));%计算分贝值
set(gca,'XTick',(1:1:30)); grid   
set(gca,'XTickLabels',round(centerf(1:1:length(centerf))));
xlabel('中心频率/Hz');
ylabel('声压/dB');
title('(男声)三分之一倍频程谱');%%女声倍频程分析
clc;
clear;
%原始声音信号
[x,fs]=audioread('C:\Users\lenovo\Desktop\326a7c94289093dcf4885157a5936c6b\男女声音识别大作业\女声.m4a');%读取声音信号
N=length(x);
t=(0:1/fs:(N-1)/fs);%定义采样时间
figure(1);
subplot(222);
plot(t,x);
axis([0 60 -0.3 0.3]);
title('(女声)声音信号时域');
xlabel('时间');
ylabel('幅值');
y=fft(x,N);
y1=abs(y);       %计算双边谱
y2=y1(1:N/2+1);    %计算单边谱
f=fs*(0:(N/2))/N;  %计算频率
P=y2.^2;  %功率计算
subplot(224);
plot(f,P);
title('(女声)原始信号功率谱');
xlabel('频率');
ylabel('功率值'); figure(2);
subplot(322);
plot(f,y2);
axis([0 7600 0 900]);
title('(女声)原始信号频谱');
xlabel('频率');
ylabel('幅值');
%倍频程计算
n=1;                                       %倍频程数
k=0;                                       %循环次数初始化     
w2=22.4;                                   %初始化w2,人耳能听到的声音范围20Hz-20KHz 
while(w2<=fs/2)                            %循环到w2>Fs/2         w1=w2;         w2=w1*2^n;         k=k+1;     
end

⛄三、运行结果

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

⛄四、matlab版本及参考文献

1 matlab版本
2014a

2 参考文献
[1]韩纪庆,张磊,郑铁然.语音信号处理(第3版)[M].清华大学出版社,2019.
[2]柳若边.深度学习:语音识别技术实践[M].清华大学出版社,2019.

3 备注
简介此部分摘自互联网,仅供参考,若侵权,联系删除

🍅 仿真咨询
1 各类智能优化算法改进及应用

生产调度、经济调度、装配线调度、充电优化、车间调度、发车优化、水库调度、三维装箱、物流选址、货位优化、公交排班优化、充电桩布局优化、车间布局优化、集装箱船配载优化、水泵组合优化、解医疗资源分配优化、设施布局优化、可视域基站和无人机选址优化

2 机器学习和深度学习方面
卷积神经网络(CNN)、LSTM、支持向量机(SVM)、最小二乘支持向量机(LSSVM)、极限学习机(ELM)、核极限学习机(KELM)、BP、RBF、宽度学习、DBN、RF、RBF、DELM、XGBOOST、TCN实现风电预测、光伏预测、电池寿命预测、辐射源识别、交通流预测、负荷预测、股价预测、PM2.5浓度预测、电池健康状态预测、水体光学参数反演、NLOS信号识别、地铁停车精准预测、变压器故障诊断

3 图像处理方面
图像识别、图像分割、图像检测、图像隐藏、图像配准、图像拼接、图像融合、图像增强、图像压缩感知

4 路径规划方面
旅行商问题(TSP)、车辆路径问题(VRP、MVRP、CVRP、VRPTW等)、无人机三维路径规划、无人机协同、无人机编队、机器人路径规划、栅格地图路径规划、多式联运运输问题、车辆协同无人机路径规划、天线线性阵列分布优化、车间布局优化

5 无人机应用方面
无人机路径规划、无人机控制、无人机编队、无人机协同、无人机任务分配

6 无线传感器定位及布局方面
传感器部署优化、通信协议优化、路由优化、目标定位优化、Dv-Hop定位优化、Leach协议优化、WSN覆盖优化、组播优化、RSSI定位优化

7 信号处理方面
信号识别、信号加密、信号去噪、信号增强、雷达信号处理、信号水印嵌入提取、肌电信号、脑电信号、信号配时优化

8 电力系统方面
微电网优化、无功优化、配电网重构、储能配置

9 元胞自动机方面
交通流 人群疏散 病毒扩散 晶体生长

10 雷达方面
卡尔曼滤波跟踪、航迹关联、航迹融合

这篇关于【语音识别】基于matlab功率谱和倍频法男女生识别【含Matlab源码 705期】的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/893491

相关文章

Python实现无痛修改第三方库源码的方法详解

《Python实现无痛修改第三方库源码的方法详解》很多时候,我们下载的第三方库是不会有需求不满足的情况,但也有极少的情况,第三方库没有兼顾到需求,本文将介绍几个修改源码的操作,大家可以根据需求进行选择... 目录需求不符合模拟示例 1. 修改源文件2. 继承修改3. 猴子补丁4. 追踪局部变量需求不符合很

使用Python实现文本转语音(TTS)并播放音频

《使用Python实现文本转语音(TTS)并播放音频》在开发涉及语音交互或需要语音提示的应用时,文本转语音(TTS)技术是一个非常实用的工具,下面我们来看看如何使用gTTS和playsound库将文本... 目录什么是 gTTS 和 playsound安装依赖库实现步骤 1. 导入库2. 定义文本和语言 3

使用PyTorch实现手写数字识别功能

《使用PyTorch实现手写数字识别功能》在人工智能的世界里,计算机视觉是最具魅力的领域之一,通过PyTorch这一强大的深度学习框架,我们将在经典的MNIST数据集上,见证一个神经网络从零开始学会识... 目录当计算机学会“看”数字搭建开发环境MNIST数据集解析1. 认识手写数字数据库2. 数据预处理的

Pytorch微调BERT实现命名实体识别

《Pytorch微调BERT实现命名实体识别》命名实体识别(NER)是自然语言处理(NLP)中的一项关键任务,它涉及识别和分类文本中的关键实体,BERT是一种强大的语言表示模型,在各种NLP任务中显著... 目录环境准备加载预训练BERT模型准备数据集标记与对齐微调 BERT最后总结环境准备在继续之前,确

Spring 中 BeanFactoryPostProcessor 的作用和示例源码分析

《Spring中BeanFactoryPostProcessor的作用和示例源码分析》Spring的BeanFactoryPostProcessor是容器初始化的扩展接口,允许在Bean实例化前... 目录一、概览1. 核心定位2. 核心功能详解3. 关键特性二、Spring 内置的 BeanFactory

讯飞webapi语音识别接口调用示例代码(python)

《讯飞webapi语音识别接口调用示例代码(python)》:本文主要介绍如何使用Python3调用讯飞WebAPI语音识别接口,重点解决了在处理语音识别结果时判断是否为最后一帧的问题,通过运行代... 目录前言一、环境二、引入库三、代码实例四、运行结果五、总结前言基于python3 讯飞webAPI语音

使用Python开发一个图像标注与OCR识别工具

《使用Python开发一个图像标注与OCR识别工具》:本文主要介绍一个使用Python开发的工具,允许用户在图像上进行矩形标注,使用OCR对标注区域进行文本识别,并将结果保存为Excel文件,感兴... 目录项目简介1. 图像加载与显示2. 矩形标注3. OCR识别4. 标注的保存与加载5. 裁剪与重置图像

Python爬虫selenium验证之中文识别点选+图片验证码案例(最新推荐)

《Python爬虫selenium验证之中文识别点选+图片验证码案例(最新推荐)》本文介绍了如何使用Python和Selenium结合ddddocr库实现图片验证码的识别和点击功能,感兴趣的朋友一起看... 目录1.获取图片2.目标识别3.背景坐标识别3.1 ddddocr3.2 打码平台4.坐标点击5.图

如何通过海康威视设备网络SDK进行Java二次开发摄像头车牌识别详解

《如何通过海康威视设备网络SDK进行Java二次开发摄像头车牌识别详解》:本文主要介绍如何通过海康威视设备网络SDK进行Java二次开发摄像头车牌识别的相关资料,描述了如何使用海康威视设备网络SD... 目录前言开发流程问题和解决方案dll库加载不到的问题老旧版本sdk不兼容的问题关键实现流程总结前言作为

Go中sync.Once源码的深度讲解

《Go中sync.Once源码的深度讲解》sync.Once是Go语言标准库中的一个同步原语,用于确保某个操作只执行一次,本文将从源码出发为大家详细介绍一下sync.Once的具体使用,x希望对大家有... 目录概念简单示例源码解读总结概念sync.Once是Go语言标准库中的一个同步原语,用于确保某个操