本文主要是介绍语音断点检测(短时改进子带谱熵),希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
1. 音频分析
1.输出语音的切分时间点信息,时间点用毫秒表示;
2.把语音分割成多个wav文件;
端点检测:确定句子的时间起始点和终点,忽略中间少量的非语音帧,
用于语音识别。(Speech Endpoint Detection)
熵在信息论中是反映信息度量的一个量。某随机事件的随机性越大,
即不确定性越高,则熵值也越大,所以携带的信息量亦越大。
本次作业采用 谱熵法 对语音进行端点检测。
2. 谱熵法
3. 预处理
4. 双门限法端点检测
5. 实验结果
处理 PHONE_001.wav 得到的信息
(1)time.csv: 为语音切段信息;
(2)PHONE_001_vad.wav:为语音VAD处理后,语音段合成的wav;
(3)segmentation文件夹: 为语音分段后各小段的语音;
(4)main_VAD.m: 主函数;
(5)vad.m: 为双门限法端点检测函数;
(6)houzhichuli.m: 为间歇长度判定函数;
(7)frame2time.m: 为帧对于的时间函数;
代码:
VAD
+qq:1095982611; 80% discount
这篇关于语音断点检测(短时改进子带谱熵)的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!