VS语音信号处理(3) sonic变速不变调调试记录(二)

2023-10-07 12:50

本文主要是介绍VS语音信号处理(3) sonic变速不变调调试记录(二),希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

VS语音信号处理(3)sonic变速不变调调试记录(二)

  • 前言
  • 一. main函数
  • 二. 生成编译
  • 三. 小结

前言

语音识别相关算法一般在MATLAB上进行仿真验证与实验,在工程上一般还是在VS中进行实现落地,本系列将介绍语音信号处理在C语言中的一系列应用,后期将以此为基础,再落地移植到嵌入式平台。

今天介绍sonic语音变速不变调算法的工程应用。libsonic是一个支持音频倍速播放的开源库。支持大于2倍速的播放。有ANSI C的版本,也有纯Java的版本。无外部依赖能够方便的集成进自己的应用中。

具体工程以及sonic.cpp与sonic.h文件见第一篇文章:VS语音信号处理(3) C语言调用sonic进行变速不变调工程实例
第一次调试记录见sonic的第二篇文章:VS语音信号处理(3) sonic变速不变调调试记录(一)

上述文章直接用的例程中的main函数,输入输入均为PCM语音文件,经过几天的摸索,发现也可以对WAV语音文件进行直接处理,同时发现之所以生成语音的长度不一就是因为帧数与帧长度参数的设置问题,上次调试的遗留问题加速时自适应语音长度,找到了一个比较粗糙的方法,就是首先读取语音的数据长度,再根据总长度调整帧数与帧长度,目前测试得到的数据显示是帧长度与帧数时相关的,语音较长时,帧长度过短,生成的加速语音长度也会比较短,所以讲帧长度与帧数调整为相同,这样生成的加速语音基本上可以保证语音得到加速,并且时长正好是源语音的一半,但这样可能导致语音帧长度较长,以本实例中语音为例,帧长度为90,显然唱过常用的帧长度20~30,而生成的减速语音则完成了语音的减速,但语音长度无法拉长,导致只能得到一半的减速语音,这里还需要进一步学习理解。直接对main函数进行调整如下:

一. main函数

// main.cpp
// sonic进行变速不变调处理
// date:2022-5-16 23:04:19
// author : C.S#include <time.h>
#include <cstring>
#include <iostream>
#include <memory>
#include <queue>
#include <set>
#include <vector>#include "sonic.h"//#define DROP_FRAMEconst int MAXN = 1e6 + 7;const int FRAMESIZE = 8000 / (1000 / 20) * 2;typedef std::pair<int, int> pii;std::set<pii> jitterLine;typedef long long ll;bool isInLine(int pos) 
{for (auto x : jitterLine) {if (x.first <= pos && x.second >= pos) {return true;}}return false;
}void dumpLine() {for (auto x : jitterLine){printf("begin:%d, len:%d beginTime:%lf\n", x.first, x.second - x.first,x.first * 20.0 / 1000);}
}ll calLvl(uint16_t *buffer, int len) {ll sum = 0;for (int i = 0; i < len; ++i) {sum += (buffer[i] * buffer[i]);}return sum;
}void spedUp(uint16_t *outBuf, uint16_t *inBuf1, uint16_t *inBuf2) {int p = 0;for (int i = 0; i < FRAMESIZE; ++i) {if (i & 1) {outBuf[p++] = inBuf1[i];}}for (int i = 0; i < FRAMESIZE; ++i) {if (i & 1) {outBuf[p++] = inBuf2[i];}}
}const double eps = 1e-6;int main(int argc, char *argv[]) 
{FILE *file1 = fopen("xinwenlianbo.wav", "rb");FILE *out_file = fopen("outSped.wav", "wb");fseek(file1, 0, SEEK_END);//文件指针从0挪到尾部long filesize;filesize = ftell(file1);//ftell求文件指针相对于0的字节数,就求出了文件字节数rewind(file1);//还原指针位置int processFrameCount = sqrt((filesize-44)/ FRAMESIZE)+1;  //关键参数:语音帧数 int maxJitterSize = processFrameCount;                     //关键参数:帧长度?double speed = 2.0;                                        //关键参数:调整倍速uint8_t *inBuf = new uint8_t[MAXN];uint8_t *it = inBuf;uint8_t addBuf[MAXN] = { 0 };srand(time(0));/* generate jitter */int begin = 1;int len = maxJitterSize;jitterLine.insert(std::make_pair(begin, begin + len));/* dump jitter */
#ifdef DROP_FRAMEprintf("this frame will be frop!\n");
#elseprintf("this frame will be set mute!\n");
#endifdumpLine();/* if p is in jitter range then repalce it into mute frame */for (int p = 0; p < processFrameCount; ++p){if (isInLine(p)){it = inBuf;for (int i = 0; i < maxJitterSize; ++i) {fread(it, 1, FRAMESIZE, file1);it += FRAMESIZE;}sonicChangeShortSpeed((short int *)inBuf, maxJitterSize * FRAMESIZE,speed, 1.0f, 1.0f, 1.0f, 0, 8000, 1);fwrite(inBuf, 1, (1.0 * maxJitterSize / speed + eps) * FRAMESIZE, out_file);}else if(p==0){fread(inBuf, 1, FRAMESIZE, file1);fwrite(inBuf, 1, FRAMESIZE, out_file);}}return 0;
}

代码添加完毕,准备好一个语音文件:xinwenlianbo.pcm,放在源文件目录下
在这里插入图片描述

二. 生成编译

点击目录栏“生成”中“生成解决方案”,生成成功后,调试运行,生成一个outSped.wav文件,调用成功。
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

speed = 2.0时原语音与变速语音波形(Cool Edit打开查看)
在这里插入图片描述
speed = 0.5时变速语音波形(Cool Edit打开查看)
在这里插入图片描述

三. 小结

加速减速试听效果都不错,但仍存在以下问题:
(1)减速时,语音长度无法加长,即有一半减速语音未生成;
(2)自适应语音帧数与帧长度的计算有待进一步验证;

后期根据学习了解,还需要进行相应的调整,并在工程中进行语音的变速不变调,完成调试后再进行具体的介绍。

这篇关于VS语音信号处理(3) sonic变速不变调调试记录(二)的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/157850

相关文章

Python获取中国节假日数据记录入JSON文件

《Python获取中国节假日数据记录入JSON文件》项目系统内置的日历应用为了提升用户体验,特别设置了在调休日期显示“休”的UI图标功能,那么问题是这些调休数据从哪里来呢?我尝试一种更为智能的方法:P... 目录节假日数据获取存入jsON文件节假日数据读取封装完整代码项目系统内置的日历应用为了提升用户体验,

Spring Boot 配置文件之类型、加载顺序与最佳实践记录

《SpringBoot配置文件之类型、加载顺序与最佳实践记录》SpringBoot的配置文件是灵活且强大的工具,通过合理的配置管理,可以让应用开发和部署更加高效,无论是简单的属性配置,还是复杂... 目录Spring Boot 配置文件详解一、Spring Boot 配置文件类型1.1 applicatio

MySQL INSERT语句实现当记录不存在时插入的几种方法

《MySQLINSERT语句实现当记录不存在时插入的几种方法》MySQL的INSERT语句是用于向数据库表中插入新记录的关键命令,下面:本文主要介绍MySQLINSERT语句实现当记录不存在时... 目录使用 INSERT IGNORE使用 ON DUPLICATE KEY UPDATE使用 REPLACE

Python 中的异步与同步深度解析(实践记录)

《Python中的异步与同步深度解析(实践记录)》在Python编程世界里,异步和同步的概念是理解程序执行流程和性能优化的关键,这篇文章将带你深入了解它们的差异,以及阻塞和非阻塞的特性,同时通过实际... 目录python中的异步与同步:深度解析与实践异步与同步的定义异步同步阻塞与非阻塞的概念阻塞非阻塞同步

Python Dash框架在数据可视化仪表板中的应用与实践记录

《PythonDash框架在数据可视化仪表板中的应用与实践记录》Python的PlotlyDash库提供了一种简便且强大的方式来构建和展示互动式数据仪表板,本篇文章将深入探讨如何使用Dash设计一... 目录python Dash框架在数据可视化仪表板中的应用与实践1. 什么是Plotly Dash?1.1

使用Python实现文本转语音(TTS)并播放音频

《使用Python实现文本转语音(TTS)并播放音频》在开发涉及语音交互或需要语音提示的应用时,文本转语音(TTS)技术是一个非常实用的工具,下面我们来看看如何使用gTTS和playsound库将文本... 目录什么是 gTTS 和 playsound安装依赖库实现步骤 1. 导入库2. 定义文本和语言 3

Spring Boot中定时任务Cron表达式的终极指南最佳实践记录

《SpringBoot中定时任务Cron表达式的终极指南最佳实践记录》本文详细介绍了SpringBoot中定时任务的实现方法,特别是Cron表达式的使用技巧和高级用法,从基础语法到复杂场景,从快速启... 目录一、Cron表达式基础1.1 Cron表达式结构1.2 核心语法规则二、Spring Boot中定

讯飞webapi语音识别接口调用示例代码(python)

《讯飞webapi语音识别接口调用示例代码(python)》:本文主要介绍如何使用Python3调用讯飞WebAPI语音识别接口,重点解决了在处理语音识别结果时判断是否为最后一帧的问题,通过运行代... 目录前言一、环境二、引入库三、代码实例四、运行结果五、总结前言基于python3 讯飞webAPI语音

国内环境搭建私有知识问答库踩坑记录(ollama+deepseek+ragflow)

《国内环境搭建私有知识问答库踩坑记录(ollama+deepseek+ragflow)》本文给大家利用deepseek模型搭建私有知识问答库的详细步骤和遇到的问题及解决办法,感兴趣的朋友一起看看吧... 目录1. 第1步大家在安装完ollama后,需要到系统环境变量中添加两个变量2. 第3步 “在cmd中

前端bug调试的方法技巧及常见错误

《前端bug调试的方法技巧及常见错误》:本文主要介绍编程中常见的报错和Bug,以及调试的重要性,调试的基本流程是通过缩小范围来定位问题,并给出了推测法、删除代码法、console调试和debugg... 目录调试基本流程调试方法排查bug的两大技巧如何看控制台报错前端常见错误取值调用报错资源引入错误解析错误