VS语音信号处理(3) sonic变速不变调调试记录(二)

2023-10-07 12:50

本文主要是介绍VS语音信号处理(3) sonic变速不变调调试记录(二),希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

VS语音信号处理(3)sonic变速不变调调试记录(二)

  • 前言
  • 一. main函数
  • 二. 生成编译
  • 三. 小结

前言

语音识别相关算法一般在MATLAB上进行仿真验证与实验,在工程上一般还是在VS中进行实现落地,本系列将介绍语音信号处理在C语言中的一系列应用,后期将以此为基础,再落地移植到嵌入式平台。

今天介绍sonic语音变速不变调算法的工程应用。libsonic是一个支持音频倍速播放的开源库。支持大于2倍速的播放。有ANSI C的版本,也有纯Java的版本。无外部依赖能够方便的集成进自己的应用中。

具体工程以及sonic.cpp与sonic.h文件见第一篇文章:VS语音信号处理(3) C语言调用sonic进行变速不变调工程实例
第一次调试记录见sonic的第二篇文章:VS语音信号处理(3) sonic变速不变调调试记录(一)

上述文章直接用的例程中的main函数,输入输入均为PCM语音文件,经过几天的摸索,发现也可以对WAV语音文件进行直接处理,同时发现之所以生成语音的长度不一就是因为帧数与帧长度参数的设置问题,上次调试的遗留问题加速时自适应语音长度,找到了一个比较粗糙的方法,就是首先读取语音的数据长度,再根据总长度调整帧数与帧长度,目前测试得到的数据显示是帧长度与帧数时相关的,语音较长时,帧长度过短,生成的加速语音长度也会比较短,所以讲帧长度与帧数调整为相同,这样生成的加速语音基本上可以保证语音得到加速,并且时长正好是源语音的一半,但这样可能导致语音帧长度较长,以本实例中语音为例,帧长度为90,显然唱过常用的帧长度20~30,而生成的减速语音则完成了语音的减速,但语音长度无法拉长,导致只能得到一半的减速语音,这里还需要进一步学习理解。直接对main函数进行调整如下:

一. main函数

// main.cpp
// sonic进行变速不变调处理
// date:2022-5-16 23:04:19
// author : C.S#include <time.h>
#include <cstring>
#include <iostream>
#include <memory>
#include <queue>
#include <set>
#include <vector>#include "sonic.h"//#define DROP_FRAMEconst int MAXN = 1e6 + 7;const int FRAMESIZE = 8000 / (1000 / 20) * 2;typedef std::pair<int, int> pii;std::set<pii> jitterLine;typedef long long ll;bool isInLine(int pos) 
{for (auto x : jitterLine) {if (x.first <= pos && x.second >= pos) {return true;}}return false;
}void dumpLine() {for (auto x : jitterLine){printf("begin:%d, len:%d beginTime:%lf\n", x.first, x.second - x.first,x.first * 20.0 / 1000);}
}ll calLvl(uint16_t *buffer, int len) {ll sum = 0;for (int i = 0; i < len; ++i) {sum += (buffer[i] * buffer[i]);}return sum;
}void spedUp(uint16_t *outBuf, uint16_t *inBuf1, uint16_t *inBuf2) {int p = 0;for (int i = 0; i < FRAMESIZE; ++i) {if (i & 1) {outBuf[p++] = inBuf1[i];}}for (int i = 0; i < FRAMESIZE; ++i) {if (i & 1) {outBuf[p++] = inBuf2[i];}}
}const double eps = 1e-6;int main(int argc, char *argv[]) 
{FILE *file1 = fopen("xinwenlianbo.wav", "rb");FILE *out_file = fopen("outSped.wav", "wb");fseek(file1, 0, SEEK_END);//文件指针从0挪到尾部long filesize;filesize = ftell(file1);//ftell求文件指针相对于0的字节数,就求出了文件字节数rewind(file1);//还原指针位置int processFrameCount = sqrt((filesize-44)/ FRAMESIZE)+1;  //关键参数:语音帧数 int maxJitterSize = processFrameCount;                     //关键参数:帧长度?double speed = 2.0;                                        //关键参数:调整倍速uint8_t *inBuf = new uint8_t[MAXN];uint8_t *it = inBuf;uint8_t addBuf[MAXN] = { 0 };srand(time(0));/* generate jitter */int begin = 1;int len = maxJitterSize;jitterLine.insert(std::make_pair(begin, begin + len));/* dump jitter */
#ifdef DROP_FRAMEprintf("this frame will be frop!\n");
#elseprintf("this frame will be set mute!\n");
#endifdumpLine();/* if p is in jitter range then repalce it into mute frame */for (int p = 0; p < processFrameCount; ++p){if (isInLine(p)){it = inBuf;for (int i = 0; i < maxJitterSize; ++i) {fread(it, 1, FRAMESIZE, file1);it += FRAMESIZE;}sonicChangeShortSpeed((short int *)inBuf, maxJitterSize * FRAMESIZE,speed, 1.0f, 1.0f, 1.0f, 0, 8000, 1);fwrite(inBuf, 1, (1.0 * maxJitterSize / speed + eps) * FRAMESIZE, out_file);}else if(p==0){fread(inBuf, 1, FRAMESIZE, file1);fwrite(inBuf, 1, FRAMESIZE, out_file);}}return 0;
}

代码添加完毕,准备好一个语音文件:xinwenlianbo.pcm,放在源文件目录下
在这里插入图片描述

二. 生成编译

点击目录栏“生成”中“生成解决方案”,生成成功后,调试运行,生成一个outSped.wav文件,调用成功。
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

speed = 2.0时原语音与变速语音波形(Cool Edit打开查看)
在这里插入图片描述
speed = 0.5时变速语音波形(Cool Edit打开查看)
在这里插入图片描述

三. 小结

加速减速试听效果都不错,但仍存在以下问题:
(1)减速时,语音长度无法加长,即有一半减速语音未生成;
(2)自适应语音帧数与帧长度的计算有待进一步验证;

后期根据学习了解,还需要进行相应的调整,并在工程中进行语音的变速不变调,完成调试后再进行具体的介绍。

这篇关于VS语音信号处理(3) sonic变速不变调调试记录(二)的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/157850

相关文章

阿里开源语音识别SenseVoiceWindows环境部署

SenseVoice介绍 SenseVoice 专注于高精度多语言语音识别、情感辨识和音频事件检测多语言识别: 采用超过 40 万小时数据训练,支持超过 50 种语言,识别效果上优于 Whisper 模型。富文本识别:具备优秀的情感识别,能够在测试数据上达到和超过目前最佳情感识别模型的效果。支持声音事件检测能力,支持音乐、掌声、笑声、哭声、咳嗽、喷嚏等多种常见人机交互事件进行检测。高效推

让树莓派智能语音助手实现定时提醒功能

最初的时候是想直接在rasa 的chatbot上实现,因为rasa本身是带有remindschedule模块的。不过经过一番折腾后,忽然发现,chatbot上实现的定时,语音助手不一定会有响应。因为,我目前语音助手的代码设置了长时间无应答会结束对话,这样一来,chatbot定时提醒的触发就不会被语音助手获悉。那怎么让语音助手也具有定时提醒功能呢? 我最后选择的方法是用threading.Time

Android平台播放RTSP流的几种方案探究(VLC VS ExoPlayer VS SmartPlayer)

技术背景 好多开发者需要遴选Android平台RTSP直播播放器的时候,不知道如何选的好,本文针对常用的方案,做个大概的说明: 1. 使用VLC for Android VLC Media Player(VLC多媒体播放器),最初命名为VideoLAN客户端,是VideoLAN品牌产品,是VideoLAN计划的多媒体播放器。它支持众多音频与视频解码器及文件格式,并支持DVD影音光盘,VCD影

ASIO网络调试助手之一:简介

多年前,写过几篇《Boost.Asio C++网络编程》的学习文章,一直没机会实践。最近项目中用到了Asio,于是抽空写了个网络调试助手。 开发环境: Win10 Qt5.12.6 + Asio(standalone) + spdlog 支持协议: UDP + TCP Client + TCP Server 独立的Asio(http://www.think-async.com)只包含了头文件,不依

如何在Visual Studio中调试.NET源码

今天偶然在看别人代码时,发现在他的代码里使用了Any判断List<T>是否为空。 我一般的做法是先判断是否为null,再判断Count。 看了一下Count的源码如下: 1 [__DynamicallyInvokable]2 public int Count3 {4 [__DynamicallyInvokable]5 get

计算机毕业设计 大学志愿填报系统 Java+SpringBoot+Vue 前后端分离 文档报告 代码讲解 安装调试

🍊作者:计算机编程-吉哥 🍊简介:专业从事JavaWeb程序开发,微信小程序开发,定制化项目、 源码、代码讲解、文档撰写、ppt制作。做自己喜欢的事,生活就是快乐的。 🍊心愿:点赞 👍 收藏 ⭐评论 📝 🍅 文末获取源码联系 👇🏻 精彩专栏推荐订阅 👇🏻 不然下次找不到哟~Java毕业设计项目~热门选题推荐《1000套》 目录 1.技术选型 2.开发工具 3.功能

Node.js学习记录(二)

目录 一、express 1、初识express 2、安装express 3、创建并启动web服务器 4、监听 GET&POST 请求、响应内容给客户端 5、获取URL中携带的查询参数 6、获取URL中动态参数 7、静态资源托管 二、工具nodemon 三、express路由 1、express中路由 2、路由的匹配 3、路由模块化 4、路由模块添加前缀 四、中间件

vscode中文乱码问题,注释,终端,调试乱码一劳永逸版

忘记咋回事突然出现了乱码问题,很多方法都试了,注释乱码解决了,终端又乱码,调试窗口也乱码,最后经过本人不懈努力,终于全部解决了,现在分享给大家我的方法。 乱码的原因是各个地方用的编码格式不统一,所以把他们设成统一的utf8. 1.电脑的编码格式 开始-设置-时间和语言-语言和区域 管理语言设置-更改系统区域设置-勾选Bata版:使用utf8-确定-然后按指示重启 2.vscode

AI(文生语音)-TTS 技术线路探索学习:从拼接式参数化方法到Tacotron端到端输出

AI(文生语音)-TTS 技术线路探索学习:从拼接式参数化方法到Tacotron端到端输出 在数字化时代,文本到语音(Text-to-Speech, TTS)技术已成为人机交互的关键桥梁,无论是为视障人士提供辅助阅读,还是为智能助手注入声音的灵魂,TTS 技术都扮演着至关重要的角色。从最初的拼接式方法到参数化技术,再到现今的深度学习解决方案,TTS 技术经历了一段长足的进步。这篇文章将带您穿越时