将音频分割为60s内的短文件[Cygwin; speech-vad-demo]

2023-11-21 00:40

本文主要是介绍将音频分割为60s内的短文件[Cygwin; speech-vad-demo],希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

安装Cygwin和打开

Windows 安装 cygwin,及cygwin 中 下载cmake make gcc g++等编译软件
安装后,打开cygwin软件,进入相应目录E:\Program_Files\Cygwin\home\ASUS\speech-vad-demo
其中,E:\Program_Files\Cygwin是我安装Cygwin的位置,ASUS是我主机名称,speech-vad-demo是从GitHub点这里下载的代码并解压。

具体操作:
在这里插入图片描述
桌面上有相应图标,双击打开,pwd显示当前位置,结果为:/home/ASUS,实际对应的位置是E:\Program_Files\Cygwin\home\ASUS
speech-vad-demo代码文件复制到ASUS目录下。通过cd speech-vad-demo命令进入即可。

修改代码

1,复制待切分音频到./speech-vad-demo/pcm文件夹中,如result.wav。
2,打开./speech-vad-demo/src/main.c文件,修改第16行为:

const char filename[] = "pcm/result.wav"; // 读取的文件

保存。
3,在cygwin命令行窗口输入sh build_and_run.sh

效果

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
切分完成,可以看到。
音频文件通过 HMM(高斯混合模型) 切分为一些小于60s的片段,而且分割点都是说话人停顿的地方。

(一切似乎进展的很顺利,然而。。)
后续并不顺利,百度ai语音识别转换时报错了

资料

集成Webrtc的VAD,用于切分音频文件 https://github.com/Baidu-AIP/speech-vad-demo

Windows 安装 cygwin,及cygwin 中 下载cmake make gcc g++等编译软件
然后,sh build_and_run.sh

windows 安装cygwin教程 https://blog.csdn.net/chunleixiahe/article/details/55666792
Windows:安装cygwin教程 https://blog.csdn.net/lvsehaiyang1993/article/details/81027399

百度AI平台:http://ai.baidu.com/ai-doc

这篇关于将音频分割为60s内的短文件[Cygwin; speech-vad-demo]的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/398597

相关文章

2.1/5.1和7.1声道系统有什么区别? 音频声道的专业知识科普

《2.1/5.1和7.1声道系统有什么区别?音频声道的专业知识科普》当设置环绕声系统时,会遇到2.1、5.1、7.1、7.1.2、9.1等数字,当一遍又一遍地看到它们时,可能想知道它们是什... 想要把智能电视自带的音响升级成专业级的家庭影院系统吗?那么你将面临一个重要的选择——使用 2.1、5.1 还是

使用Python将长图片分割为若干张小图片

《使用Python将长图片分割为若干张小图片》这篇文章主要为大家详细介绍了如何使用Python将长图片分割为若干张小图片,文中的示例代码讲解详细,感兴趣的小伙伴可以跟随小编一起学习一下... 目录1. python需求的任务2. Python代码的实现3. 代码修改的位置4. 运行结果1. Python需求

C#中字符串分割的多种方式

《C#中字符串分割的多种方式》在C#编程语言中,字符串处理是日常开发中不可或缺的一部分,字符串分割是处理文本数据时常用的操作,它允许我们将一个长字符串分解成多个子字符串,本文给大家介绍了C#中字符串分... 目录1. 使用 string.Split2. 使用正则表达式 (Regex.Split)3. 使用

SAM2POINT:以zero-shot且快速的方式将任何 3D 视频分割为视频

摘要 我们介绍 SAM2POINT,这是一种采用 Segment Anything Model 2 (SAM 2) 进行零样本和快速 3D 分割的初步探索。 SAM2POINT 将任何 3D 数据解释为一系列多向视频,并利用 SAM 2 进行 3D 空间分割,无需进一步训练或 2D-3D 投影。 我们的框架支持各种提示类型,包括 3D 点、框和掩模,并且可以泛化到不同的场景,例如 3D 对象、室

msys2 minggw-w64 cygwin wsl区别

1 mingw-w64,这是gcc一直win平台下产生的,所以是win版的gcc,既支持32也支持64bit 2cygwin专注于原样在windows上构建unix软件, 3msys让Linux开发者在windows上运行软件,msys2专注于构建针对windows api构建的本机软件 4 wsl  windows subsystem for linux 是一个在windows 10 上能

linux 内核提权总结(demo+exp分析) -- 任意读写(四)

hijack_modprobe_path篇 本文转自网络文章,内容均为非盈利,版权归原作者所有。 转载此文章仅为个人收藏,分享知识,如有侵权,马上删除。 原文作者:jmpcall 专栏地址:https://zhuanlan.kanxue.com/user-815036.htm     原理同hijack_prctl, 当用户执行错误格式的elf文件时内核调用call_usermod

linux 内核提权总结(demo+exp分析) -- 任意读写(三)

hijack_prctl篇 本文转自网络文章,内容均为非盈利,版权归原作者所有。 转载此文章仅为个人收藏,分享知识,如有侵权,马上删除。 原文作者:jmpcall 专栏地址:https://zhuanlan.kanxue.com/user-815036.htm   prctl函数: 用户态函数,可用于定制进程参数,非常适合和内核进行交互 用户态执行prctl函数后触发prctl系统

linux 内核提权总结(demo+exp分析) -- 任意读写(二)

hijack_vdso篇 本文转自网络文章,内容均为非盈利,版权归原作者所有。 转载此文章仅为个人收藏,分享知识,如有侵权,马上删除。 原文作者:jmpcall 专栏地址:https://zhuanlan.kanxue.com/user-815036.htm     vdso: 内核实现的一个动态库,存在于内核,然后映射到用户态空间,可由用户态直接调用 内核中的vdso如果被修改

linux 内核提权总结(demo+exp分析) -- 任意读写(一)

cred篇 本文转自网络文章,内容均为非盈利,版权归原作者所有。 转载此文章仅为个人收藏,分享知识,如有侵权,马上删除。 原文作者:jmpcall 专栏地址:https://zhuanlan.kanxue.com/user-815036.htm   每个线程在内核中都对应一个线程结构块thread_infothread_info中存在task_struct类型结构体 struct t

linux 内核提权总结(demo+exp分析) -- ROP(二)

ret2usr CR4篇 本文转自网络文章,内容均为非盈利,版权归原作者所有。 转载此文章仅为个人收藏,分享知识,如有侵权,马上删除。 原文作者:jmpcall 专栏地址:https://zhuanlan.kanxue.com/user-815036.htm   smep: smep是内核的一种保护措施, 使得内核不可执行用户态代码 内核通过CR4寄存器的第20位来控制smep,