本文主要是介绍第一章 基于Ubuntu 24.04 搭建wenet语音转文字,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
系列文章目录
第一章 基于Ubuntu 24.04 搭建wenet语音转文字
第二章 编译运行Android Wenet语音识别
文章目录
- 系列文章目录
- 前言
- 一、Wenet是什么?
- 二、使用步骤
- 1.开发安装
- 2.AAC转换为WAV文件
- 总结
前言
环境:Ubuntu 24.04+python3.12
一、Wenet是什么?
WeNet是出门问问语音团队联合西工大语音实验室开源的一款面向工业落地应用的语音识别工具包,该工具用一套简洁的方案提供了语音识别从训练到部署的一条龙服务,其主要特点如下:
使用conformer网络结构和CTC/attention loss联合优化方法,具有业界一流的识别效果。提供云上和端上直接部署的方案,最小化模型训练和产品落地之间的工程工作。框架简洁,模型训练部分完全基于pytorch生态,不依赖于kaldi等安装复杂的工具。详细的注释和文档,十分适合用于学习端到端语音识别的基础知识和实现细节。
Wenet项目地址:https://github.com/wenet-e2e/wenet
二、使用步骤
1.开发安装
在终端中执行
git clone https://github.com/wenet-e2e/wenet.git
cd wenet
pip install -e .
执行pip install -e .提示错误:
error: externally-managed-environment× This environment is externally managed
╰─> To install Python packages system-wide, try apt installpython3-xyz, where xyz is the package you are trying toinstall.If you wish to install a non-Debian-packaged Python package,create a virtual environment using python3 -m venv path/to/venv.Then use path/to/venv/bin/python and path/to/venv/bin/pip. Makesure you have python3-full installed.If you wish to install a non-Debian packaged Python application,it may be easiest to use pipx install xyz, which will manage avirtual environment for you. Make sure you have pipx installed.See /usr/share/doc/python3.12/README.venv for more information.note: If you believe this is a mistake, please contact your Python installation or OS distribution provider. You can override this, at the risk of breaking your Python installation or OS, by passing --break-system-packages.
hint: See PEP 668 for the detailed specification.
这个错误信息表示当前Python环境是由系统外部管理的,通常在某些Linux发行版中(尤其是Debian和基于Debian的系统,比如Ubuntu),系统会强烈建议不要直接使用pip来安装包,以避免与系统包管理器(如apt)的潜在冲突。
解决方案是创建一个虚拟环境,在该环境中可以自由地使用pip安装任何包而不影响系统级别的Python环境。
# 安装python3-venv包,如果还没安装的话
sudo apt install python3-venv# 创建一个新的虚拟环境
python3 -m venv myenv# 激活虚拟环境
source myenv/bin/activate# 现在你可以在虚拟环境中进行安装
pip install -e .
等待下载完成,最后提示安装成功。
终端内识别音频文件,首次运行会下载 wenetspeech_u2pp_conformer_libtorch.tar.gz
wenet --language chinese audio.wav
识别结果
{'text': '们使用方法扫一扫下载暗学郎被软件注册绑定即可实时接收宝贝在园信息', 'confidence': 0.4810276732848742}
2.AAC转换为WAV文件
手机录音后文件为.aac文件,而wenet不支持此格式,需要转换为wav文件;
在Ubuntu上,你可以使用ffmpeg这个强大的多媒体处理工具来将AAC文件转换为WAV文件。首先,确保你已经安装了ffmpeg。如果没有安装,可以通过以下命令安装:
sudo apt update
sudo apt install ffmpeg
安装完成后,你可以使用以下命令将AAC文件转换为WAV文件:
ffmpeg -i input.aac -c:a pcm_s16le -ar 44100 -ac 2 output.wav
这里的参数解释如下:
- i input.aac:指定输入的AAC文件。
- c:a pcm_s16le:指定音频编码器为PCM 16位小端格式。
- ar 44100:设置采样率为44100 Hz。
- ac 2:设置声道数为2(立体声)。
- output.wav:输出的WAV文件名。
确保替换input.aac和output.wav为你的实际文件名。
总结
以上就是今天要讲的内容,本文仅仅简单介绍了wenet的基本搭建与使用,识别准确率还有待提高,替换更好的训练模型数据。
参考:
https://wenet.org.cn/wenet/python_package.html
https://blog.csdn.net/iblade/article/details/135002063
这篇关于第一章 基于Ubuntu 24.04 搭建wenet语音转文字的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!