第一章 基于Ubuntu 24.04 搭建wenet语音转文字

2024-06-22 08:04

本文主要是介绍第一章 基于Ubuntu 24.04 搭建wenet语音转文字,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

系列文章目录

第一章 基于Ubuntu 24.04 搭建wenet语音转文字
第二章 编译运行Android Wenet语音识别


文章目录

  • 系列文章目录
  • 前言
  • 一、Wenet是什么?
  • 二、使用步骤
    • 1.开发安装
    • 2.AAC转换为WAV文件
  • 总结


前言

环境:Ubuntu 24.04+python3.12


一、Wenet是什么?

WeNet是出门问问语音团队联合西工大语音实验室开源的一款面向工业落地应用的语音识别工具包,该工具用一套简洁的方案提供了语音识别从训练到部署的一条龙服务,其主要特点如下:

使用conformer网络结构和CTC/attention  loss联合优化方法,具有业界一流的识别效果。提供云上和端上直接部署的方案,最小化模型训练和产品落地之间的工程工作。框架简洁,模型训练部分完全基于pytorch生态,不依赖于kaldi等安装复杂的工具。详细的注释和文档,十分适合用于学习端到端语音识别的基础知识和实现细节。

Wenet项目地址:https://github.com/wenet-e2e/wenet

二、使用步骤

1.开发安装

在终端中执行

git clone https://github.com/wenet-e2e/wenet.git
cd wenet
pip install -e .

执行pip install -e .提示错误:

error: externally-managed-environment× This environment is externally managed
╰─> To install Python packages system-wide, try apt installpython3-xyz, where xyz is the package you are trying toinstall.If you wish to install a non-Debian-packaged Python package,create a virtual environment using python3 -m venv path/to/venv.Then use path/to/venv/bin/python and path/to/venv/bin/pip. Makesure you have python3-full installed.If you wish to install a non-Debian packaged Python application,it may be easiest to use pipx install xyz, which will manage avirtual environment for you. Make sure you have pipx installed.See /usr/share/doc/python3.12/README.venv for more information.note: If you believe this is a mistake, please contact your Python installation or OS distribution provider. You can override this, at the risk of breaking your Python installation or OS, by passing --break-system-packages.
hint: See PEP 668 for the detailed specification.

这个错误信息表示当前Python环境是由系统外部管理的,通常在某些Linux发行版中(尤其是Debian和基于Debian的系统,比如Ubuntu),系统会强烈建议不要直接使用pip来安装包,以避免与系统包管理器(如apt)的潜在冲突。

解决方案是创建一个虚拟环境,在该环境中可以自由地使用pip安装任何包而不影响系统级别的Python环境。

# 安装python3-venv包,如果还没安装的话
sudo apt install python3-venv# 创建一个新的虚拟环境
python3 -m venv myenv# 激活虚拟环境
source myenv/bin/activate# 现在你可以在虚拟环境中进行安装
pip install -e .

等待下载完成,最后提示安装成功。

在这里插入图片描述

终端内识别音频文件,首次运行会下载 wenetspeech_u2pp_conformer_libtorch.tar.gz

wenet --language chinese audio.wav

识别结果

{'text': '们使用方法扫一扫下载暗学郎被软件注册绑定即可实时接收宝贝在园信息', 'confidence': 0.4810276732848742}

2.AAC转换为WAV文件

手机录音后文件为.aac文件,而wenet不支持此格式,需要转换为wav文件;
在Ubuntu上,你可以使用ffmpeg这个强大的多媒体处理工具来将AAC文件转换为WAV文件。首先,确保你已经安装了ffmpeg。如果没有安装,可以通过以下命令安装:

sudo apt update
sudo apt install ffmpeg

安装完成后,你可以使用以下命令将AAC文件转换为WAV文件:

ffmpeg -i input.aac -c:a pcm_s16le -ar 44100 -ac 2 output.wav

这里的参数解释如下:

  • i input.aac:指定输入的AAC文件。
  • c:a pcm_s16le:指定音频编码器为PCM 16位小端格式。
  • ar 44100:设置采样率为44100 Hz。
  • ac 2:设置声道数为2(立体声)。
  • output.wav:输出的WAV文件名。

确保替换input.aac和output.wav为你的实际文件名。


总结

以上就是今天要讲的内容,本文仅仅简单介绍了wenet的基本搭建与使用,识别准确率还有待提高,替换更好的训练模型数据。

参考:
https://wenet.org.cn/wenet/python_package.html
https://blog.csdn.net/iblade/article/details/135002063

这篇关于第一章 基于Ubuntu 24.04 搭建wenet语音转文字的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1083715

相关文章

利用Python快速搭建Markdown笔记发布系统

《利用Python快速搭建Markdown笔记发布系统》这篇文章主要为大家详细介绍了使用Python生态的成熟工具,在30分钟内搭建一个支持Markdown渲染、分类标签、全文搜索的私有化知识发布系统... 目录引言:为什么要自建知识博客一、技术选型:极简主义开发栈二、系统架构设计三、核心代码实现(分步解析

Ubuntu中远程连接Mysql数据库的详细图文教程

《Ubuntu中远程连接Mysql数据库的详细图文教程》Ubuntu是一个以桌面应用为主的Linux发行版操作系统,这篇文章主要为大家详细介绍了Ubuntu中远程连接Mysql数据库的详细图文教程,有... 目录1、版本2、检查有没有mysql2.1 查询是否安装了Mysql包2.2 查看Mysql版本2.

使用Python实现快速搭建本地HTTP服务器

《使用Python实现快速搭建本地HTTP服务器》:本文主要介绍如何使用Python快速搭建本地HTTP服务器,轻松实现一键HTTP文件共享,同时结合二维码技术,让访问更简单,感兴趣的小伙伴可以了... 目录1. 概述2. 快速搭建 HTTP 文件共享服务2.1 核心思路2.2 代码实现2.3 代码解读3.

MySQL双主搭建+keepalived高可用的实现

《MySQL双主搭建+keepalived高可用的实现》本文主要介绍了MySQL双主搭建+keepalived高可用的实现,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,... 目录一、测试环境准备二、主从搭建1.创建复制用户2.创建复制关系3.开启复制,确认复制是否成功4.同

新特性抢先看! Ubuntu 25.04 Beta 发布:Linux 6.14 内核

《新特性抢先看!Ubuntu25.04Beta发布:Linux6.14内核》Canonical公司近日发布了Ubuntu25.04Beta版,这一版本被赋予了一个活泼的代号——“Plu... Canonical 昨日(3 月 27 日)放出了 Beta 版 Ubuntu 25.04 系统镜像,代号“Pluc

使用Python实现文本转语音(TTS)并播放音频

《使用Python实现文本转语音(TTS)并播放音频》在开发涉及语音交互或需要语音提示的应用时,文本转语音(TTS)技术是一个非常实用的工具,下面我们来看看如何使用gTTS和playsound库将文本... 目录什么是 gTTS 和 playsound安装依赖库实现步骤 1. 导入库2. 定义文本和语言 3

Ubuntu中Nginx虚拟主机设置的项目实践

《Ubuntu中Nginx虚拟主机设置的项目实践》通过配置虚拟主机,可以在同一台服务器上运行多个独立的网站,本文主要介绍了Ubuntu中Nginx虚拟主机设置的项目实践,具有一定的参考价值,感兴趣的可... 目录简介安装 Nginx创建虚拟主机1. 创建网站目录2. 创建默认索引文件3. 配置 Nginx4

讯飞webapi语音识别接口调用示例代码(python)

《讯飞webapi语音识别接口调用示例代码(python)》:本文主要介绍如何使用Python3调用讯飞WebAPI语音识别接口,重点解决了在处理语音识别结果时判断是否为最后一帧的问题,通过运行代... 目录前言一、环境二、引入库三、代码实例四、运行结果五、总结前言基于python3 讯飞webAPI语音

使用DeepSeek搭建个人知识库(在笔记本电脑上)

《使用DeepSeek搭建个人知识库(在笔记本电脑上)》本文介绍了如何在笔记本电脑上使用DeepSeek和开源工具搭建个人知识库,通过安装DeepSeek和RAGFlow,并使用CherryStudi... 目录部署环境软件清单安装DeepSeek安装Cherry Studio安装RAGFlow设置知识库总

Linux搭建Mysql主从同步的教程

《Linux搭建Mysql主从同步的教程》:本文主要介绍Linux搭建Mysql主从同步的教程,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录linux搭建mysql主从同步1.启动mysql服务2.修改Mysql主库配置文件/etc/my.cnf3.重启主库my