第一章 基于Ubuntu 24.04 搭建wenet语音转文字

2024-06-22 08:04

本文主要是介绍第一章 基于Ubuntu 24.04 搭建wenet语音转文字,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

系列文章目录

第一章 基于Ubuntu 24.04 搭建wenet语音转文字
第二章 编译运行Android Wenet语音识别


文章目录

  • 系列文章目录
  • 前言
  • 一、Wenet是什么?
  • 二、使用步骤
    • 1.开发安装
    • 2.AAC转换为WAV文件
  • 总结


前言

环境:Ubuntu 24.04+python3.12


一、Wenet是什么?

WeNet是出门问问语音团队联合西工大语音实验室开源的一款面向工业落地应用的语音识别工具包,该工具用一套简洁的方案提供了语音识别从训练到部署的一条龙服务,其主要特点如下:

使用conformer网络结构和CTC/attention  loss联合优化方法,具有业界一流的识别效果。提供云上和端上直接部署的方案,最小化模型训练和产品落地之间的工程工作。框架简洁,模型训练部分完全基于pytorch生态,不依赖于kaldi等安装复杂的工具。详细的注释和文档,十分适合用于学习端到端语音识别的基础知识和实现细节。

Wenet项目地址:https://github.com/wenet-e2e/wenet

二、使用步骤

1.开发安装

在终端中执行

git clone https://github.com/wenet-e2e/wenet.git
cd wenet
pip install -e .

执行pip install -e .提示错误:

error: externally-managed-environment× This environment is externally managed
╰─> To install Python packages system-wide, try apt installpython3-xyz, where xyz is the package you are trying toinstall.If you wish to install a non-Debian-packaged Python package,create a virtual environment using python3 -m venv path/to/venv.Then use path/to/venv/bin/python and path/to/venv/bin/pip. Makesure you have python3-full installed.If you wish to install a non-Debian packaged Python application,it may be easiest to use pipx install xyz, which will manage avirtual environment for you. Make sure you have pipx installed.See /usr/share/doc/python3.12/README.venv for more information.note: If you believe this is a mistake, please contact your Python installation or OS distribution provider. You can override this, at the risk of breaking your Python installation or OS, by passing --break-system-packages.
hint: See PEP 668 for the detailed specification.

这个错误信息表示当前Python环境是由系统外部管理的,通常在某些Linux发行版中(尤其是Debian和基于Debian的系统,比如Ubuntu),系统会强烈建议不要直接使用pip来安装包,以避免与系统包管理器(如apt)的潜在冲突。

解决方案是创建一个虚拟环境,在该环境中可以自由地使用pip安装任何包而不影响系统级别的Python环境。

# 安装python3-venv包,如果还没安装的话
sudo apt install python3-venv# 创建一个新的虚拟环境
python3 -m venv myenv# 激活虚拟环境
source myenv/bin/activate# 现在你可以在虚拟环境中进行安装
pip install -e .

等待下载完成,最后提示安装成功。

在这里插入图片描述

终端内识别音频文件,首次运行会下载 wenetspeech_u2pp_conformer_libtorch.tar.gz

wenet --language chinese audio.wav

识别结果

{'text': '们使用方法扫一扫下载暗学郎被软件注册绑定即可实时接收宝贝在园信息', 'confidence': 0.4810276732848742}

2.AAC转换为WAV文件

手机录音后文件为.aac文件,而wenet不支持此格式,需要转换为wav文件;
在Ubuntu上,你可以使用ffmpeg这个强大的多媒体处理工具来将AAC文件转换为WAV文件。首先,确保你已经安装了ffmpeg。如果没有安装,可以通过以下命令安装:

sudo apt update
sudo apt install ffmpeg

安装完成后,你可以使用以下命令将AAC文件转换为WAV文件:

ffmpeg -i input.aac -c:a pcm_s16le -ar 44100 -ac 2 output.wav

这里的参数解释如下:

  • i input.aac:指定输入的AAC文件。
  • c:a pcm_s16le:指定音频编码器为PCM 16位小端格式。
  • ar 44100:设置采样率为44100 Hz。
  • ac 2:设置声道数为2(立体声)。
  • output.wav:输出的WAV文件名。

确保替换input.aac和output.wav为你的实际文件名。


总结

以上就是今天要讲的内容,本文仅仅简单介绍了wenet的基本搭建与使用,识别准确率还有待提高,替换更好的训练模型数据。

参考:
https://wenet.org.cn/wenet/python_package.html
https://blog.csdn.net/iblade/article/details/135002063

这篇关于第一章 基于Ubuntu 24.04 搭建wenet语音转文字的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1083715

相关文章

一份LLM资源清单围观技术大佬的日常;手把手教你在美国搭建「百万卡」AI数据中心;为啥大模型做不好简单的数学计算? | ShowMeAI日报

👀日报&周刊合集 | 🎡ShowMeAI官网 | 🧡 点赞关注评论拜托啦! 1. 为啥大模型做不好简单的数学计算?从大模型高考数学成绩不及格说起 司南评测体系 OpenCompass 选取 7 个大模型 (6 个开源模型+ GPT-4o),组织参与了 2024 年高考「新课标I卷」的语文、数学、英语考试,然后由经验丰富的判卷老师评判得分。 结果如上图所

人工和AI大语言模型成本对比 ai语音模型

这里既有AI,又有生活大道理,无数渺小的思考填满了一生。 上一专题搭建了一套GMM-HMM系统,来识别连续0123456789的英文语音。 但若不是仅针对数字,而是所有普通词汇,可能达到十几万个词,解码过程将非常复杂,识别结果组合太多,识别结果不会理想。因此只有声学模型是完全不够的,需要引入语言模型来约束识别结果。让“今天天气很好”的概率高于“今天天汽很好”的概率,得到声学模型概率高,又符合表达

前端 CSS 经典:文字描边

前言:文字描边有两种实现方式 1. text-shadow 设置 8 个方向的文字阴影,缺点是只有八个方向,文字转角处可能有锯齿状。不支持文字透明,设置 color: transparent,文字会成描边颜色。 <!DOCTYPE html><html lang="en"><head><meta charset="utf-8" /><meta http-equiv="X-UA-Comp

【网络安全的神秘世界】搭建dvwa靶场

🌝博客主页:泥菩萨 💖专栏:Linux探索之旅 | 网络安全的神秘世界 | 专接本 | 每天学会一个渗透测试工具 下载DVWA https://github.com/digininja/DVWA/blob/master/README.zh.md 安装DVWA 安装phpstudy https://editor.csdn.net/md/?articleId=1399043

FastAdmin/bootstrapTable 表格中生成的按钮设置成文字

公司有个系统后台框架用的是FastAdmin,后台表格的操作栏按钮只有图标,想要设置成文字。 查资料后发现其实很简单,主需要新增“text”属性即可,如下 buttons: [{name: 'acceptcompany',title: '复核企业',text:'复核企业',classname: 'btn btn-xs btn-primary btn-dialog',icon: 'fa fa-pe

cocospod 搭建环境和使用

iOS 最新版 CocoaPods 的安装流程 1.移除现有Ruby默认源 $gem sources --remove https://rubygems.org/ 2.使用新的源 $gem sources -a https://ruby.taobao.org/ 3.验证新源是否替换成功 $gem sources -l 4.安装CocoaPods (1)  $sudo gem

Apache2.4+PHP7.2环境搭建

Editplus生成码:http://www.jb51.net/tools/editplus/ 阿帕奇下载地址:https://www.apachehaus.com/cgi-bin/download.plx PHP下载地址:http://windows.php.net/download#php-7.2 1.打开阿帕奇的下载地址,点击下载。

在Ubuntu 14.04上安装和配置SNMP守护程序和客户端的方法

前些天发现了一个巨牛的人工智能学习网站,通俗易懂,风趣幽默,忍不住分享一下给大家。点击跳转到网站。 介绍 作为系统管理员的重要工作之一是收集关于服务器和基础设施的准确信息。有许多工具和选项可用于收集和处理这种类型的信息。其中许多工具都是建立在一种叫做 SNMP 的技术之上。 SNMP 代表简单网络管理协议。它是服务器可以共享关于其当前状态的信息的一种方式,也是管理员可以修改预定义值的通道。虽

关于文章“python+百度语音识别+星火大模型+讯飞语音合成的语音助手”报错的修改

前言 关于我的文章:python+百度语音识别+星火大模型+讯飞语音合成的语音助手,运行不起来的问题 文章地址: https://blog.csdn.net/Phillip_xian/article/details/138195725?spm=1001.2014.3001.5501 1.报错问题 如果运行中报错,且报错位置在Xufi_Voice.py文件中的pcm_2_wav,如下图所示

Solr集群的搭建和使用(2)

1   什么是SolrCloud   SolrCloud(solr 云)是Solr提供的分布式搜索方案,当你需要大规模,容错,分布式索引和检索能力时使用 SolrCloud。当一个系统的索引数据量少的时候是不需要使用SolrCloud的,当索引量很大,搜索请求并发很高,这时需要使  用SolrCloud来满足这些需求。   SolrCloud是基于Solr和Zookeeper的分布式搜索