AI超强语音转文本SenseVoice,本地化部署教程!

2024-09-05 06:36

本文主要是介绍AI超强语音转文本SenseVoice,本地化部署教程!,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

文章目录

    • 模型介绍
    • SenseVoice在线预览链接
    • 本地化部署
      • VsCode 远程连接

模型介绍

SenseVoice专注于高精度多语言语音识别、情感辨识和音频事件检测

  • 多语言识别: 采用超过40万小时数据训练,支持超过50种语言,识别效果上优于Whisper模型。
  • 富文本识别:
    • 具备优秀的情感识别,能够在测试数据上达到和超过目前最佳情感识别模型的效果。
    • 支持声音事件检测能力,支持音乐、掌声、笑声、哭声、咳嗽、喷嚏等多种常见人机交互事件进行检测。
  • 高效推理: SenseVoice-Small模型采用非自回归端到端框架,推理延迟极低,10s音频推理仅耗时70ms,15倍优于Whisper-Large。
  • 微调定制: 具备便捷的微调脚本与策略,方便用户根据业务场景修复长尾样本问题。

SenseVoice在线预览链接

  1. SenseVoice 在线预览:https://www.modelscope.cn/studios/iic/SenseVoice

本地化部署

这里使用autodl 机器学习平台,官网地址:https://www.autodl.com/market/list

直接到算力市场,选择按量计费,地区随便选择一个,这里使用4090显卡。

如图选择PyTorch 版本,最后点击创建。

创建好以后就来到了控制台,点击AutoPanel 面板,设置默认为清华源。

点击选择清华源,因为清华源下载依赖包比较快。

接着回到控制台,点击进入JupyterLab

进入到autodl-tmp 目录下,然后打开终端。

然后克隆项目,输入如下命令:

git clone https://github.com/FunAudioLLM/SenseVoice.git

如果提示网络超时等,输入如下命令,完了重新拉取代码就好。

source /etc/network_turbo

继续打开一个笔记本,下载模型。

键入如下代码后运行:

!pip install modelscope

继续键入如下代码下载模型:

from modelscope.hub.snapshot_download import snapshot_downloadmodel_dir = snapshot_download("iic/SenseVoiceSmall", cache_dir='ai_models')
print(model_dir)
model_dir = snapshot_download("iic/speech_fsmn_vad_zh-cn-16k-common-pytorch", cache_dir='ai_models')
print(model_dir)

出现进度条说明模型开始下载了。

然后回到终端,进入SenseVoice目录。

cd SenseVoice/

创建虚拟环境

# 创建一个名为venv 的虚拟环境。
python -m venv venv

接着激活虚拟环境。

 source ./venv/bin/activate

安装依赖

 pip install -r requirements.txt

安装好依赖以后,我们更新pip

pip install --upgrade pip

VsCode 远程连接

回到控制台,复制ssh配置。

打开Vsocode,远程连接。

粘贴登录信息

选择第一个默认配置。

选择第一个链接。

复制密码

粘贴密码

接着打开文件夹,选择/root/autodl-tmp/

选择信任

点击打开终端

接着激活虚拟环境。

 source ./venv/bin/activate

接着回到笔记本模型哪里,复制下载的模型路径。

回到VsCode ,编辑SenseVoice/webui.py,设置模型的路径为如下:

最后,见证奇迹的时候到了,运行我们的Python代码。

 python webui.py 

选择在浏览器打开。

接着,就可以快乐的玩耍了。

当我们上传音频时遇到了错误如下错误:

针对安装ffmpeg时遇到的问题,按以下步骤操作:

  1. 首先更新软件包列表:
sudo apt update
  1. 如果更新后仍无法安装,可能需要添加universe仓库:
sudo add-apt-repository universe
sudo apt update
  1. 然后再次尝试安装ffmpeg:
sudo apt install ffmpeg -y

如果还是不行,可能是ffmpeg所在的仓库没有启用。那么可以尝试:

  1. 启用multiverse仓库:
sudo add-apt-repository multiverse
sudo apt update
  1. 安装ffmpeg:
sudo apt install ffmpeg

这篇关于AI超强语音转文本SenseVoice,本地化部署教程!的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1138219

相关文章

Ilya-AI分享的他在OpenAI学习到的15个提示工程技巧

Ilya(不是本人,claude AI)在社交媒体上分享了他在OpenAI学习到的15个Prompt撰写技巧。 以下是详细的内容: 提示精确化:在编写提示时,力求表达清晰准确。清楚地阐述任务需求和概念定义至关重要。例:不用"分析文本",而用"判断这段话的情感倾向:积极、消极还是中性"。 快速迭代:善于快速连续调整提示。熟练的提示工程师能够灵活地进行多轮优化。例:从"总结文章"到"用

闲置电脑也能活出第二春?鲁大师AiNAS让你动动手指就能轻松部署

对于大多数人而言,在这个“数据爆炸”的时代或多或少都遇到过存储告急的情况,这使得“存储焦虑”不再是个别现象,而将会是随着软件的不断臃肿而越来越普遍的情况。从不少手机厂商都开始将存储上限提升至1TB可以见得,我们似乎正处在互联网信息飞速增长的阶段,对于存储的需求也将会不断扩大。对于苹果用户而言,这一问题愈发严峻,毕竟512GB和1TB版本的iPhone可不是人人都消费得起的,因此成熟的外置存储方案开

Spring Security 从入门到进阶系列教程

Spring Security 入门系列 《保护 Web 应用的安全》 《Spring-Security-入门(一):登录与退出》 《Spring-Security-入门(二):基于数据库验证》 《Spring-Security-入门(三):密码加密》 《Spring-Security-入门(四):自定义-Filter》 《Spring-Security-入门(五):在 Sprin

AI绘图怎么变现?想做点副业的小白必看!

在科技飞速发展的今天,AI绘图作为一种新兴技术,不仅改变了艺术创作的方式,也为创作者提供了多种变现途径。本文将详细探讨几种常见的AI绘图变现方式,帮助创作者更好地利用这一技术实现经济收益。 更多实操教程和AI绘画工具,可以扫描下方,免费获取 定制服务:个性化的创意商机 个性化定制 AI绘图技术能够根据用户需求生成个性化的头像、壁纸、插画等作品。例如,姓氏头像在电商平台上非常受欢迎,

Makefile简明使用教程

文章目录 规则makefile文件的基本语法:加在命令前的特殊符号:.PHONY伪目标: Makefilev1 直观写法v2 加上中间过程v3 伪目标v4 变量 make 选项-f-n-C Make 是一种流行的构建工具,常用于将源代码转换成可执行文件或者其他形式的输出文件(如库文件、文档等)。Make 可以自动化地执行编译、链接等一系列操作。 规则 makefile文件

从去中心化到智能化:Web3如何与AI共同塑造数字生态

在数字时代的演进中,Web3和人工智能(AI)正成为塑造未来互联网的两大核心力量。Web3的去中心化理念与AI的智能化技术,正相互交织,共同推动数字生态的变革。本文将探讨Web3与AI的融合如何改变数字世界,并展望这一新兴组合如何重塑我们的在线体验。 Web3的去中心化愿景 Web3代表了互联网的第三代发展,它基于去中心化的区块链技术,旨在创建一个开放、透明且用户主导的数字生态。不同于传统

AI一键生成 PPT

AI一键生成 PPT 操作步骤 作为一名打工人,是不是经常需要制作各种PPT来分享我的生活和想法。但是,你们知道,有时候灵感来了,时间却不够用了!😩直到我发现了Kimi AI——一个能够自动生成PPT的神奇助手!🌟 什么是Kimi? 一款月之暗面科技有限公司开发的AI办公工具,帮助用户快速生成高质量的演示文稿。 无论你是职场人士、学生还是教师,Kimi都能够为你的办公文

Andrej Karpathy最新采访:认知核心模型10亿参数就够了,AI会打破教育不公的僵局

夕小瑶科技说 原创  作者 | 海野 AI圈子的红人,AI大神Andrej Karpathy,曾是OpenAI联合创始人之一,特斯拉AI总监。上一次的动态是官宣创办一家名为 Eureka Labs 的人工智能+教育公司 ,宣布将长期致力于AI原生教育。 近日,Andrej Karpathy接受了No Priors(投资博客)的采访,与硅谷知名投资人 Sara Guo 和 Elad G

阿里开源语音识别SenseVoiceWindows环境部署

SenseVoice介绍 SenseVoice 专注于高精度多语言语音识别、情感辨识和音频事件检测多语言识别: 采用超过 40 万小时数据训练,支持超过 50 种语言,识别效果上优于 Whisper 模型。富文本识别:具备优秀的情感识别,能够在测试数据上达到和超过目前最佳情感识别模型的效果。支持声音事件检测能力,支持音乐、掌声、笑声、哭声、咳嗽、喷嚏等多种常见人机交互事件进行检测。高效推

让树莓派智能语音助手实现定时提醒功能

最初的时候是想直接在rasa 的chatbot上实现,因为rasa本身是带有remindschedule模块的。不过经过一番折腾后,忽然发现,chatbot上实现的定时,语音助手不一定会有响应。因为,我目前语音助手的代码设置了长时间无应答会结束对话,这样一来,chatbot定时提醒的触发就不会被语音助手获悉。那怎么让语音助手也具有定时提醒功能呢? 我最后选择的方法是用threading.Time