Retrieval-based-Voice-Conversion-WebUI模型构建指南

本文主要是介绍Retrieval-based-Voice-Conversion-WebUI模型构建指南，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

一、模型介绍

Retrieval-based-Voice-Conversion-WebUI（简称 RVC）模型是一个基于 VITS（Variational Inference with adversarial learning for end-to-end Text-to-Speech）的简单易用的语音转换框架。

具有以下特点

简单易用：RVC 模型通过简单易用的网页界面，使得用户无需深入了解复杂的语音处理技术，即可实现语音转换。
低延迟与高效能：RVC 模型在实时语音转换中表现出低延迟的特点，同时能够在相对较差的显卡上也能快速训练，提高了模型的普及性和实用性。
少量数据训练：使用少量数据（推荐至少 10 分钟低底噪语音数据）进行训练，即可得到较好的语音转换效果，降低了数据收集的难度和成本。
音色克隆：RVC 模型支持克隆说话。
对人的声音，包括歌曲的翻唱和实时的变声，都具有优秀的变声效果。
杜绝音色泄漏：通过 top1 检索替换输入源特征为训练集特征，有效杜绝了音色泄漏的问题。
可以通过模型融合来改变音色（借助 ckpt 处理选项卡中的 ckpt-merge）。
可调用 UVR5 模型来快速分离人声和伴奏。

二、容器构建

环境要求

PyTorch：2.0
CUDA:11.8
python>3.8

1. 克隆

git clone https://github.com/RVC-Project/Retrieval-based-Voice-Conversion-WebUI.git

2. 环境配置

（1）通过 pip 安装依赖

①安装Pytorch其核心依赖。参考自：https: //pytorch.org/get-started/locally/

pip install torch torchvision torchaudio

②如果是 win 系统 + Nvidia Ampere 架构(RTX30xx)，根据 #21 的经验，需要指定 pytorch 对应的 cuda 版本

pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu117

③根据自己的显卡安装对应依赖

pip install -r requirements.txt

A 卡 / I 卡

pip install -r requirements-dml.txt

A 卡 ROCM(Linux)

pip install -r requirements-amd.txt

I 卡 IPEX(Linux)

pip install -r requirements-ipex.txt

（2）通过诗歌来安装依赖

安装 Poetry 依赖管理工具，若已安装则跳过。参考自：https: //python-poetry.org/docs/#installation

curl -sSL https://install.python-poetry.org | python3 -

通过 Poetry 安装依赖时，python 建议使用 3.7-3.10 版本，其余版本在安装 llvmlite==0.39.0 时会出现冲突

poetry init -n
poetry env use "path to your python.exe"
poetry run pip install -r requirments.txt

（3）苹果系统

可以来 run.sh 安装依赖

sh ./run.sh

3. 下载模型

下载地址：https://huggingface.co/lj1995/VoiceConversionWebUI/tree/main

（1）下载assets

以下是一份清单，包括了所有 RVC 所需的预模型和其他文件的名称。您可以在 tools 文件夹找到下载它们的脚本。

./assets/hubert/hubert_base.pt
./assets/pretrained
./assets/uvr5_weights

想使用 v2 版本模型的话，需要额外下载

./assets/pretrained_v2

（2）安装ffmpeg

若 ffmpeg 和 ffprobe 已安装则跳过。

① Ubuntu/Debian 用户

sudo apt install ffmpeg

② MacOS 用户

brew install ffmpeg

③ Windows 用户

下载后放置在根目录。

下载ffmpeg.exe
下载ffprobe.exe

（3）下载 rmvpe 人声提取高算法所需文件

如果您想使用最新的 RMVPE 人声提取高算法，则您需要下载音高提取模型参数并放置在 RVC 根目录中。

下载rmvpe.pt

下载 rmvpe 的 dml 环境（可选，A 卡/I 卡用户）

下载rmvpe.onnx

4. 开始使用

（1）直接启动

使用以下指令来启动 WebUI

python infer-web.py

若先前使用 Poetry 安装依赖，则可以通过以下方式启动 WebUI

poetry run python infer-web.py

如图：

（2）使用集成包

下载并解压 RVC-beta.7z

① Windows 用户

双击 go-web.bat

② MacOS 用户

sh ./run.sh

③ 对于需要使用 IPEX 技术的 I 卡用户(仅限 Linux)

source /opt/intel/oneapi/setvars.sh

三、网页演示

这篇关于Retrieval-based-Voice-Conversion-WebUI模型构建指南的文章就介绍到这儿，希望我们推荐的文章对编程师们有所帮助！

Retrieval-based-Voice-Conversion-WebUI模型构建指南

一、模型介绍

二、容器构建

1. 克隆

2. 环境配置

（1）通过 pip 安装依赖

（2）通过诗歌来安装依赖

（3）苹果系统

3. 下载模型

（1）下载assets

（2）安装ffmpeg

（3）下载 rmvpe 人声提取高算法所需文件

4. 开始使用

（1）直接启动

（2）使用集成包

三、网页演示

相关文章

PyInstaller打包selenium-wire过程中常见问题和解决指南

Nginx中配置HTTP/2协议的详细指南

Spring Security基于数据库的ABAC属性权限模型实战开发教程

在React中引入Tailwind CSS的完整指南

SpringBoot3实现Gzip压缩优化的技术指南

使用Jackson进行JSON生成与解析的新手指南

Java利用JSONPath操作JSON数据的技术指南

Java的IO模型、Netty原理解析

Spring Boot结成MyBatis-Plus最全配置指南

一文详解如何从零构建Spring Boot Starter并实现整合