网易有道强力开源中英双语语音克隆

本文主要是介绍网易有道强力开源中英双语语音克隆，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

项目地址（基于PromptTTS）：

https://github.com/netease-youdao/EmotiVoice

EmotiVoice Docker镜像

尝试EmotiVoice最简单的方法是运行docker镜像。你需要一台带有NVidia GPU的机器。先按照Linux和Windows WSL2平台的说明安装NVidia容器工具包。然后可以直接运行EmotiVoice镜像：

docker run -dp 127.0.0.1:8501:8501 syq163/emoti-voice:latest

现在打开浏览器，导航到 http://localhost:8501 ，就可以体验EmotiVoice强大的TTS功能。

完整安装

conda create -n EmotiVoice python=3.8 -y
conda activate EmotiVoice
pip install torch torchaudio
pip install numpy numba scipy transformers==4.26.1 soundfile yacs g2p_en jieba pypinyin

准备模型文件

git lfs install
git lfs clone https://huggingface.co/WangZeJun/simbert-base-chinese WangZeJun/simbert-base-chinese

推理

1. 下载预训练模型, 然后运行:

mkdir -p outputs/style_encoder/ckpt

mkdir -p outputs/prompt_tts_open_source_joint/ckpt

将g_*, do_*文件放到outputs/ prompt_tts_open_source_joint/ ckpt

将checkpoint_*放到outputs/ style_encoder/ ckpt中

3. 推理输入文本格式是：

<speaker>|<style_prompt/emotion_prompt/content>|<phoneme>|<content>.

例如: Maria_Kasper|非常开心|<sos/eos> uo3 sp1 l ai2 sp0 d ao4 sp1 b ei3 sp0 j ing1 sp3 q ing1 sp0 h ua2 sp0 d a4 sp0 x ve2 <sos/eos>|我来到北京，清华大学.

4. 其中的音素（phonemes）可以这样得到：

python frontend.py data/my_text.txt > data/my_text_for_tts.txt.

5. 然后运行：

TEXT=data/inference/text
python inference_am_vocoder_joint.py \
--logdir prompt_tts_open_source_joint \
--config_folder config/joint \
--checkpoint g_00140000 \
--test_file $TEXT

合成的语音结果在：

outputs/prompt_tts_open_source_joint/test_audio.

6. 或者你可以直接使用交互的网页界面：

pip install streamlit
streamlit run demo_page.py

训练

待推出。

未来工作

当前的实现侧重于通过提示控制情绪/风格。它只使用音高、速度、能量和情感作为风格因素，而不使用性别。但是将其更改为样式、音色控制并不复杂，类似于PromptTTS的原始闭源实现。

致谢

PromptTTS. PromptTTS论文是本工作的重要基础。
LibriTTS. 训练使用了LibriTTS开放数据集。
HiFiTTS. 训练使用了HiFi TTS开放数据集。
ESPnet.
WeTTS
HiFi-GAN
Transformers
tacotron
KAN-TTS
StyleTTS
Simbert

许可

EmotiVoice是根据Apache-2.0许可证提供的 - 有关详细信息，请参阅许可证文件。

交互的网页是根据用户协议提供的。

这篇关于网易有道强力开源中英双语语音克隆的文章就介绍到这儿，希望我们推荐的文章对编程师们有所帮助！

网易有道强力开源中英双语语音克隆

EmotiVoice Docker镜像

完整安装

准备模型文件

推理

未来工作

致谢

许可

相关文章

使用Python实现文本转语音(TTS)并播放音频

C#原型模式之如何通过克隆对象来优化创建过程

讯飞webapi语音识别接口调用示例代码(python)

无需邀请码！Manus复刻开源版OpenManus下载安装与体验

如何使用 Bash 脚本中的time命令来统计命令执行时间(中英双语)

阿里开源语音识别SenseVoiceWindows环境部署

让树莓派智能语音助手实现定时提醒功能

金融业开源技术术语

安全管理体系化的智慧油站开源了。

K8S（Kubernetes）开源的容器编排平台安装步骤详解