PaddleSpeech MFA:阿米娅中文音色复刻计划

2024-06-07 22:12

本文主要是介绍PaddleSpeech MFA:阿米娅中文音色复刻计划,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

PaddleSpeech:阿米娅中文音色复刻计划

本篇项目是对iterhui大佬项目[PaddleSpeech 原神] 音色克隆之胡桃的复刻,使用的PaddleSpeech的版本较新,也针对新版本的PaddleSpeech做了许多配置之上的更新并加入了自己对语音的对齐、配置、训练其它任何语音音色的模块。

本篇项目旨在利用PaddleSpeech框架实现音色克隆技术,目标是复制并生成游戏《明日方舟》中的干员阿米娅(Amiya)的中文语音音色。

1. 配置 PaddleSpeech 开发环境

安装 PaddleSpeech 并在 PaddleSpeech/examples/other/tts_finetune/tts3 路径下配置 tools,下载预训练模型

In [ ]

# # 配置 PaddleSpeech 开发环境
!git clone https://gitee.com/paddlepaddle/PaddleSpeech.git
%cd /home/aistudio/
%cd PaddleSpeech
!pip install .  --user -i https://mirror.baidu.com/pypi/simple
# # 下载 NLTK
# %cd /home/aistudio
# !wget -P data https://paddlespeech.bj.bcebos.com/Parakeet/tools/nltk_data.tar.gz
# !tar zxvf data/nltk_data.tar.gz

In [ ]

# 查看paddlespeech是否正常安装,如果未安装,重新运行上一单元格。
!pip show paddlespeech

In [ ]

# 安装必要库
!pip install prettytable
!pip install soundfile
!pip install librosa
!pip install paddleaudio==1.0.1
!pip install h5py
!pip install loguru
!pip install python_speech_features
!pip install jsonlines
!pip install kaldiio

In [7]

# 删除软链接
# aistudio会报错: paddlespeech 的 repo中存在失效软链接
# 执行下面这行命令!!
!find -L /home/aistudio -type l -delete

In [ ]

# 配置 MFA & 下载预训练模型
%cd /home/aistudio
!bash env.sh

In [ ]

# 配置 MFA & 下载模型及词典
!mkdir -p tools
%cd tools
# mfa tool
!wget https://github.com/MontrealCorpusTools/Montreal-Forced-Aligner/releases/download/v1.0.1/montreal-forced-aligner_linux.tar.gz
!tar xvf montreal-forced-aligner_linux.tar.gz
!cp montreal-forced-aligner/lib/libpython3.6m.so.1.0 montreal-forced-aligner/lib/libpython3.6m.so
# pretrained mfa model(预置的对齐模型和词典)
!mkdir -p aligner
%cd aligner
!wget https://paddlespeech.bj.bcebos.com/MFA/ernie_sat/aishell3_model.zip
!unzip aishell3_model.zip
!wget https://paddlespeech.bj.bcebos.com/MFA/AISHELL-3/with_tone/simple.lexicon
%cd ../../

In [ ]

# 拷贝mfa词典重构模型压缩包到指定目录
!cp /home/aistudio/data/data260888/mandarin_pinyin_g2p.zip -d /home/aistudio/tools/montreal-forced-aligner/pretrained_models/mandarin_pinyin_g2p.zip

2 数据集配置

本项目数据集提供了完整的wav、labelx以及MFA对齐标注文件

如果要自行对齐,请去PaddleSpeech查阅完整资料或参考后面的示例

Finetune your own AM based on FastSpeech2 with multi-speakers dataset.

解压文件中的

音频

work/dataset/阿米娅/wav/xx.wav

和标签

work/dataset/阿米娅/wav/labels.txt

对齐的textgrid

work/dataset/阿米娅/textgrid/newdir/xx.TextGrid

本项目采用阿米娅的声音完成

2.1 解压现有阿米娅音色数据集

In [ ]

%cd /home/aistudio/
!unzip /home/aistudio/data/data260882/dataset.zip -d work/

2.2 新音色数据集制作

制作MFA对齐标注文件

想要复刻自己找的语音音色提前要做的准备:

  1. 准备wav语音文件(建议30个文件以上,每个文件大约几秒的语音)
  2. 准备label.txt文件(该文件每行以“|”分割。左侧中文文字,右侧中文拼音,每个拼音后跟1、2、3、4表示音调,如下图)
  3. 按照以下目录格式存放指定文件:

制作过程:

  1. 使用label.txt文件生成各语音文件的lab文件
  2. 使用wav语音文件及对应lab拼音文件(将所有wav语音文件及对应lab拼音文件放在一个文件夹tmp中使用,注意不包含label.txt文件及其他任何文件)、mfa词典重构模型压缩包生成lexicon/txt字典文件(也可以使用别人上传的比较全的字典文件)
  3. 使用wav语音文件及对应lab拼音文件(将所有wav语音文件及对应lab拼音文件放在一个文件夹tmp中使用,注意不包含label.txt文件及其他任何文件)、lexicon/txt字典文件、mfa对齐模型压缩包生成对应textgrid文件
  4. 整理数据集文件目录,得到最终能直接拿来训练的数据集(下图中的txt文件为lab文件更改拓展名后得到,不确定是否能直接将lab代替txt使用,有兴趣的可以试一下)

最终能直接拿来训练的数据集目录结构: 

In [24]

# 生成lab文件
def txt2lab(txtPath, outPath="/home/aistudio/work/dataset/阿米娅/tmp/"):if not os.path.exists(outPath):os.makedirs(outPath)labelPath = txtPath + "labels.txt"with open(labelPath, "r") as f:lines = f.readlines()for line in lines:line = line.strip()name, pinyin = line.split("|")[0], line.split("|")[1]with open(outPath + name + ".lab", "w") as w:w.write(pinyin)os.system("cp {} {}".format(txtPath + name + ".wav", outPath + name + ".wav"))txt2lab("/home/aistudio/work/dataset/阿米娅/wav/")

In [ ]

%cd /home/aistudio/tools/montreal-forced-aligner/bin/
# # 生成字典1(工具实现)
!mfa_generate_dictionary /home/aistudio/tools/montreal-forced-aligner/pretrained_models/mandarin_pinyin_g2p.zip /home/aistudio/work/dataset/阿米娅/tmp /home/aistudio/work/dataset/阿米娅/a.lexicon# # 生成词典2(手动实现)
# # 代码片段2:生成小字典# #全量字典:拼音->音素
# dictionary = r'D:\download\tmp\dictionary.txt'
# def getDictionary(dictionary = dictionary):
#     """
#         :param dictionary: 字典文件,每一行包含一个拼音及对应的音素,例如 "bao1 b ao1\nbeng1 b e1 ng\n"
#         :return: 字典:key是拼音,value是拼音及对应的音素,例如 key=bao1,value='bao1 b ao1\n'
#     """
#     word2phone = {}
#     with open(dictionary, 'r') as f:
#         line = f.readline()
#         while line:
#             key,value = line.split(' ',1)
#             word2phone[key] = line
#         line = f.readline()
#     return word2phone# #生成对齐的小字典
# def getTinyDictionaryByFile(corpusPath=r'.\data_thchs30\data',outputFile = 'tinyDictionary.txt'):
# """
# inputFilePath:.lab文件。音频文件及对应的拼音文件所在目录,拼音文件一个汉字一个拼音,拼音间空格分隔如“bian4 hua1”。
# outputFile: 当前音频文件对应的所有文字的拼音形成的小字典,如“bao1 b ao1\n”
# """
# dictionary = getDictionary()
# pattern = re.compile(r'(.*)\.lab$') #只从lab文件找所有的拼音
# tinyDict = {}
# notExistsWord = ''
# for root, dirPath, files in os.walk(corpusPath):
# for readfile in files: ##遍历inputFilePath目录下的所有文件
# if pattern.match(readfile) is not None: #找出.lab文件
# with open(root+"\\"+readfile,'r') as rf: #读取出.lab文件中的所有拼音
# line = rf.readline()
# while line:
# wordList = line.split() #读取拼音
# for word in wordList:
# if word in dictionary.keys():
# tinyDict[word] = dictionary[word]
# else:notExistsWord += word + ' ' + root+"\\"+readfile+'\n';
# line = rf.readline()
# with open(outputFile, 'w') as wf:##结果写入outputFile
# for key in tinyDict:
# wf.write(tinyDict[key])
# if notExistsWord !='': print(notExistsWord)

In [ ]

# # 解决mfa tool运行时缺失文件的问题
# 查找libgfortran.so.3
!find / -name libgfortran.so.3
# 添加环境变量(临时添加)
!export LD_LIBRARY_PATH="The path you found":$LD_LIBRARY_PATH
# 如:export LD_LIBRARY_PATH=/home/user/miniconda3/envs/paddle/lib/python3.9/site-packages/paddle/libs/:$LD_LIBRARY_PATH

In [ ]

# 生成textgrid文件
!mfa_align /home/aistudio/work/dataset/阿米娅/tmp /home/aistudio/tools/aligner/simple.lexicon /home/aistudio/tools/aligner/aishell3_model.zip /home/aistudio/work/dataset/阿米娅/textgrid/newdir
%cd /home/aistudio/

2.3 编写执行cmd函数代码

In [31]

import subprocess# 命令行执行函数,可以进入指定路径下执行
def run_cmd(cmd, cwd_path):p = subprocess.Popen(cmd, shell=True, cwd=cwd_path)res = p.wait()print(cmd)print("运行结果:", res)if res == 0:# 运行成功print("运行成功")return Trueelse:# 运行失败print("运行失败")return False

2.4 配置各项参数

In [9]

import os# 试验路径
exp_dir = "/home/aistudio/work/exp"
# 配置试验相关路径信息
cwd_path = "/home/aistudio/PaddleSpeech/examples/other/tts_finetune/tts3"
# 可以参考 env.sh 文件,查看模型下载信息
pretrained_model_dir = "models/fastspeech2_mix_ckpt_1.2.0"# # 同时上传了 wav+标注文本 以及本地生成的 textgrid 对齐文件
# 输入数据集路径
data_dir = "/home/aistudio/work/dataset/阿米娅/wav"
# 如果上传了 MFA 对齐结果,则使用已经对齐的文件
mfa_dir = "/home/aistudio/work/dataset/阿米娅/textgrid"
new_dir = "/home/aistudio/work/dataset/阿米娅/textgrid/newdir"# 输出文件路径
wav_output_dir = os.path.join(exp_dir, "output")
os.makedirs(wav_output_dir, exist_ok=True)dump_dir = os.path.join(exp_dir, 'dump')
output_dir = os.path.join(exp_dir, 'exp')
lang = "zh"

2.5 检查数据集是否合法

In [10]

# check oov
cmd = f"""python3 local/check_oov.py \--input_dir={data_dir} \--pretrained_model_dir={pretrained_model_dir} \--newdir_name={new_dir} \--lang={lang}
"""

In [11]

# 执行该步骤
run_cmd(cmd, cwd_path)
    python3 local/check_oov.py         --input_dir=/home/aistudio/work/dataset/阿米娅/wav         --pretrained_model_dir=models/fastspeech2_mix_ckpt_1.2.0         --newdir_name=/home/aistudio/work/dataset/阿米娅/textgrid/newdir         --lang=zh运行结果: 0
运行成功
True

2.6 生成 Duration 时长信息

In [12]

cmd = f"""
python3 local/generate_duration.py \--mfa_dir={mfa_dir}
"""

In [9]

!cp -r /home/aistudio/PaddleSpeech/utils /home/aistudio/PaddleSpeech/examples/other/tts_finetune/tts3/local/

In [ ]

!pip install praatio
!pip install yacs

In [14]

# 执行该步骤
run_cmd(cmd, cwd_path)
python3 local/generate_duration.py     --mfa_dir=/home/aistudio/work/dataset/阿米娅/textgrid运行结果: 0
运行成功
True

2.7 数据预处理

In [15]

cmd = f"""
python3 local/extract_feature.py \--duration_file="./durations.txt" \--input_dir={data_dir} \--dump_dir={dump_dir}\--pretrained_model_dir={pretrained_model_dir}
"""

In [ ]

!pip install inflect

In [ ]

import sys
sys.path.append("/home/aistudio/PaddleSpeech/build/lib")
print(sys.path)

In [66]

import paddlespeech
from paddlespeech.t2s.datasets.data_table import DataTable

In [17]

# 执行该步骤
run_cmd(cmd, cwd_path)
33 1
100%|██████████| 33/33 [00:07<00:00,  4.27it/s]16%|█▌        | 5/32 [00:00<00:00, 49.52it/s]
All frames seems to be unvoiced, this utt will be removed.
Done
100%|██████████| 32/32 [00:00<00:00, 194.00it/s]
100%|██████████| 1/1 [00:00<00:00,  2.89it/s]
100%|██████████| 1/1 [00:00<00:00, 300.04it/s]0%|          | 0/1 [00:00<?, ?it/s]
Done
100%|██████████| 1/1 [00:00<00:00,  3.36it/s]
100%|██████████| 1/1 [00:00<00:00, 327.12it/s]
Donepython3 local/extract_feature.py     --duration_file="./durations.txt"     --input_dir=/home/aistudio/work/dataset/阿米娅/wav     --dump_dir=/home/aistudio/work/exp/dump    --pretrained_model_dir=models/fastspeech2_mix_ckpt_1.2.0运行结果: 0
运行成功
True

2.8 准备微调环境

In [18]

cmd = f"""
python3 local/prepare_env.py \--pretrained_model_dir={pretrained_model_dir} \--output_dir={output_dir}
"""

In [19]

# 执行该步骤
run_cmd(cmd, cwd_path)
python3 local/prepare_env.py     --pretrained_model_dir=models/fastspeech2_mix_ckpt_1.2.0     --output_dir=/home/aistudio/work/exp/exp运行结果: 0
运行成功
True

2.9 微调并训练

不同的数据集是不好给出统一的训练参数,因此在这一步,开发者可以根据自己训练的实际情况调整参数,重要参数说明:

训练轮次: epoch

  1. epoch 决定了训练的轮次,可以结合 VisualDL 服务,在 AIstudio 中查看训练数据是否已经收敛,当数据集数量增加时,预设的训练轮次(100)不一定可以达到收敛状态
  2. 当训练轮次过多(epoch > 200)时,建议新建终端,进入/home/aistudio/PaddleSpeech/examples/other/tts_finetune/tts3 路径下, 执行 cmd 命令,AIStudio 在打印特别多的训练信息时,会产生错误

配置文件:

/home/aistudio/PaddleSpeech/examples/other/tts_finetune/tts3/conf/finetune.yaml

In [39]

# 将默认的 yaml 拷贝一份到 exp_dir 下,方便修改
import shutil
in_label = "/home/aistudio/PaddleSpeech/examples/other/tts_finetune/tts3/conf/finetune.yaml"
shutil.copy(in_label, exp_dir)
'/home/aistudio/work/exp/finetune.yaml'

In [32]

epoch = 100
config_path = os.path.join(exp_dir, "finetune.yaml")cmd = f"""
python3 local/finetune.py \--pretrained_model_dir={pretrained_model_dir} \--dump_dir={dump_dir} \--output_dir={output_dir} \--ngpu=1 \--epoch={epoch} \--finetune_config={config_path}
"""

In [ ]

!pip install --user paddlepaddle-gpu==2.3.2

In [ ]

# 执行该步骤
# 如果训练轮次过多,则复制上面的cmd到终端中运行
# python3 local/finetune.py --pretrained_model_dir=models/fastspeech2_mix_ckpt_1.2.0 --dump_dir=/home/aistudio/work/exp/dump --output_dir=/home/aistudio/work/exp/exp --ngpu=1 --epoch=250 --finetune_config=/home/aistudio/work/exp/finetune.yaml
run_cmd(cmd, cwd_path)

3 生成音频

输入我们需要生成的文字,即可生成对应的音频文件

3.1 文本输入

In [53]

text_dict = {"0": "博士!早上好!","1":"源石被发现之后,人们发掘出一种通过它来施放一系列令物质改变原有性状的技术,这种技术被称为源石技艺,常被俗称为“法术”。源石技艺所运用的能源,一般被认为来自于源石本身。而人是否能施放法术,以及所能施放法术的形式、强度、效果等,通常受到先天具备的素质、后天对源石技艺的学习能力这两方面因素的制约。"
}

In [54]

# 生成 sentence.txt
text_file = os.path.join(exp_dir, "sentence.txt")
with open(text_file, "w", encoding="utf8") as f:for k,v in sorted(text_dict.items(), key=lambda x:x[0]):f.write(f"{k} {v}\n")

3.2 调训练的模型

In [55]

# 找到最新生成的模型
def find_max_ckpt(model_path):max_ckpt = 0for filename in os.listdir(model_path):if filename.endswith('.pdz'):files = filename[:-4]a1, a2, it = files.split("_")if int(it) > max_ckpt:max_ckpt = int(it)return max_ckpt

3.2 生成语音

In [56]

# 配置一下参数信息
model_path = os.path.join(output_dir, "checkpoints")
ckpt = find_max_ckpt(model_path)cmd = f"""
python3 /home/aistudio/PaddleSpeech/paddlespeech/t2s/exps/fastspeech2/../synthesize_e2e.py \--am=fastspeech2_mix \--am_config=models/fastspeech2_mix_ckpt_1.2.0/default.yaml \--am_ckpt={output_dir}/checkpoints/snapshot_iter_{ckpt}.pdz \--am_stat=models/fastspeech2_mix_ckpt_1.2.0/speech_stats.npy \--voc="hifigan_aishell3" \--voc_config=models/hifigan_aishell3_ckpt_0.2.0/default.yaml \--voc_ckpt=models/hifigan_aishell3_ckpt_0.2.0/snapshot_iter_2500000.pdz \--voc_stat=models/hifigan_aishell3_ckpt_0.2.0/feats_stats.npy \--lang=mix \--text={text_file} \--output_dir={wav_output_dir} \--phones_dict={dump_dir}/phone_id_map.txt \--speaker_dict={dump_dir}/speaker_id_map.txt \--spk_id=0 \--ngpu=1
"""

In [ ]

!pip install timer
!pip install opencc==1.1.6

In [ ]

# 由于版本兼容问题,微调训练使用paddlepaddle-gpu==2.3.2,调模型生成语音使用paddlepaddle-gpu==2.6.0
!pip install --user paddlepaddle-gpu==2.6.0

In [ ]

run_cmd(cmd, cwd_path)

3.4 语音展示

In [59]

import IPython.display as ipdipd.Audio(os.path.join(wav_output_dir, "0.wav"))
<IPython.lib.display.Audio object>

In [60]

ipd.Audio(os.path.join(wav_output_dir, "1.wav"))
<IPython.lib.display.Audio object>

In [61]

ipd.Audio("/home/aistudio/work/dataset/阿米娅/wav/3星结束行动.wav")
<IPython.lib.display.Audio object>

这篇关于PaddleSpeech MFA:阿米娅中文音色复刻计划的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1040443

相关文章

Java下载文件中文文件名乱码的解决方案(文件名包含很多%)

《Java下载文件中文文件名乱码的解决方案(文件名包含很多%)》Java下载文件时,文件名中文乱码问题通常是由于编码不正确导致的,使用`URLEncoder.encode(filepath,UTF-8... 目录Java下载文件中文文件名乱码问题一般情况下,大家都是这样为了解决这个问题最终解决总结Java下

Go语言实现将中文转化为拼音功能

《Go语言实现将中文转化为拼音功能》这篇文章主要为大家详细介绍了Go语言中如何实现将中文转化为拼音功能,文中的示例代码讲解详细,感兴趣的小伙伴可以跟随小编一起学习一下... 有这么一个需求:新用户入职 创建一系列账号比较麻烦,打算通过接口传入姓名进行初始化。想把姓名转化成拼音。因为有些账号即需要中文也需要英

Oracle数据库执行计划的查看与分析技巧

《Oracle数据库执行计划的查看与分析技巧》在Oracle数据库中,执行计划能够帮助我们深入了解SQL语句在数据库内部的执行细节,进而优化查询性能、提升系统效率,执行计划是Oracle数据库优化器为... 目录一、什么是执行计划二、查看执行计划的方法(一)使用 EXPLAIN PLAN 命令(二)通过 S

中文分词jieba库的使用与实景应用(一)

知识星球:https://articles.zsxq.com/id_fxvgc803qmr2.html 目录 一.定义: 精确模式(默认模式): 全模式: 搜索引擎模式: paddle 模式(基于深度学习的分词模式): 二 自定义词典 三.文本解析   调整词出现的频率 四. 关键词提取 A. 基于TF-IDF算法的关键词提取 B. 基于TextRank算法的关键词提取

vscode中文乱码问题,注释,终端,调试乱码一劳永逸版

忘记咋回事突然出现了乱码问题,很多方法都试了,注释乱码解决了,终端又乱码,调试窗口也乱码,最后经过本人不懈努力,终于全部解决了,现在分享给大家我的方法。 乱码的原因是各个地方用的编码格式不统一,所以把他们设成统一的utf8. 1.电脑的编码格式 开始-设置-时间和语言-语言和区域 管理语言设置-更改系统区域设置-勾选Bata版:使用utf8-确定-然后按指示重启 2.vscode

解决Office Word不能切换中文输入

我们在使用WORD的时可能会经常碰到WORD中无法输入中文的情况。因为,虽然我们安装了搜狗输入法,但是到我们在WORD中使用搜狗的输入法的切换中英文的按键的时候会发现根本没有效果,无法将输入法切换成中文的。下面我就介绍一下如何在WORD中把搜狗输入法切换到中文。

sqlite不支持中文排序,采用java排序

方式一 不支持含有重复字段进行排序 /*** sqlite不支持中文排序,改用java排序* 根据指定的对象属性字段,排序对象集合,顺序* @param list* @param field* @return*/public static List sortListByField(List<?> list,String field){List temp = new ArrayList(

《计算机视觉工程师养成计划》 ·数字图像处理·数字图像处理特征·概述~

1 定义         从哲学角度看:特征是从事物当中抽象出来用于区别其他类别事物的属性集合,图像特征则是从图像中抽取出来用于区别其他类别图像的属性集合。         从获取方式看:图像特征是通过对图像进行测量或借助算法计算得到的一组表达特性集合的向量。 2 认识         有些特征是视觉直观感受到的自然特征,例如亮度、边缘轮廓、纹理、色彩等。         有些特征需要通

Claude Enterprise推出计划

每周跟踪AI热点新闻动向和震撼发展 想要探索生成式人工智能的前沿进展吗?订阅我们的简报,深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同,从行业内部的深度分析和实用指南中受益。不要错过这个机会,成为AI领域的领跑者。点击订阅,与未来同行! 订阅:https://rengongzhineng.io/ 今天推出的Claude Enterprise计划,专为企业打造安全的

为备份驱动器制定备份计划:维护数据的3大方法

时间:2014-02-26 14:49 来源:网管之家 字体:[大 中 小]   您可能已经对您的电脑进行了备份,但其实这样还是远远不够的,其并非如您所认为的那样安全。您企业备份驱动器上的文件可能与您的主系统上的文件一样,容易受到灾难的影响。根据最近流行的恶意软件CryptoLocker的感染途径显示,连接到PC的外置驱动器——辅助硬盘驱动器,例如,用于备份的外部USB硬盘驱动器,可以像