AdaVITS—基于VITS的小型化说话人自适应模型

2023-11-02 13:50

本文主要是介绍AdaVITS—基于VITS的小型化说话人自适应模型,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

当前主流的实现小样本音色克隆的可靠方式是说话人自适应(speaker adaption)技术,该技术通常通过在预训练的多说话人文语转换 (TTS) 模型上使用少量的目标说话人数据进行微调而获得目标说话人的TTS模型。在这一任务上已经有很多相关工作,然而很多时候说话人自适应模型需要运行在手机等资源有限的设备上,需要轻量化的方案。

近期,由西工大音频语音与语言处理研究组 (ASLP@NPU) 和腾讯 CSIG 合作的论文“AdaVITS: Tiny VITS for Low Computing Resource Speaker Adaptation”被语音旗舰会议 ISCSLP 2022 接收。该论文提出一种基于VITS模型的轻量化说话人自适应模型AdaVITS。在说话人自适应任务上,AdaVITS可以基于少量目标说话人录音样本构建TTS系统,合成稳定自然的目标说话人语音,并且模型参数量仅有8.97M ,计算量为 0.72 GFlops

  论文题目:  AdaVITS: Tiny VITS for Low Computing Resource Speaker Adaptation

  作者列表:  宋堃,薛鹤洋,王新升,从坚,张雍茂,谢磊,杨兵,张雄,苏丹

  论文原文:  https://arxiv.org/abs/2206.00208

 论文截图

1. 背景动机

说话人自适应(speaker adapation)技术重要的应用场景是针对普通说话人的小样本音色克隆任务。由于针对大量目标说话人,因此需要考虑自适应模型的计算、存储和训练时间成本。当前有很多工作集中在优化模型的说话人存储成本 [1]和训练时间成本 [2]上,而对于模型的计算成本没有重点关注。可行的方法有量化蒸馏和神经架构搜索,但前者有明显的效果损失,而后者的搜索过程本身需要消耗更多的计算和时间成本。因此,我们从对模型的先验知识角度出发,减少其中不必要的计算和参数量,实现减少计算成本的同时尽可能保证合成效果。但减少计算和参数量本身是一个挑战性任务,这是因为:(1)当前主流的说话人自适应框架包括声学模型与声码器两部分,两部分在推理时可能存在误差,而这种误差在小型化结构的普通说话人自适应场景会更明显,导致瑕疵明显增多。(2)声学模型中语言学特征与声学特征存在耦合,模型小型化导致的建模能力下降会加重这一现象,不利于说话人自适应任务。

针对以上问题,我们引入基于VITS [3]的说话人自适应框架以解决声学模型和声码器的误差问题,并使用音素后验图特征 (PPG) 作为中间语言学表征约束文本到隐变量z的建模过程。因为PPG由大量说话人数据训练的语音识别声学模型提取,与说话人无关,因此可以实现语言学特征与声学特征的解耦。在此框架基础上,我们针对其中部分结构进行了优化,其中包括在解码器中结合逆傅立叶变换 (iSTFT)、正则化流层 (flow) 中引入共享层嵌入 (embedding)、线性注意力机制等方面。

2. AdaVITS方案

为了实现轻量化说话人自适应任务,我们使用基于VITS的端到端架构,引入PPG作为语言学表征。其优势如下:

  • 使用PPG:没有语言学特征和声学特征的耦合,可以更直接的将内容和语言信息分别建模,更有利于小型化。同时可以实现克隆结果的风格可控,不会受到普通说话人录音语速和错读的影响。另外,PPG作为帧级语言学表征,可以显著解决VITS模型在多说话人上的发音不稳定问题。

  • 使用VITS:VITS作为当前主流的端到端TTS框架,实现声学模型和解码器部分统一建模,避免两段式框架中声学模型与声码器共用基于梅尔谱中间表征引入的误差问题。

本文AdaVITS系统的整体模型架构如图1所示,由prior encoder、posterior encoder和decoder组成。posterior encoder用于从线性谱生成后验分布z,通过PPG约束音素到先验分布的生成过程,并通过flow使先验分布拟合z;decoder通过z合成语音波形。在prior encoder中,音素到PPG的生成过程采用类似FastSpeech的模型结构,PPG encoder采用FFT Block结构,其他模块遵循VITS的设置。

图1 AdaVITS模型架构

为了改善基于中间表征z的发音稳定性问题,在使用PPG作为中间表征外,还同时增加PPG预测的辅助任务,如图1所示,通过增加PPG predictor从z中预测PPG,保证z中包含完整的语言学信息,而PPG predictor不参与模型推理。

在此基础上,我们采用多种方法减少此框架的计算和参数量。首先,由于建模时域特征,解码器占据了整个框架中最多的的计算量。由于VITS框架不存在声学模型和声码器间的误差,对于解码器的建模压力相对较小;且z不像梅尔谱一样限制为幅度谱,因此建模相位的压力分散在整个模型中。因此我们引入iSTFT替代上采样结构,由于iSTFT在帧级别建模,可以极大减少解码器的计算量。如图2(a),我们提出了decoder-v1版本,直接通过一维卷积和残差模块建模实部和虚部并通过iSTFT生成语音波形。与此同时,为了实现语音质量和计算量的平衡,如图2(b),我们提出了decoder-v2版本。我们使用iSTFT替代上采样结构建模高频;而子带分解方法可以将语音划分为高低频,同时也是主流的降低解码器计算复杂度的方法。为此我们使用decoder-v1版本生成高频并使用上采样结构生成低频,通过子带合并最终生成语音信号。

图2 两种Decoder架构

上述简化方案不可避免带来了解码器能力的下降,为了弥补这个问题,我们针对性的进一步修改了判别器。具体来说,我们采用多尺度梅尔谱 [4]和多尺度复数谱判别器。同时由于解码器建模能力的下降,时域判别器生成隐层特征的过程受到影响,而采用频谱替代时域判别器中的隐层特征有利于模型的收敛,与此同时由于直接建模实虚部,我们另外使用复数谱并利用复数卷积做判别。

我们同时在flow中引入flow indication embedding [5]共享flow参数。我们发现在VITS中,flow层数的大规模增加并不能显著提高分布变换的效果,但仍需要一定的层数以保证模型的收敛。因此如图3所示,我们为每一层flow增加id并通过embedding控制,实现每一层flow的参数共享,减少模型的参数量。

图3 flow indication embedding架构 [5]

另外由于原始FFT Block中,点积注意力机制的计算复杂度并不与输入文本长度线性相关,在长句上有非常明显的计算损耗增加,因此我们替换其为线性注意力机制 [6],使其计算复杂度与输入长度线性相关。

3. 实验验证

我们在英文开源数据集上进行实验验证。首先通过LibriTTS [7]进行多说话人模型训练,并通过VCTK [8]数据进行说话人自适应训练。前者包含来自1151个说话人的242小时数据,对于后者的每一个目标说话人,我们使用随机的20句话参与说话人自适应训练,并用10句进行测试。

我们在上述数据集上针对下列模型进行了对比验证。

  • VITS:原始论文版本的VITS

  • AdaVITSv1:使用decoder-v1的本文方案

  • AdaVITSv2:使用decoder-v2的本文方案

  • FS2-o+HiFiGAN v1:使用FastSpeech2和HiFi-GAN v1

  • FS2-l+HiFiGAN v2:使用小结构FastSpeech2和HiFi-GAN v2

  • AdaVITS-e:不使用PPG作为中间表征的AdaVITS版本

分别测试了各系统的自然度和音色相似度的MOS评分、WER,并计算了各系统的参数量和计算量。实验结果如表1所示。和具有与AdaVITSv1相似的模型大小的FS2-l+HiFiGAN v2相比,所提出的AdaVITS实现了更好的自然度和更少的计算复杂度。AdaVITS合成样本的WER比FS2-l+HiFiGAN v2更低,表明AdvaVITS具有良好的发音稳定性。与FS2-o+HiFiGAN v1相比,AdaVITS-v2具有相似的自然度,但模型尺寸小。我们也看到,与原始VITS相比,AdaVITS在自然度和说话人相似度方面仍有差距,但是计算复杂度方面有明显优势。与此同时,与其他方法相比,AdaVITS实现了更低的WER,这主要归功于基于PPG的语言特征的利用,这可以通过AdaVITS-e的性能来证明,其使用文本取代PPG作为输入的时候WER攀升。

表1 MOS和WER的实验结果及参数量/计算量

如表2的消融实验所示,复数谱判别器 (MCD) 和PPG预测器 (PPG Predictor) 在获得高质量语音中发挥了重要作用,而加入flow indication embedding (FLE)、线性注意力机制 (Linear Att.) 和iSTFT解码器 (iSTFT Dec.) 可以有效地减少参数数量和计算复杂度,而不会对MOS得分造成明显的影响。

表2 消融实验MOS分

4. 总结

本文提出了一种基于VITS的小型化说话人自适应TTS系统,简称AdaVITS,以满足基于说话人自适应方法进行轻量级目标说话人音色克隆的需求。与其他模型相比,AdaVITS在模型大小和计算复杂度方面具有明显的优势。与具有相似参数量的模型相比,AdaVITS具有较低的计算复杂度,可以获得更好的语音质量。进一步提升模型合成语音的韵律是下一步工作。

参考文献

[1] M. Chen, X. Tan, B. Li, Y. Liu, T. Qin, S. Zhao, and T. Liu, “Adaspeech: Adaptive text to speech for custom voice”, ICLR 2021.

[2] S. Liu, D. Su, and D. Yu, “Meta-voice: Fast few-shot style transfer for expressive voice cloning using meta learning”, CoRR, vol. abs/2111.07218, 2021.

[3] J. Kim, J. Kong, and J. Son, “Conditional variational autoencoder with adversarial learning for end-to-end text-to-speech”, ICML 2021.

[4] W. Jang, D. Lim, and J. Yoon, “Universal melgan: A robust neural vocoder for high-fidelity waveform generation in multiple domains”, CoRR, vol. abs/2011.09631, 2020.

[5] S. Lee, S. Kim, and S. Yoon, “Nanoflow: Scalable normalizing flows with sublinear parameter complexity”, NeurIPS 2020.

[6] A. Katharopoulos, A. Vyas, N. Pappas, and F. Fleuret, “Transformers are rnns: Fast autoregressive transformers with linear attention”, ICML 2020.

[7] H. Zen, V. Dang, R. Clark, Y. Zhang, R. J. Weiss, Y. Jia, Z. Chen, and Y. Wu, “Libritts: A corpus derived from librispeech for textto-speech”, Interspeech 2019.

[8] C. Veaux, J. Yamagishi, K. MacDonald et al., “Superseded-cstr vctk corpus: English multi-speaker corpus for cstr voice cloning toolkit”, 2017.

这篇关于AdaVITS—基于VITS的小型化说话人自适应模型的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/331030

相关文章

大模型研发全揭秘:客服工单数据标注的完整攻略

在人工智能(AI)领域,数据标注是模型训练过程中至关重要的一步。无论你是新手还是有经验的从业者,掌握数据标注的技术细节和常见问题的解决方案都能为你的AI项目增添不少价值。在电信运营商的客服系统中,工单数据是客户问题和解决方案的重要记录。通过对这些工单数据进行有效标注,不仅能够帮助提升客服自动化系统的智能化水平,还能优化客户服务流程,提高客户满意度。本文将详细介绍如何在电信运营商客服工单的背景下进行

Andrej Karpathy最新采访:认知核心模型10亿参数就够了,AI会打破教育不公的僵局

夕小瑶科技说 原创  作者 | 海野 AI圈子的红人,AI大神Andrej Karpathy,曾是OpenAI联合创始人之一,特斯拉AI总监。上一次的动态是官宣创办一家名为 Eureka Labs 的人工智能+教育公司 ,宣布将长期致力于AI原生教育。 近日,Andrej Karpathy接受了No Priors(投资博客)的采访,与硅谷知名投资人 Sara Guo 和 Elad G

Retrieval-based-Voice-Conversion-WebUI模型构建指南

一、模型介绍 Retrieval-based-Voice-Conversion-WebUI(简称 RVC)模型是一个基于 VITS(Variational Inference with adversarial learning for end-to-end Text-to-Speech)的简单易用的语音转换框架。 具有以下特点 简单易用:RVC 模型通过简单易用的网页界面,使得用户无需深入了

透彻!驯服大型语言模型(LLMs)的五种方法,及具体方法选择思路

引言 随着时间的发展,大型语言模型不再停留在演示阶段而是逐步面向生产系统的应用,随着人们期望的不断增加,目标也发生了巨大的变化。在短短的几个月的时间里,人们对大模型的认识已经从对其zero-shot能力感到惊讶,转变为考虑改进模型质量、提高模型可用性。 「大语言模型(LLMs)其实就是利用高容量的模型架构(例如Transformer)对海量的、多种多样的数据分布进行建模得到,它包含了大量的先验

图神经网络模型介绍(1)

我们将图神经网络分为基于谱域的模型和基于空域的模型,并按照发展顺序详解每个类别中的重要模型。 1.1基于谱域的图神经网络         谱域上的图卷积在图学习迈向深度学习的发展历程中起到了关键的作用。本节主要介绍三个具有代表性的谱域图神经网络:谱图卷积网络、切比雪夫网络和图卷积网络。 (1)谱图卷积网络 卷积定理:函数卷积的傅里叶变换是函数傅里叶变换的乘积,即F{f*g}

秋招最新大模型算法面试,熬夜都要肝完它

💥大家在面试大模型LLM这个板块的时候,不知道面试完会不会复盘、总结,做笔记的习惯,这份大模型算法岗面试八股笔记也帮助不少人拿到过offer ✨对于面试大模型算法工程师会有一定的帮助,都附有完整答案,熬夜也要看完,祝大家一臂之力 这份《大模型算法工程师面试题》已经上传CSDN,还有完整版的大模型 AI 学习资料,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

【生成模型系列(初级)】嵌入(Embedding)方程——自然语言处理的数学灵魂【通俗理解】

【通俗理解】嵌入(Embedding)方程——自然语言处理的数学灵魂 关键词提炼 #嵌入方程 #自然语言处理 #词向量 #机器学习 #神经网络 #向量空间模型 #Siri #Google翻译 #AlexNet 第一节:嵌入方程的类比与核心概念【尽可能通俗】 嵌入方程可以被看作是自然语言处理中的“翻译机”,它将文本中的单词或短语转换成计算机能够理解的数学形式,即向量。 正如翻译机将一种语言

AI Toolkit + H100 GPU,一小时内微调最新热门文生图模型 FLUX

上个月,FLUX 席卷了互联网,这并非没有原因。他们声称优于 DALLE 3、Ideogram 和 Stable Diffusion 3 等模型,而这一点已被证明是有依据的。随着越来越多的流行图像生成工具(如 Stable Diffusion Web UI Forge 和 ComyUI)开始支持这些模型,FLUX 在 Stable Diffusion 领域的扩展将会持续下去。 自 FLU

SWAP作物生长模型安装教程、数据制备、敏感性分析、气候变化影响、R模型敏感性分析与贝叶斯优化、Fortran源代码分析、气候数据降尺度与变化影响分析

查看原文>>>全流程SWAP农业模型数据制备、敏感性分析及气候变化影响实践技术应用 SWAP模型是由荷兰瓦赫宁根大学开发的先进农作物模型,它综合考虑了土壤-水分-大气以及植被间的相互作用;是一种描述作物生长过程的一种机理性作物生长模型。它不但运用Richard方程,使其能够精确的模拟土壤中水分的运动,而且耦合了WOFOST作物模型使作物的生长描述更为科学。 本文让更多的科研人员和农业工作者

线性因子模型 - 独立分量分析(ICA)篇

序言 线性因子模型是数据分析与机器学习中的一类重要模型,它们通过引入潜变量( latent variables \text{latent variables} latent variables)来更好地表征数据。其中,独立分量分析( ICA \text{ICA} ICA)作为线性因子模型的一种,以其独特的视角和广泛的应用领域而备受关注。 ICA \text{ICA} ICA旨在将观察到的复杂信号