HiFi-GAN: Generative Adversarial Networks for Efficient and High Fidelity Speech Synthesis

本文主要是介绍HiFi-GAN: Generative Adversarial Networks for Efficient and High Fidelity Speech Synthesis,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

会议:2020 NIPS
单位:韩国KAKAO
作者:Jungil Kong, Jaehyeon Kim
文章主页
开源代码

  • 使用心得:
    • hifigan的收敛速度和效果都比PWG要好一点;
    • hifigan预测真实值表现良好,但是和声学模型接在一起之后有电音(杂音),主要是两个系统的mismatch(真实mel-spec和预测的mel-spec之间的差异)
    • 2的解决方法:声学模型预测的更精准一些;vocoder用一些predict-mel训练,增强泛化性。

      文章目录

        • abstract
        • HiFi-GAN
          • 生成器结构
          • MSD: multi-scale discriminator
          • MPD:multi-period discriminator
          • 目标函数
        • experiments
          • ablation study
          • unseen speaker的泛化

abstract

motivation:在推理时间 & 生成高保真音质方面均作出改进

  • 观点:modeling periodic patterns of an audio is crucial
  • 结果:22.05k的单人音频生成质量和录制语音接近;优点全CNN网络,前向推理速度非常快

HiFi-GAN

包括一个生成器和两个判别器(multi-scale & multi-period),

生成器结构

在这里插入图片描述

  • ConvTranspose:输入mel-spec,通过卷积上采样到和wav采样点同等长度;
  • multi-receptive field fusion (MRF) module:res-block conv,作者设置了四种不同长度的生成器,可通过调节参数实现合成效率 & 生成质量的平衡。

MSD: multi-scale discriminator

在这里插入图片描述

  • 因为MPD是对信号重采样为不同的周期(离散点进行判断),因此加入MSD对连续点语音进行判别;
  • MSD包含三个子判别器:对连续的语音采样点进行建模,分别建模原始语音,✖️2 average-pooled audio,✖️4 average-pooled audio。是对平滑后波形的判断。

MPD:multi-period discriminator

在这里插入图片描述
在这里插入图片描述

    • motivation:语音由不同的周期信号组成,重建语音数据需要对不同的周期模式进行建模。
  • 对不连续的采样点进行建模,设置素数【2,3,5,7,11】为不同的period,按照period将音频采样点reshape为二维信号,然后用卷积单独处理周期重采样后的信号。
  • 如上图所示:可以看成大周期sin signal+小周期sin signal,不同的采样间隔建模到不同周期的信号。

目标函数

在这里插入图片描述

  • Feature Matching Loss:衡量判别器对于真实样本和生成样本预测的结果偏差
    在这里插入图片描述

experiments

  • 对比1:LJSpeech的效果,baseline选择官方开源的WaveNet,WaveGlow,MelGAN
  • 对于unseen speaker的泛化效果:VCTK数据集,9个人作为unseen speaker,剩下的用于训练WaveNet,WaveGlow,MelGAN, hifigan
  • 为了对比合成质量和合成速度,分别设置三组参数V1,V2,V3,参数量依次越来越小;
    在这里插入图片描述

ablation study

在这里插入图片描述

  • MPD模块对结果的改善最显著

unseen speaker的泛化

在这里插入图片描述

这篇关于HiFi-GAN: Generative Adversarial Networks for Efficient and High Fidelity Speech Synthesis的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/631191

相关文章

论文阅读--Efficient Hybrid Zoom using Camera Fusion on Mobile Phones

这是谷歌影像团队 2023 年发表在 Siggraph Asia 上的一篇文章,主要介绍的是利用多摄融合的思路进行变焦。 单反相机因为卓越的硬件性能,可以非常方便的实现光学变焦。不过目前的智能手机,受制于物理空间的限制,还不能做到像单反一样的光学变焦。目前主流的智能手机,都是采用多摄的设计,一般来说一个主摄搭配一个长焦,为了实现主摄与长焦之间的变焦,目前都是采用数字变焦的方式,数字变焦相比于光学

【专业英语 复习】第8章 Communications and Networks

1. 单选题   One of the most dramatic changes in connectivity and communications in the past few years has been ____. A. widespread use of mobile devices with wireless Internet connectivity   B. chat ro

推出一系列GaN功率放大器: QPA2211、QPA2211D、QPA2212、QPA2212D、QPA2212T,支持卫星通信和5G基础设施。

推出用于支持支持卫星通信和5G基础设施的GaN功率放大器: QPA2211 QPA2211D QPA2212 QPA2212D QPA2212T QPA2211 10W GaN功率放大器是一款Ka波段功率放大器,采用0.15µm碳化硅基氮化镓工艺 (QGaN15) 制造而成。该放大器的工作频率范围为27.5GHz至31GHz,线性功率为5W,互调失真积低于−25dBc,小信号增益为24dB。

生成模型的两大代表:VAE和GAN

生成模型 给定数据集,希望生成模型产生与训练集同分布的新样本。对于训练数据服从\(p_{data}(x)\);对于产生样本服从\(p_{model}(x)\)。希望学到一个模型\(p_{model}(x)\)与\(p_{data}(x)\)尽可能接近。 这也是无监督学习中的一个核心问题——密度估计问题。有两种典型的思路: 显式的密度估计:显式得定义并求解分布\(p_{model}(x)\),

Adversarial Perturbation Constraint对抗扰动约束

对抗扰动约束(Adversarial Perturbation Constraint)是在机器学习和深度学习领域中,一个涉及对抗样本(Adversarial Examples)的概念。对抗样本是指通过对输入数据进行微小、特意设计的扰动,使得模型产生错误预测或分类的输入数据。对抗扰动约束涉及这些扰动的生成和应用时的限制条件。 主要概念 对抗样本:这些是经过精心修改的输入数据,目的是欺骗机器学习

Polyp-DDPM: Diffusion-Based Semantic Polyp Synthesis for Enhanced Segmentation

Polyp- ddpm:基于扩散的语义Polyp合成增强分割 摘要: 本研究介绍了一种基于扩散的方法Polyp-DDPM,该方法用于生成假面条件下息肉的逼真图像,旨在增强胃肠道息肉的分割。我们的方法解决了与医学图像相关的数据限制、高注释成本和隐私问题的挑战。通过对分割掩模(代表异常区域的二进制掩模)的扩散模型进行调节,poly - ddpm在图像质量(实现fr起始距离(FID)得分为78.47

G7 - Semi-Supervised GAN 理论与实战

🍨 本文为🔗365天深度学习训练营 中的学习记录博客🍖 原作者:K同学啊 目录 理论知识模型实现引用、配置参数初始化权重定义算法模型模型配置模型训练训练模型 模型效果总结与心得体会 理论知识 在条件GAN中,判别器只用来判断图像的真和假,到了条件GAN中,图像本身其实是有标签的,这时候我们可能会想,为什么不直接让判别器输出图像的标签呢?本节要探究的SGAN就

ResNeXt - Aggregated Residual Transformations for Deep Neural Networks

《Aggregated Residual Transformations for Deep Neural Networks》是Saining Xie等人于2016年公开在arXiv上: https://arxiv.org/pdf/1611.05431.pdf 创新点 1.在传统Resnet基础上采用group convolution,在不增加参数量的前提下,获得更强的representat

模型压缩:Networks Slimming-Learning Efficient Convolutional Networks through Network Slimming

Network Slimming-Learning Efficient Convolutional Networks through Network Slimming(Paper) 2017年ICCV的一篇paper,思路清晰,骨骼清奇~~ 创新点: 1. 利用batch normalization中的缩放因子γ 作为重要性因子,即γ越小,所对应的channel不太重要,就可以裁剪(prun

用AI来做图像复原,上下文自编码器 + GAN,Pytorch源码解析

点击上方“AI公园”,关注公众号,选择加“星标“或“置顶” 作者:Hmrishav Bandyopadhyay 编译:ronghuaiyang 导读 一篇比较经典的图像复原的文章。 你知道在那个满是灰尘的相册里的童年旧照片是可以复原的吗?是啊,就是那种每个人都手牵着手,尽情享受生活的那种!不相信我吗?看看这个: 图像修复是人工智能研究的一个活跃领域,人工智能已经能够得出比大多数艺术家更好