HiFi-GAN: Generative Adversarial Networks for Efficient and High Fidelity Speech Synthesis

本文主要是介绍HiFi-GAN: Generative Adversarial Networks for Efficient and High Fidelity Speech Synthesis,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

会议:2020 NIPS
单位:韩国KAKAO
作者:Jungil Kong, Jaehyeon Kim
文章主页
开源代码

  • 使用心得:
    • hifigan的收敛速度和效果都比PWG要好一点;
    • hifigan预测真实值表现良好,但是和声学模型接在一起之后有电音(杂音),主要是两个系统的mismatch(真实mel-spec和预测的mel-spec之间的差异)
    • 2的解决方法:声学模型预测的更精准一些;vocoder用一些predict-mel训练,增强泛化性。

      文章目录

        • abstract
        • HiFi-GAN
          • 生成器结构
          • MSD: multi-scale discriminator
          • MPD:multi-period discriminator
          • 目标函数
        • experiments
          • ablation study
          • unseen speaker的泛化

abstract

motivation:在推理时间 & 生成高保真音质方面均作出改进

  • 观点:modeling periodic patterns of an audio is crucial
  • 结果:22.05k的单人音频生成质量和录制语音接近;优点全CNN网络,前向推理速度非常快

HiFi-GAN

包括一个生成器和两个判别器(multi-scale & multi-period),

生成器结构

在这里插入图片描述

  • ConvTranspose:输入mel-spec,通过卷积上采样到和wav采样点同等长度;
  • multi-receptive field fusion (MRF) module:res-block conv,作者设置了四种不同长度的生成器,可通过调节参数实现合成效率 & 生成质量的平衡。

MSD: multi-scale discriminator

在这里插入图片描述

  • 因为MPD是对信号重采样为不同的周期(离散点进行判断),因此加入MSD对连续点语音进行判别;
  • MSD包含三个子判别器:对连续的语音采样点进行建模,分别建模原始语音,✖️2 average-pooled audio,✖️4 average-pooled audio。是对平滑后波形的判断。

MPD:multi-period discriminator

在这里插入图片描述
在这里插入图片描述

    • motivation:语音由不同的周期信号组成,重建语音数据需要对不同的周期模式进行建模。
  • 对不连续的采样点进行建模,设置素数【2,3,5,7,11】为不同的period,按照period将音频采样点reshape为二维信号,然后用卷积单独处理周期重采样后的信号。
  • 如上图所示:可以看成大周期sin signal+小周期sin signal,不同的采样间隔建模到不同周期的信号。

目标函数

在这里插入图片描述

  • Feature Matching Loss:衡量判别器对于真实样本和生成样本预测的结果偏差
    在这里插入图片描述

experiments

  • 对比1:LJSpeech的效果,baseline选择官方开源的WaveNet,WaveGlow,MelGAN
  • 对于unseen speaker的泛化效果:VCTK数据集,9个人作为unseen speaker,剩下的用于训练WaveNet,WaveGlow,MelGAN, hifigan
  • 为了对比合成质量和合成速度,分别设置三组参数V1,V2,V3,参数量依次越来越小;
    在这里插入图片描述

ablation study

在这里插入图片描述

  • MPD模块对结果的改善最显著

unseen speaker的泛化

在这里插入图片描述

这篇关于HiFi-GAN: Generative Adversarial Networks for Efficient and High Fidelity Speech Synthesis的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/631191

相关文章

[论文笔记]QLoRA: Efficient Finetuning of Quantized LLMs

引言 今天带来LoRA的量化版论文笔记——QLoRA: Efficient Finetuning of Quantized LLMs 为了简单,下文中以翻译的口吻记录,比如替换"作者"为"我们"。 我们提出了QLoRA,一种高效的微调方法,它在减少内存使用的同时,能够在单个48GB GPU上对65B参数的模型进行微调,同时保持16位微调任务的完整性能。QLoRA通过一个冻结的4位量化预

生成对抗网络(GAN网络)

Generative Adversarial Nets 生成对抗网络GAN交互式可视化网站 1、GAN 基本结构 GAN 模型其实是两个网络的组合: 生成器(Generator) 负责生成模拟数据; 判别器(Discriminator) 负责判断输入的数据是真实的还是生成的。 生成器要不断优化自己生成的数据让判别网络判断不出来,判别器也要优化自己让自己判断得更准确。 二者关系形成

深度学习--对抗生成网络(GAN, Generative Adversarial Network)

对抗生成网络(GAN, Generative Adversarial Network)是一种深度学习模型,由Ian Goodfellow等人在2014年提出。GAN主要用于生成数据,通过两个神经网络相互对抗,来生成以假乱真的新数据。以下是对GAN的详细阐述,包括其概念、作用、核心要点、实现过程、代码实现和适用场景。 1. 概念 GAN由两个神经网络组成:生成器(Generator)和判别器(D

A Comprehensive Survey on Graph Neural Networks笔记

一、摘要-Abstract 1、传统的深度学习模型主要处理欧几里得数据(如图像、文本),而图神经网络的出现和发展是为了有效处理和学习非欧几里得域(即图结构数据)的信息。 2、将GNN划分为四类:recurrent GNNs(RecGNN), convolutional GNNs,(GCN), graph autoencoders(GAE), and spatial–temporal GNNs(S

基于 AC 驱动的电容结构 GaN LED 模型开发和应用

随着芯片尺寸减小,微小尺寸GaN 基 Micro LED 显示面临着显示与驱动高密度集成的难题,传统直流(DC)驱动技术会导致结温上升,降低器件寿命。南京大学团队创新提出交流(AC)驱动的单电极 LED(SC-LED)结构【见图1】,利用隧穿结(TJ)降低器件的交流工作电压。为了深入理解该器件的工作原理,我司技术团队开发了基于 AC 驱动的物理解析模型,揭示了隧穿结降低器件工作电压的

Complex Networks Package for MatLab

http://www.levmuchnik.net/Content/Networks/ComplexNetworksPackage.html 翻译: 复杂网络的MATLAB工具包提供了一个高效、可扩展的框架,用于在MATLAB上的网络研究。 可以帮助描述经验网络的成千上万的节点,生成人工网络,运行鲁棒性实验,测试网络在不同的攻击下的可靠性,模拟任意复杂的传染病的传

Convolutional Neural Networks for Sentence Classification论文解读

基本信息 作者Yoon Kimdoi发表时间2014期刊EMNLP网址https://doi.org/10.48550/arXiv.1408.5882 研究背景 1. What’s known 既往研究已证实 CV领域著名的CNN。 2. What’s new 创新点 将CNN应用于NLP,打破了传统NLP任务主要依赖循环神经网络(RNN)及其变体的局面。 用预训练的词向量(如word2v

【机器学习】生成对抗网络(Generative Adversarial Networks, GANs)详解

🌈个人主页: 鑫宝Code 🔥热门专栏: 闲话杂谈| 炫酷HTML | JavaScript基础 ​💫个人格言: "如无必要,勿增实体" 文章目录 生成对抗网络(Generative Adversarial Networks, GANs)详解GANs的基本原理GANs的训练过程GANs的发展历程GANs在实际任务中的应用小结 生成对

Kafka【十一】数据一致性与高水位(HW :High Watermark)机制

【1】数据一致性 Kafka的设计目标是:高吞吐、高并发、高性能。为了做到以上三点,它必须设计成分布式的,多台机器可以同时提供读写,并且需要为数据的存储做冗余备份。 图中的主题有3个分区,每个分区有3个副本,这样数据可以冗余存储,提高了数据的可用性。并且3个副本有两种角色,Leader和Follower,Follower副本会同步Leader副本的数据。 一旦Leader副本挂了,Follo

CMU 10423 Generative AI:HW0

由于找不到S24版数据集,所以HW0用的F24版的。 项目地址见:https://github.com/YM2025/CMU_10423_2024S 文章目录 0 作业概述1 阅读(3分)2 图像分类(43分)2.1 (3 分)【完成】2.2 (3 分)【完成】2.3 (4 分)【完成】2.4 (4 分)【完成】2.5【完成】2.5.a (3 分)2.5.b (2 分) 2.6 (2 分)