HiFi-GAN: Generative Adversarial Networks for Efficient and High Fidelity Speech Synthesis

2024-01-21 23:40

文章标签 speech high networks gan generative efficient hifi adversarial synthesis fidelity

本文主要是介绍HiFi-GAN: Generative Adversarial Networks for Efficient and High Fidelity Speech Synthesis，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

会议：2020 NIPS
单位：韩国KAKAO
作者：Jungil Kong， Jaehyeon Kim
文章主页
开源代码

使用心得：
- hifigan的收敛速度和效果都比PWG要好一点；
- hifigan预测真实值表现良好，但是和声学模型接在一起之后有电音（杂音），主要是两个系统的mismatch(真实mel-spec和预测的mel-spec之间的差异）
- 2的解决方法：声学模型预测的更精准一些；vocoder用一些predict-mel训练，增强泛化性。
  文章目录
  - - abstract
    - HiFi-GAN
    - 生成器结构
      MSD: multi-scale discriminator
      MPD：multi-period discriminator
      目标函数
    - experiments
    - ablation study
      unseen speaker的泛化

abstract

motivation:在推理时间 & 生成高保真音质方面均作出改进

观点：modeling periodic patterns of an audio is crucial
结果：22.05k的单人音频生成质量和录制语音接近；优点全CNN网络，前向推理速度非常快

HiFi-GAN

包括一个生成器和两个判别器（multi-scale & multi-period)，

生成器结构

在这里插入图片描述

ConvTranspose：输入mel-spec，通过卷积上采样到和wav采样点同等长度；
multi-receptive field fusion (MRF) module：res-block conv，作者设置了四种不同长度的生成器，可通过调节参数实现合成效率 & 生成质量的平衡。

MSD: multi-scale discriminator

在这里插入图片描述

因为MPD是对信号重采样为不同的周期（离散点进行判断），因此加入MSD对连续点语音进行判别；
MSD包含三个子判别器：对连续的语音采样点进行建模，分别建模原始语音，✖️2 average-pooled audio，✖️4 average-pooled audio。是对平滑后波形的判断。

MPD：multi-period discriminator

在这里插入图片描述

- motivation：语音由不同的周期信号组成，重建语音数据需要对不同的周期模式进行建模。
对不连续的采样点进行建模，设置素数【2，3，5，7，11】为不同的period，按照period将音频采样点reshape为二维信号，然后用卷积单独处理周期重采样后的信号。
如上图所示：可以看成大周期sin signal+小周期sin signal，不同的采样间隔建模到不同周期的信号。

目标函数

在这里插入图片描述

Feature Matching Loss：衡量判别器对于真实样本和生成样本预测的结果偏差

experiments

对比1:LJSpeech的效果，baseline选择官方开源的WaveNet，WaveGlow，MelGAN
对于unseen speaker的泛化效果：VCTK数据集，9个人作为unseen speaker，剩下的用于训练WaveNet，WaveGlow，MelGAN， hifigan
为了对比合成质量和合成速度，分别设置三组参数V1，V2，V3，参数量依次越来越小；

ablation study

在这里插入图片描述

MPD模块对结果的改善最显著

unseen speaker的泛化

在这里插入图片描述

这篇关于HiFi-GAN: Generative Adversarial Networks for Efficient and High Fidelity Speech Synthesis的文章就介绍到这儿，希望我们推荐的文章对编程师们有所帮助！

http://www.chinasem.cn/article/631191。 23002807@qq.com

相关文章

[论文笔记]QLoRA: Efficient Finetuning of Quantized LLMs

[论文笔记]QLoRA: Efficient Finetuning of Quantized LLMs

引言今天带来LoRA的量化版论文笔记——QLoRA: Efficient Finetuning of Quantized LLMs 为了简单，下文中以翻译的口吻记录，比如替换"作者"为"我们"。我们提出了QLoRA，一种高效的微调方法，它在减少内存使用的同时，能够在单个48GB GPU上对65B参数的模型进行微调，同时保持16位微调任务的完整性能。QLoRA通过一个冻结的4位量化预

阅读更多...

生成对抗网络（GAN网络）

生成对抗网络（GAN网络）

Generative Adversarial Nets 生成对抗网络GAN交互式可视化网站 1、GAN 基本结构 GAN 模型其实是两个网络的组合：生成器（Generator）负责生成模拟数据；判别器（Discriminator）负责判断输入的数据是真实的还是生成的。生成器要不断优化自己生成的数据让判别网络判断不出来，判别器也要优化自己让自己判断得更准确。二者关系形成

阅读更多...

深度学习--对抗生成网络（GAN, Generative Adversarial Network）

深度学习--对抗生成网络（GAN, Generative Adversarial Network）

对抗生成网络（GAN, Generative Adversarial Network）是一种深度学习模型，由Ian Goodfellow等人在2014年提出。GAN主要用于生成数据，通过两个神经网络相互对抗，来生成以假乱真的新数据。以下是对GAN的详细阐述，包括其概念、作用、核心要点、实现过程、代码实现和适用场景。 1. 概念 GAN由两个神经网络组成：生成器（Generator）和判别器（D

阅读更多...

A Comprehensive Survey on Graph Neural Networks笔记

A Comprehensive Survey on Graph Neural Networks笔记

一、摘要-Abstract 1、传统的深度学习模型主要处理欧几里得数据（如图像、文本），而图神经网络的出现和发展是为了有效处理和学习非欧几里得域（即图结构数据）的信息。 2、将GNN划分为四类：recurrent GNNs（RecGNN）, convolutional GNNs,(GCN), graph autoencoders(GAE), and spatial–temporal GNNs(S

阅读更多...

基于 AC 驱动的电容结构 GaN LED 模型开发和应用

基于 AC 驱动的电容结构 GaN LED 模型开发和应用

随着芯片尺寸减小，微小尺寸GaN 基 Micro LED 显示面临着显示与驱动高密度集成的难题，传统直流（DC）驱动技术会导致结温上升，降低器件寿命。南京大学团队创新提出交流（AC）驱动的单电极 LED（SC-LED）结构【见图1】，利用隧穿结（TJ）降低器件的交流工作电压。为了深入理解该器件的工作原理，我司技术团队开发了基于 AC 驱动的物理解析模型，揭示了隧穿结降低器件工作电压的

阅读更多...

Complex Networks Package for MatLab

Complex Networks Package for MatLab

http://www.levmuchnik.net/Content/Networks/ComplexNetworksPackage.html 翻译：复杂网络的MATLAB工具包提供了一个高效、可扩展的框架，用于在MATLAB上的网络研究。可以帮助描述经验网络的成千上万的节点，生成人工网络，运行鲁棒性实验，测试网络在不同的攻击下的可靠性，模拟任意复杂的传染病的传

阅读更多...

Convolutional Neural Networks for Sentence Classification论文解读

Convolutional Neural Networks for Sentence Classification论文解读

基本信息作者Yoon Kimdoi发表时间2014期刊EMNLP网址https://doi.org/10.48550/arXiv.1408.5882 研究背景 1. What’s known 既往研究已证实 CV领域著名的CNN。 2. What’s new 创新点将CNN应用于NLP，打破了传统NLP任务主要依赖循环神经网络（RNN）及其变体的局面。用预训练的词向量（如word2v

阅读更多...

【机器学习】生成对抗网络(Generative Adversarial Networks, GANs)详解

【机器学习】生成对抗网络(Generative Adversarial Networks, GANs)详解

🌈个人主页: 鑫宝Code 🔥热门专栏: 闲话杂谈｜炫酷HTML | JavaScript基础 💫个人格言: "如无必要，勿增实体" 文章目录生成对抗网络(Generative Adversarial Networks, GANs)详解GANs的基本原理GANs的训练过程GANs的发展历程GANs在实际任务中的应用小结生成对

阅读更多...

Kafka【十一】数据一致性与高水位（HW ：High Watermark）机制

Kafka【十一】数据一致性与高水位（HW ：High Watermark）机制

【1】数据一致性 Kafka的设计目标是：高吞吐、高并发、高性能。为了做到以上三点，它必须设计成分布式的，多台机器可以同时提供读写，并且需要为数据的存储做冗余备份。图中的主题有3个分区，每个分区有3个副本，这样数据可以冗余存储，提高了数据的可用性。并且3个副本有两种角色，Leader和Follower，Follower副本会同步Leader副本的数据。一旦Leader副本挂了，Follo

阅读更多...

CMU 10423 Generative AI：HW0

CMU 10423 Generative AI：HW0

由于找不到S24版数据集，所以HW0用的F24版的。项目地址见：https://github.com/YM2025/CMU_10423_2024S 文章目录 0 作业概述1 阅读（3分）2 图像分类（43分）2.1 (3 分)【完成】2.2 (3 分)【完成】2.3 (4 分)【完成】2.4 (4 分)【完成】2.5【完成】2.5.a (3 分)2.5.b (2 分) 2.6 (2 分)

阅读更多...