语音合成论文优选:Fre-GAN: Adversarial Frequency-consistent Audio Synthesis

本文主要是介绍语音合成论文优选:Fre-GAN: Adversarial Frequency-consistent Audio Synthesis,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

声明:语音合成论文优选系列主要分享论文,分享论文不做直接翻译,所写的内容主要对文章简略概括。如有转载,请标注来源。

欢迎关注微信公众号:低调奋进


低调奋进迎来新的伙伴加入,本文由迎风飞扬进行文章的分享,欢迎更多伙伴的加入。


Fre-GAN: Adversarial Frequency-consistent Audio Synthesis

此篇文章是Department of Artificial Intelligence, Korea University, Seoul, Korea在2021.6.6日发表的文章,主要是在HifiGAN的基础上,改进了生成器和判别器,可以提高生成语音的MOS值。具体文章链接 https://arxiv.org/abs/2106.02297


1、研究背景

尽管最近的声码器已经极大的提升了合成语音的音质,但是与GT相比在频谱上仍然存在gap。这样的一种差别就会导致 spectral artifacts 比如说hissing noise or robotic sound, 从而会导致音质的下降.

为此,提出了FreGAN,它可以输出高质量的音频,与GT相比在MOS上只有0.03的差别。

2、详细设计

FreGAN采用了 RCG(resolution-connected generator) 和 resolution-wise discriminators 来学习频谱上的不同频段。由于传统的下采样方法(比如average pool)忽略了高频部分,为此作者采用了DWT(离散小波变换)保留了所有的信息并且保持了正交性。

生成器

与HiFiGAN不同的是,作者采用了RCG,如下图所示,Up模块采用了Nearest Neighbor (NN) upsampler ,NN已经被证明了可以有效的缓解由于transpose conv引起的artifacts.

RCG的优势在于:

1)可以有效的捕捉到不同频带的信息

2)在训练过程中,刚开始主要是建模低分辨率部分,训练过程中逐渐将注意力转移到高分辨率部分

判别器

与HiFiGAN类似,采用了两个判别器,Resolution-wise MPD (RPD) and Resolution-wise MSD (RSD),不同的是采用了DWT做了分解,不损失任何信息。

DWT

为了不损失高频部分,用DWT替换了AP,如下图所示,可以清楚的看到DWT并没有损失任何信息,而AP每次下采样后都损失了高频部分。在DWT过程中,信号会经过两个滤波器low-pass filter (g) 和high-pass filter (h)

训练

3、实验结果

从Table1可以看出,FreGAN要的效果要优于其他模型,在推理速度上比HiFiGAN略微有些降低。

从Figure3可以看出,FreGAN生成的音频相比较于其他模型,在高频上与GT的差别比较小

从Table2可以看出,采用DWT对音频的MOS影响最大。从Figure4可以看出,随着训练时间的推移,模型更专注于高频部分。

4、总结

作者提出了一种新的生成器和判别器结构,可以提升合成音频的MOS值,最核心思想就是采用了DWT(当然,其他模块比如NN,RCG等都对模型效果都有提升),它可以将信号分解成高频和低频部分,分别送入判别器中,与传统的Average Pool相比,没有任何信息损失,可以更好的重建高频部分。论文不足的地方,就是采用的GT谱进行MOS评测,并没有给出采用声学模型预测谱的MOS比对。

这篇关于语音合成论文优选:Fre-GAN: Adversarial Frequency-consistent Audio Synthesis的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/341611

相关文章

使用Python实现文本转语音(TTS)并播放音频

《使用Python实现文本转语音(TTS)并播放音频》在开发涉及语音交互或需要语音提示的应用时,文本转语音(TTS)技术是一个非常实用的工具,下面我们来看看如何使用gTTS和playsound库将文本... 目录什么是 gTTS 和 playsound安装依赖库实现步骤 1. 导入库2. 定义文本和语言 3

讯飞webapi语音识别接口调用示例代码(python)

《讯飞webapi语音识别接口调用示例代码(python)》:本文主要介绍如何使用Python3调用讯飞WebAPI语音识别接口,重点解决了在处理语音识别结果时判断是否为最后一帧的问题,通过运行代... 目录前言一、环境二、引入库三、代码实例四、运行结果五、总结前言基于python3 讯飞webAPI语音

Java实战之自助进行多张图片合成拼接

《Java实战之自助进行多张图片合成拼接》在当今数字化时代,图像处理技术在各个领域都发挥着至关重要的作用,本文为大家详细介绍了如何使用Java实现多张图片合成拼接,需要的可以了解下... 目录前言一、图片合成需求描述二、图片合成设计与实现1、编程语言2、基础数据准备3、图片合成流程4、图片合成实现三、总结前

阿里开源语音识别SenseVoiceWindows环境部署

SenseVoice介绍 SenseVoice 专注于高精度多语言语音识别、情感辨识和音频事件检测多语言识别: 采用超过 40 万小时数据训练,支持超过 50 种语言,识别效果上优于 Whisper 模型。富文本识别:具备优秀的情感识别,能够在测试数据上达到和超过目前最佳情感识别模型的效果。支持声音事件检测能力,支持音乐、掌声、笑声、哭声、咳嗽、喷嚏等多种常见人机交互事件进行检测。高效推

让树莓派智能语音助手实现定时提醒功能

最初的时候是想直接在rasa 的chatbot上实现,因为rasa本身是带有remindschedule模块的。不过经过一番折腾后,忽然发现,chatbot上实现的定时,语音助手不一定会有响应。因为,我目前语音助手的代码设置了长时间无应答会结束对话,这样一来,chatbot定时提醒的触发就不会被语音助手获悉。那怎么让语音助手也具有定时提醒功能呢? 我最后选择的方法是用threading.Time

AI hospital 论文Idea

一、Benchmarking Large Language Models on Communicative Medical Coaching: A Dataset and a Novel System论文地址含代码 大多数现有模型和工具主要迎合以患者为中心的服务。这项工作深入探讨了LLMs在提高医疗专业人员的沟通能力。目标是构建一个模拟实践环境,人类医生(即医学学习者)可以在其中与患者代理进行医学

论文翻译:arxiv-2024 Benchmark Data Contamination of Large Language Models: A Survey

Benchmark Data Contamination of Large Language Models: A Survey https://arxiv.org/abs/2406.04244 大规模语言模型的基准数据污染:一项综述 文章目录 大规模语言模型的基准数据污染:一项综述摘要1 引言 摘要 大规模语言模型(LLMs),如GPT-4、Claude-3和Gemini的快

AI(文生语音)-TTS 技术线路探索学习:从拼接式参数化方法到Tacotron端到端输出

AI(文生语音)-TTS 技术线路探索学习:从拼接式参数化方法到Tacotron端到端输出 在数字化时代,文本到语音(Text-to-Speech, TTS)技术已成为人机交互的关键桥梁,无论是为视障人士提供辅助阅读,还是为智能助手注入声音的灵魂,TTS 技术都扮演着至关重要的角色。从最初的拼接式方法到参数化技术,再到现今的深度学习解决方案,TTS 技术经历了一段长足的进步。这篇文章将带您穿越时

论文阅读笔记: Segment Anything

文章目录 Segment Anything摘要引言任务模型数据引擎数据集负责任的人工智能 Segment Anything Model图像编码器提示编码器mask解码器解决歧义损失和训练 Segment Anything 论文地址: https://arxiv.org/abs/2304.02643 代码地址:https://github.com/facebookresear

论文翻译:ICLR-2024 PROVING TEST SET CONTAMINATION IN BLACK BOX LANGUAGE MODELS

PROVING TEST SET CONTAMINATION IN BLACK BOX LANGUAGE MODELS https://openreview.net/forum?id=KS8mIvetg2 验证测试集污染在黑盒语言模型中 文章目录 验证测试集污染在黑盒语言模型中摘要1 引言 摘要 大型语言模型是在大量互联网数据上训练的,这引发了人们的担忧和猜测,即它们可能已