fidelity专题

DAC: High-Fidelity Audio Compression with Improved RVQGAN

Rithesh KumarDescript, Inc.2023NIPS code 文章目录 abstratmethod abstrat 44.1k音频编码为8k bps,接近90x压缩比;可以处理speech, musiccodebook collapse: 部分码本没有利用到。----quantizer dropout :允许单个模型支持可变比特率,但实际上会损害全带宽音频的

PeriodWave: Multi-Period Flow Matching for High-Fidelity Waveform Generation

preprintKorea Seoul, Korea 文章目录 abstractmethodFlow Matching for Waveform GenerationHigh-frequency Information Modeling for Flow Matching demo page, PeriodWave 三者最好,而且能把原声中的噪声去掉,GAN一类声码器做不到的。 Perio

HiFi-GAN: Generative Adversarial Networks for Efficient and High Fidelity Speech Synthesis

会议:2020 NIPS 单位:韩国KAKAO 作者:Jungil Kong, Jaehyeon Kim 文章主页 开源代码 使用心得: hifigan的收敛速度和效果都比PWG要好一点;hifigan预测真实值表现良好,但是和声学模型接在一起之后有电音(杂音),主要是两个系统的mismatch(真实mel-spec和预测的mel-spec之间的差异)2的解决方法:声学模型预测的更精准一些;vo