本文主要是介绍DAC: High-Fidelity Audio Compression with Improved RVQGAN,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
- Rithesh Kumar
- Descript, Inc.
- 2023NIPS
code
文章目录
- abstrat
- method
abstrat
- 44.1k音频编码为8k bps,接近90x压缩比;可以处理speech, music
- codebook collapse: 部分码本没有利用到。----
- quantizer dropout :允许单个模型支持可变比特率,但实际上会损害全带宽音频的质量。-----
method
- 编码器评判的标准:(1)近乎无损的还原;(2)高压缩比;(3)适用于各种信号(speech/music),以及各种采样率和文件格式(mp3/wav);
- 模型和VQ-GANs的结构基本一致,fully conv,Encodec/Soundstream 也是这种模式;
- 激活函数改进:Leaky ReLUs对于捕捉信号中的周期性比较差,替换为Snake activation function,其中α控制信号的周期成分;这个对音频保真度的改进比较明显;【振幅和周期】- VQ码本:初始化对于训练过程码本的利用率很重要,比如k-means聚类初始化比随机初始化更好一些;如果训练过程中连续多个batch没有用到的码本,再次初始化;但是仍然存在码本利用不足的情况。
- factorized codes :对码本在低维空间进行Factorization decouple(因子解耦);this can be interpreted as a code lookup using only the principal components of the input vector that maximally explain the variance in the data. ----- encoder的embedding是高维的,codebook的dim缩小,通过linear 变换【Factorization decouple】到低维度,
- L2-normalized codes. 对codebook embedding的L2 正则,使得欧几里得距离转换为余弦相似性,这有助于稳定性和质量
- 通过这两点的改进,本模型训练时候可以复用VQ-VAE codebook 以及commitment losses,而不需要k-means初始化以及随机重启;
这篇关于DAC: High-Fidelity Audio Compression with Improved RVQGAN的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!