DAC: High-Fidelity Audio Compression with Improved RVQGAN

2024-08-30 16:12

本文主要是介绍DAC: High-Fidelity Audio Compression with Improved RVQGAN,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

  • Rithesh Kumar
  • Descript, Inc.
  • 2023NIPS
    code

文章目录

  • abstrat
  • method

abstrat

  • 44.1k音频编码为8k bps,接近90x压缩比;可以处理speech, music
  • codebook collapse: 部分码本没有利用到。----
  • quantizer dropout :允许单个模型支持可变比特率,但实际上会损害全带宽音频的质量。-----

method

  • 编码器评判的标准:(1)近乎无损的还原;(2)高压缩比;(3)适用于各种信号(speech/music),以及各种采样率和文件格式(mp3/wav);
    在这里插入图片描述
  • 模型和VQ-GANs的结构基本一致,fully conv,Encodec/Soundstream 也是这种模式;
  • 激活函数改进:Leaky ReLUs对于捕捉信号中的周期性比较差,替换为Snake activation function,其中α控制信号的周期成分;这个对音频保真度的改进比较明显;【振幅和周期】$snake(x) = x + α1 sin2(αx) $- VQ码本:初始化对于训练过程码本的利用率很重要,比如k-means聚类初始化比随机初始化更好一些;如果训练过程中连续多个batch没有用到的码本,再次初始化;但是仍然存在码本利用不足的情况。
  • factorized codes :对码本在低维空间进行Factorization decouple(因子解耦);this can be interpreted as a code lookup using only the principal components of the input vector that maximally explain the variance in the data. ----- encoder的embedding是高维的,codebook的dim缩小,通过linear 变换【Factorization decouple】到低维度,
  • L2-normalized codes. 对codebook embedding的L2 正则,使得欧几里得距离转换为余弦相似性,这有助于稳定性和质量
  • 通过这两点的改进,本模型训练时候可以复用VQ-VAE codebook 以及commitment losses,而不需要k-means初始化以及随机重启;

这篇关于DAC: High-Fidelity Audio Compression with Improved RVQGAN的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1121304

相关文章

Apple quietly slips WebRTC audio, video into Safari's WebKit spec

转自:http://www.zdnet.com/article/apple-quietly-slips-webrtc-audio-video-into-safaris-webkit-spec/?from=timeline&isappinstalled=0 http://www.zdnet.com/article/apple-quietly-slips-webrtc-audio-video-

LLM系列 | 38:解读阿里开源语音多模态模型Qwen2-Audio

引言 模型概述 模型架构 训练方法 性能评估 实战演示 总结 引言 金山挂月窥禅径,沙鸟听经恋法门。 小伙伴们好,我是微信公众号《小窗幽记机器学习》的小编:卖铁观音的小男孩,今天这篇小作文主要是介绍阿里巴巴的语音多模态大模型Qwen2-Audio。近日,阿里巴巴Qwen团队发布了最新的大规模音频-语言模型Qwen2-Audio及其技术报告。该模型在音频理解和多模态交互

Usb Audio Device Descriptor(10) Hid Device

对于 Standard Interface Descriptor, 当 bInterfaceClass=0x03时,即为HID设备。Standard Interface Descriptor如下 struct usb_standard_interface_descriptor{U8 bLength; /*Size of this descriptor in bytes*/U8 bDescrip

Android rk3399 UAC(USB Audio)开发笔记

一、UAC有1.0和2.0,因Windows对2.0支持不好,我使用的是UAC1.0驱动 内核配置:CONFIG_USB_CONFIGFS_F_UAC1          ---这个宏配置无需物理codec,使用虚拟 alsa codec  驱动路径:"kernel\drivers\usb\gadget\function\f_uac1.c" 内核配置:CONFIG_USB_CONFIGFS_

学习硬件测试05:NTC(ADC)+正弦波(DAC)+DMA(ADC+DAC)(P73、P76、P78)

文章以下内容全部为硬件相关知识,鲜有软件知识,并且记的是自己需要的部分,大家可能看不明白。 一、NTC(ADC) 1.1实验现象 本实验用 NTC 采集温度,数码管实时显示温度数据(整数),左下角 USB 小串口每隔 1S 打印温度信息。 1.2硬件电路 NTC 电阻是一个模拟温度传感器,随着温度的升高,电阻值逐渐减小。电路简单介绍如下: 电源滤波电容在 25℃ 室温下 NTC 电

Kafka【十一】数据一致性与高水位(HW :High Watermark)机制

【1】数据一致性 Kafka的设计目标是:高吞吐、高并发、高性能。为了做到以上三点,它必须设计成分布式的,多台机器可以同时提供读写,并且需要为数据的存储做冗余备份。 图中的主题有3个分区,每个分区有3个副本,这样数据可以冗余存储,提高了数据的可用性。并且3个副本有两种角色,Leader和Follower,Follower副本会同步Leader副本的数据。 一旦Leader副本挂了,Follo

Win10 - 即插即用的external audio device detected问题

问题     有些牌子的笔记本,在win10下每次插入外设耳机,都会跳出带有 external audio device detected 字样的音频输出设备选择框需要选择 方案     1、在开始菜单选择 运行 ,输入 regedit 后回车打开注册表     2、在注册表中定位到 HKEY_CURRENT_USER\SOFTWARE\Realtek\Audio\RtkNGUI64

Audio Effect

Android:AudioEffect——音乐特效控制 https://blog.csdn.net/qq_42192693/article/details/105047003 AudioEffect构造流程跟踪 & 音效库实现(native侧) https://blog.csdn.net/wkw1125/article/details/65632960?utm_medium=distribu

Android audio debug

dumpsys media.audio_flinger dumpsys media.audio_policy dumpsys audio

K8s高可用集群部署----超详细(Detailed Deployment of k8s High Availability Cluster)

💝💝💝欢迎来到我的博客,很高兴能够在这里和您见面!希望您在这里可以感受到一份轻松愉快的氛围,不仅可以获得有趣的内容和知识,也可以畅所欲言、分享您的想法和见解。 推荐:Linux运维老纪的首页,持续学习,不断总结,共同进步,活到老学到老 导航剑指大厂系列:全面总结 运维核心技术:系统基础、数据库、网路技术、系统安全、自动化运维、容器技术、监控工具、脚本编程、云服务等。 常用运维工具系列: