uniaudio专题

UniAudio 1.5：大型语言模型（LLMs）驱动的音频编解码器

大型语言模型（LLMs）在文本理解和生成方面展示了卓越的能力，但它们不能直接应用于跨模态任务，除非进行微调。本文提出了一种跨模态上下文学习方法，使未进行进一步训练的LLMs能够在少量示例的情况下，无需任何参数更新就能完成多种音频任务。核心思想是通过将音频模态压缩到训练有素的LLMs的令牌空间中，减少文本和音频之间的模态异质性。这样，音频表示可以被视为一种新的语言，LLMs可以通过几个