首页
Python
Java
前端
数据库
Linux
Chatgpt专题
开发者工具箱
uniaudio专题
UniAudio 1.5:大型语言模型(LLMs)驱动的音频编解码器
大型语言模型(LLMs)在文本理解和生成方面展示了卓越的能力,但它们不能直接应用于跨模态任务,除非进行微调。本文提出了一种跨模态上下文学习方法,使未进行进一步训练的LLMs能够在少量示例的情况下,无需任何参数更新就能完成多种音频任务。核心思想是通过将音频模态压缩到训练有素的LLMs的令牌空间中,减少文本和音频之间的模态异质性。这样,音频表示可以被视为一种新的语言,LLMs可以通过几个
阅读更多...