llasm专题

LLaSM:Large language and speech model

1.Introduction 级联方法使用ASR将语音输入转化为文本输入,语音到文本会导致信息损失,本文提出LLaSM,一个具有跨模态对话能力的大型语音与语言模型,能够理解和遵循语音与语言指令,借鉴LLaVA,利用预训练的语音模态编码器和大语言模型,使用Whisper作为语音编码器,将语音信号转化为嵌入,然后,一个模态适配器学习将语音嵌入与大模型的输入文本嵌入对齐,将语音嵌入和文本嵌入串联起