llasm专题

LLaSM:Large language and speech model

1.Introduction 级联方法使用ASR将语音输入转化为文本输入，语音到文本会导致信息损失，本文提出LLaSM，一个具有跨模态对话能力的大型语音与语言模型，能够理解和遵循语音与语言指令，借鉴LLaVA，利用预训练的语音模态编码器和大语言模型，使用Whisper作为语音编码器，将语音信号转化为嵌入，然后，一个模态适配器学习将语音嵌入与大模型的输入文本嵌入对齐，将语音嵌入和文本嵌入串联起