本文主要是介绍【阅读文献】一个使用大语言模型的端到端语音概要,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
摘要
ssum框架(Speech Summarization)为了 从说话人的语音提出对应的文本二题出。
ssum面临的挑战:
- 控制长语音的输入
- 捕捉 the intricate cross-mdoel mapping 在长语音输入和短文本之间。
ssum端到端模型框架 使用 Q-Former
作为 语音和文本的中介连接 ,并且使用LLMs
去从语音特征正确地产生文本。
采取 multi-stage 的训练方法:
包括 基于ASR和TSum(text summarization)任务的LLM 作为 auxiliary 任务。
ASR任务 过去 xxxxx
现在,我们使用一个 循环的学习策略 去部署从TSum 到 SSum 的模型转换。
介绍
;
这篇关于【阅读文献】一个使用大语言模型的端到端语音概要的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!