LLM系列 | 38:解读阿里开源语音多模态模型Qwen2-Audio

2024-09-08 12:28

本文主要是介绍LLM系列 | 38:解读阿里开源语音多模态模型Qwen2-Audio,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

  • 引言

  • 模型概述

  • 模型架构

  • 训练方法

  • 性能评估

  • 实战演示

  • 总结

引言

金山挂月窥禅径,沙鸟听经恋法门。

小伙伴们好,我是微信公众号《小窗幽记机器学习》的小编:卖铁观音的小男孩,今天这篇小作文主要是介绍阿里巴巴的语音多模态大模型Qwen2-Audio。近日,阿里巴巴Qwen团队发布了最新的大规模音频-语言模型Qwen2-Audio及其技术报告。该模型在音频理解和多模态交互方面取得了显著进展,在多项基准测试中超越了此前的最佳水平。以下将从模型设计、训练方法、性能评估等多个方面对Qwen2-Audio进行详细解读。

技术报告地址:https://arxiv.org/abs/2407.10759

模型下载:https://huggingface.co/Qwen/Qwen2-Audio-7B-Instruct

在线demo:https://huggingface.co/spaces/Qwen/Qwen2-Audio-Instruct-Demo

模型概述

Qwen2-Audio是一个大规模音频-语言模型,可以接受各种音频信号输入,并根据语音指令执行音频分析或直接生成文本响应。与之前的模型(Qwen-Audio)相比,Qwen2-Audio在以下几个方面做了改进:

  1. 简化预训练过程: 使用自然语言提示替代复杂的层级标签,扩大了训练数据规模。

  2. 增强指令遵循能力: 通过监督微调和直接偏好优化(DPO),使模型输出更符合人类偏好。

  3. 实现两种音频交互模式: 语音聊天模式和音频分析模式,无需系统提示即可智能切换。
    3.1 语音聊天:用户可以使用语音向音频语言模型发出指令,无需通过自动语音识别(ASR)模块。
    3.2 音频分析:该模型能够根据文本指令分析音频信息,包括语音、声音、音乐等。

  4. 提高音频理解能力: 可以同时理解音频中的声音、多人对话和语音指令,并做出恰当响应。

  5. 支持多语言:该模型支持超过8种语言和方言,例如中文、英语、粤语、法语、意大利语、西班牙语、德语和日语。

模型架构

Qwen2-Audio的模型架构包含两个主要组件:音频编码器和大语言模型。

整体框架如下图所示:

1. 音频编码器

Qwen2-Audio使用Whisper-large-v3模型作为初始化的音频编码器。音频预处理过程如下:

  • 将音频重采样到16kHz

  • 使用25ms窗口大小和10ms作为step,将原始波形转换为128通道的梅尔频谱图

  • 添加步长为2的池化层,减少音频表示的长度

经过处理后,编码器输出的每一帧大约对应原始音频信号的40ms片段。

2. 大语言模型

Qwen2-Audio沿用了Qwen-7B作为基础语言模型组件。因此整个模型的参数总量为8.2B。

模型的训练目标是最大化下一个文本token的概率:

其中和分别表示音频序列和文本序列,θ和分别是大语言模型和音频编码器的可训练参数。 表示基于过往的文本序列。

训练方法

Qwen2-Audio的训练过程分为三个阶段:预训练、监督微调和直接偏好优化。

1. 预训练

在预训练阶段,Qwen2-Audio使用自然语言提示替代了之前Qwen-Audio的层级标签。研究发现,使用语言提示可以提高模型的泛化能力和指令遵循能力。预训练数据集包括多种类型的音频数据,如语音、音乐、环境声音等,总时长达数十万小时。

2. 监督微调(SFT)

在预训练的基础上,Qwen2-Audio采用基于指令的微调技术,提高模型与人类意图的对齐能力。研究强调了SFT数据的质量和复杂性对模型性能的关键影响。团队精心制作了一套高质量的SFT数据集,并实施了严格的质量控制程序。

微调过程考虑了两种人机交互模式:

  • 音频分析模式:用户可以让Qwen2-Audio分析各种音频,指令可以通过音频或文本的形式给出。

  • 语音聊天模式:用户可以与Qwen2-Audio进行语音对话,询问各种问题。

这两种模式在训练时是联合进行的,使用时无需区分切换模式。

3. 直接偏好优化(DPO)

为了进一步优化模型以遵循人类偏好,Qwen2-Audio采用了DPO方法。具体步骤如下:

  • 构建包含三元组数据,, 的数据集D,其中是包含输入音频的输入序列,和分别是人工标注的好响应和坏响应。

  • 优化模型θ,使其最小化以下损失函数:

其中是用θ初始化的参考模型,σ是sigmoid函数,β是一个超参数。

通过这三个阶段的训练,Qwen2-Audio逐步提升了音频理解能力、指令遵循能力和输出质量。

性能评估

为全面评估Qwen2-Audio的性能,研究团队在多个任务和数据集上进行了测试,包括:

  1. 自动语音识别(ASR)

  2. 语音到文本翻译(S2TT)

  3. 语音情感识别(SER)

  4. 声音分类(VSC)

  5. AIR-Bench聊天基准测试

主要结果如下:

1. ASR任务

  • 在Librispeech测试集上,Qwen2-Audio在test-clean和test-other子集上分别达到1.6%和3.6%的词错率(WER),优于之前的多任务学习模型。

  • 在Fleurs中文子集上,Qwen2-Audio的表现略优于Whisper-large-v3。

  • 在Aishell2测试集上,Qwen2-Audio在Mic、iOS和Android三个子集上的WER分别为3.0%、3.0%和2.9%,优于之前的最佳结果。

2. S2TT任务

在CoVoST2数据集上,Qwen2-Audio在7个翻译方向上都显著优于基线模型。例如:

  • 英德翻译:BLEU分数29.9

  • 德英翻译:BLEU分数35.2

  • 英中翻译:BLEU分数45.2

  • 中英翻译:BLEU分数24.4

3. SER任务

在Meld数据集上,Qwen2-Audio达到55.3%的准确率,与之前的Qwen-Audio(55.7%)相当。

4. VSC任务

在VocalSound数据集上,Qwen2-Audio达到93.92%的准确率,显著优于之前的最佳结果(Pengi:60.35%)。

5. AIR-Bench聊天基准测试

AIR-Bench是一个专门针对音频中心的指令遵循能力的测试集,包括语音、声音、音乐和混合音频四个维度。每个维度的得分由GPT-4自动评估,分数范围为0-10分。Qwen2-Audio在四个维度上的得分分别为:

  • 语音:7.37分

  • 声音:6.88分

  • 音乐:6.72分

  • 混合音频:6.43分

这些分数显著优于之前的最佳模型,如Gemini-1.5-pro等。

总体而言,Qwen2-Audio在各项任务中都展现出了优秀的性能,特别是在需要深度音频理解和复杂推理的任务上表现突出。

实战演示

模型下载:https://huggingface.co/Qwen/Qwen2-Audio-7B-Instruct

Demo体验:https://huggingface.co/spaces/Qwen/Qwen2-Audio-Instruct-Demo

由于使用了whisper模型,所以不做额外处理的话,最长只支持30s音频。

总结

Qwen2-Audio的创新点如下:

1. 自然语言提示替代层级标签Qwen2-Audio摒弃了之前模型使用的复杂层级标签,转而采用自然语言提示进行预训练。这一改变有以下优势:

  • 简化了预训练过程

  • 提高了模型的泛化能力

  • 增强了模型的指令遵循能力

  • 缩小了预训练和后训练阶段的差距

2. 双模式交互设计Qwen2-Audio创新性地实现了音频分析和语音聊天两种交互模式,并且能够在这两种模式之间无缝切换,无需用户手动选择或使用特定的系统提示。这种设计大大提高了模型的实用性和用户友好性。

3. 增强的音频理解能力Qwen2-Audio能够同时理解音频中的多种元素,包括背景声音、多人对话和语音指令。这种全面的音频理解能力使得模型可以在复杂的音频环境中准确捕捉用户意图并做出恰当响应。

4. 直接偏好优化通过引入DPO方法,Qwen2-Audio在保持强大功能的同时,输出结果更加符合人类偏好,提高了真实性和期望行为的遵循程度。

Qwen2-Audio的发布标志着大规模音频-语言模型研究的一个重要里程碑。它不仅在多个基准测试中实现了最优性能,更重要的是展示了一个统一的音频理解和交互系统的可能性。这为未来的人工智能系统向着更自然、更智能的人机交互方向发展提供了有力支撑。随着研究的深入和应用的拓展,我们有理由期待Qwen2-Audio及其后续模型能够在推动通用人工智能发展方面发挥重要作用。

这篇关于LLM系列 | 38:解读阿里开源语音多模态模型Qwen2-Audio的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1148109

相关文章

MySQL中的锁和MVCC机制解读

《MySQL中的锁和MVCC机制解读》MySQL事务、锁和MVCC机制是确保数据库操作原子性、一致性和隔离性的关键,事务必须遵循ACID原则,锁的类型包括表级锁、行级锁和意向锁,MVCC通过非锁定读和... 目录mysql的锁和MVCC机制事务的概念与ACID特性锁的类型及其工作机制锁的粒度与性能影响多版本

Redis过期键删除策略解读

《Redis过期键删除策略解读》Redis通过惰性删除策略和定期删除策略来管理过期键,惰性删除策略在键被访问时检查是否过期并删除,节省CPU开销但可能导致过期键滞留,定期删除策略定期扫描并删除过期键,... 目录1.Redis使用两种不同的策略来删除过期键,分别是惰性删除策略和定期删除策略1.1惰性删除策略

Redis与缓存解读

《Redis与缓存解读》文章介绍了Redis作为缓存层的优势和缺点,并分析了六种缓存更新策略,包括超时剔除、先删缓存再更新数据库、旁路缓存、先更新数据库再删缓存、先更新数据库再更新缓存、读写穿透和异步... 目录缓存缓存优缺点缓存更新策略超时剔除先删缓存再更新数据库旁路缓存(先更新数据库,再删缓存)先更新数

Python基于火山引擎豆包大模型搭建QQ机器人详细教程(2024年最新)

《Python基于火山引擎豆包大模型搭建QQ机器人详细教程(2024年最新)》:本文主要介绍Python基于火山引擎豆包大模型搭建QQ机器人详细的相关资料,包括开通模型、配置APIKEY鉴权和SD... 目录豆包大模型概述开通模型付费安装 SDK 环境配置 API KEY 鉴权Ark 模型接口Prompt

C#反射编程之GetConstructor()方法解读

《C#反射编程之GetConstructor()方法解读》C#中Type类的GetConstructor()方法用于获取指定类型的构造函数,该方法有多个重载版本,可以根据不同的参数获取不同特性的构造函... 目录C# GetConstructor()方法有4个重载以GetConstructor(Type[]

Spring Security 从入门到进阶系列教程

Spring Security 入门系列 《保护 Web 应用的安全》 《Spring-Security-入门(一):登录与退出》 《Spring-Security-入门(二):基于数据库验证》 《Spring-Security-入门(三):密码加密》 《Spring-Security-入门(四):自定义-Filter》 《Spring-Security-入门(五):在 Sprin

大模型研发全揭秘:客服工单数据标注的完整攻略

在人工智能(AI)领域,数据标注是模型训练过程中至关重要的一步。无论你是新手还是有经验的从业者,掌握数据标注的技术细节和常见问题的解决方案都能为你的AI项目增添不少价值。在电信运营商的客服系统中,工单数据是客户问题和解决方案的重要记录。通过对这些工单数据进行有效标注,不仅能够帮助提升客服自动化系统的智能化水平,还能优化客户服务流程,提高客户满意度。本文将详细介绍如何在电信运营商客服工单的背景下进行

Andrej Karpathy最新采访:认知核心模型10亿参数就够了,AI会打破教育不公的僵局

夕小瑶科技说 原创  作者 | 海野 AI圈子的红人,AI大神Andrej Karpathy,曾是OpenAI联合创始人之一,特斯拉AI总监。上一次的动态是官宣创办一家名为 Eureka Labs 的人工智能+教育公司 ,宣布将长期致力于AI原生教育。 近日,Andrej Karpathy接受了No Priors(投资博客)的采访,与硅谷知名投资人 Sara Guo 和 Elad G

阿里开源语音识别SenseVoiceWindows环境部署

SenseVoice介绍 SenseVoice 专注于高精度多语言语音识别、情感辨识和音频事件检测多语言识别: 采用超过 40 万小时数据训练,支持超过 50 种语言,识别效果上优于 Whisper 模型。富文本识别:具备优秀的情感识别,能够在测试数据上达到和超过目前最佳情感识别模型的效果。支持声音事件检测能力,支持音乐、掌声、笑声、哭声、咳嗽、喷嚏等多种常见人机交互事件进行检测。高效推

让树莓派智能语音助手实现定时提醒功能

最初的时候是想直接在rasa 的chatbot上实现,因为rasa本身是带有remindschedule模块的。不过经过一番折腾后,忽然发现,chatbot上实现的定时,语音助手不一定会有响应。因为,我目前语音助手的代码设置了长时间无应答会结束对话,这样一来,chatbot定时提醒的触发就不会被语音助手获悉。那怎么让语音助手也具有定时提醒功能呢? 我最后选择的方法是用threading.Time