音乐智能体登场！我和杰伦的距离或许只差一个 MusicAgent！

本文主要是介绍音乐智能体登场！我和杰伦的距离或许只差一个 MusicAgent！，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

夕小瑶科技说原创
作者 | 付奶茶、ZenMoore

利用AI完成音乐处理是一个多样化的领域，涵盖了数十种任务，从生成（例如音色合成）到音乐理解（例如音乐分类）。对于初学者、业余爱好者来说，很难精通、掌握所有任务来满足对于音乐处理上的需求。受到大型语言模型（LLMs）在任务自动化方面上的启发，北京大学和微软亚洲研究院的研究员们提出了MusicAgent，系统集成了众多与音乐相关的工具和自主工作流程，使用户摆脱复杂AI音乐工具限制。

论文题目：
《MusicAgent: An AI Agent for Music Understanding and Generation with Large Language Models》

论文链接：
https://arxiv.org/pdf/2310.11954.pdf

项目地址：
https://github.com/microsoft/muzic

概览

将LLMs与音乐结合有以下的挑战：

工具多样性与音乐相关的任务呈现出广泛的多样性，而且这些任务的相应工具可能并不总是存在于同一平台上，或者是在GitHub等开源社区中提供的参数化模型，或者是Web API等。
内部协作首先，音乐领域任务的多样性导致显式、明确的输入输出模态标准的缺失。其次，即使模态相同，音乐格式也可能不同。

研究人员受HuggingGPT（Shen et al., 2023）等最新工作的启发，利用LLMs作为控制器，以及大量专家工具来完成用户的指令，

▲图一

如图1所示。对于工具集，除了利用Hugging Face提供的模型，还从不同来源（包括GitHub和Web API等）整合了各种方法。如图2所示，MusicAgent设计了一个由LLM支持的自主工作流程，其中包括三个关键技能：任务规划器、工具选择器和响应生成器。

▲图二

任务和工具收集

▲表1

表1提供了MusicAgent中包含的与音乐相关的任务集和代表性工具的综合概述。除了生成和理解任务外，收集的任务主要分为三组：

生成任务：包括从简单描述，文本到音乐、歌词到旋律、歌声合成、音色转换、伴奏等。
理解任务：音乐分类、音乐分离、歌词识别和音乐转录等任务。组合这些任务可以将音乐转化为符号表示，并分析各种音乐特征。
辅助任务：包括Web搜索和各种音频处理工具包。Web搜索包括使用Google API进行文本搜索，以及通过Spotify API进行音乐搜索。这些任务主要提供丰富的数据来源，并对音频/MIDI/文本数据执行基本操作，充当辅助功能。

▲图3

此外，图3说明了系统中三种主要数据格式的使用：

i) 文本，包括歌词、流派或与音乐相关的其他属性。

ii) 表示为MIDI文件的乐谱的音乐。

iii) 包含音乐声音的音频。

除了组建任务集，MusicAgent系统可以分为两个主要部分：自主工作流程和插件。自主工作流程充当核心LLM交互组件的角色，其中包括三个关键技能：任务规划器、工具选择器和响应生成器。

自主工作流程

任务规划器

任务规划器在处理用户输入时发挥了至关重要的作用，它将构建整个工作流程的核心，包括确定每个子任务以及它们对应的输入输出格式，还包括子任务之间的依赖关系，形成一个依赖图。借助于in-context learning展现了卓越的任务分解性能，提示中提供了任务规划器的描述、支持的任务以及信息结构，同时还附带了一些音乐任务的分解示例。

工具选择器

工具选择器从各种开源工具中为特定子任务选择最合适的工具。每个工具都带有独特的属性，如文本描述、下载次数、星级评价等。将这些工具属性与用户输入合并作为 prompt，LLM生成工具的标识符和相应的选择理由，说明它为何被认为是最佳选择。用户拥有调整工具属性的自由度，并可以控制LLM如何解释这些属性。例如，用户可以强调下载次数以满足不同的需求。

响应生成器

负责收集来自子任务执行的所有中间结果，并将它们编译成一份连贯的响应。图5中的示例演示了LLM如何组织任务和结果以生成答案。

▲图5

插件

当子任务的所有依赖任务都已完成，所有输入都已实例化时，LLM后端将任务传递给任务执行器，其中工具从输入中选择必要的参数。此外，工具还需要识别任务类型，因为一个工具可能处理多个任务。

系统使用

用户可以灵活选择以两种方式运行此系统，一种是按照GitHub上的说明，另一种是将其作为代码中的模块进行集成。如列表1所示，用户可以添加自定义任务类型，更新工具属性，为每个子任务设计提示，以增强对特定任务的支持。

除了命令行、代码使用之外，MusicAgent还为用户提供了一个Gradio演示。在Gradio演示中，用户可以直接上传音频并可视化观察系统生成的所有中间结果，如图6所示。

小结

在本文中，我们向大家介绍了MusicAgent，这是一个由大型语言模型（LLMs）支持的音乐领域智能体。它的目标是帮助开发者和非专业音乐创作者自动分析用户请求，并选择合适的工具来解决问题。最近，一些智能体的涌现（如AutoGPT和HuggingGPT）受到了大家的热烈关注，这些工作代表着自动化任务处理的重要进步，象征着在不久的将来人们能够更轻松地使用AI来解决各种任务，无需深入的专业知识。小编悄悄透露下～夕小瑶团队最近计划发布一篇关于智能体的大作！敬请各位期待！