音乐智能体登场!我和杰伦的距离或许只差一个 MusicAgent!

2023-10-27 21:20

本文主要是介绍音乐智能体登场!我和杰伦的距离或许只差一个 MusicAgent!,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

图片

夕小瑶科技说 原创
作者 | 付奶茶、ZenMoore

利用AI完成音乐处理是一个多样化的领域,涵盖了数十种任务,从生成(例如音色合成)到音乐理解(例如音乐分类)。对于初学者、业余爱好者来说,很难精通、掌握所有任务来满足对于音乐处理上的需求。受到大型语言模型(LLMs)在任务自动化方面上的启发,北京大学和微软亚洲研究院的研究员们提出了MusicAgent,系统集成了众多与音乐相关的工具和自主工作流程,使用户摆脱复杂AI音乐工具限制。

论文题目:
《MusicAgent: An AI Agent for Music Understanding and Generation with Large Language Models》

论文链接:
https://arxiv.org/pdf/2310.11954.pdf

项目地址:
https://github.com/microsoft/muzic

概览

将LLMs与音乐结合有以下的挑战:

  1. 工具多样性 与音乐相关的任务呈现出广泛的多样性,而且这些任务的相应工具可能并不总是存在于同一平台上,或者是在GitHub等开源社区中提供的参数化模型,或者是Web API等。

  2. 内部协作 首先,音乐领域任务的多样性导致显式、明确的输入输出模态标准的缺失。其次,即使模态相同,音乐格式也可能不同。

研究人员受HuggingGPT(Shen et al., 2023)等最新工作的启发,利用LLMs作为控制器,以及大量专家工具来完成用户的指令,

图片

▲图一

如图1所示。对于工具集,除了利用Hugging Face提供的模型,还从不同来源(包括GitHub和Web API等)整合了各种方法。如图2所示,MusicAgent设计了一个由LLM支持的自主工作流程,其中包括三个关键技能:任务规划器、工具选择器和响应生成器。

图片

▲图二

任务和工具收集

图片

▲表1

表1提供了MusicAgent中包含的与音乐相关的任务集和代表性工具的综合概述。除了生成和理解任务外,收集的任务主要分为三组:

  • 生成任务:包括从简单描述,文本到音乐、歌词到旋律、歌声合成、音色转换、伴奏等。

  • 理解任务:音乐分类、音乐分离、歌词识别和音乐转录等任务。组合这些任务可以将音乐转化为符号表示,并分析各种音乐特征。

  • 辅助任务:包括Web搜索和各种音频处理工具包。Web搜索包括使用Google API进行文本搜索,以及通过Spotify API进行音乐搜索。这些任务主要提供丰富的数据来源,并对音频/MIDI/文本数据执行基本操作,充当辅助功能。

图片

▲图3

此外,图3说明了系统中三种主要数据格式的使用:

i) 文本,包括歌词、流派或与音乐相关的其他属性。

ii) 表示为MIDI文件的乐谱的音乐。

iii) 包含音乐声音的音频。

除了组建任务集,MusicAgent系统可以分为两个主要部分:自主工作流程和插件。自主工作流程充当核心LLM交互组件的角色,其中包括三个关键技能:任务规划器、工具选择器和响应生成器。

自主工作流程

任务规划器

任务规划器在处理用户输入时发挥了至关重要的作用,它将构建整个工作流程的核心,包括确定每个子任务以及它们对应的输入输出格式,还包括子任务之间的依赖关系,形成一个依赖图。借助于in-context learning展现了卓越的任务分解性能,提示中提供了任务规划器的描述、支持的任务以及信息结构,同时还附带了一些音乐任务的分解示例。

工具选择器

工具选择器从各种开源工具中为特定子任务选择最合适的工具。每个工具都带有独特的属性,如文本描述、下载次数、星级评价等。将这些工具属性与用户输入合并作为 prompt,LLM生成工具的标识符和相应的选择理由,说明它为何被认为是最佳选择。用户拥有调整工具属性的自由度,并可以控制LLM如何解释这些属性。例如,用户可以强调下载次数以满足不同的需求。

响应生成器

负责收集来自子任务执行的所有中间结果,并将它们编译成一份连贯的响应。图5中的示例演示了LLM如何组织任务和结果以生成答案。

图片

▲图5

插件

当子任务的所有依赖任务都已完成,所有输入都已实例化时,LLM后端将任务传递给任务执行器,其中工具从输入中选择必要的参数。此外,工具还需要识别任务类型,因为一个工具可能处理多个任务。

系统使用

用户可以灵活选择以两种方式运行此系统,一种是按照GitHub上的说明,另一种是将其作为代码中的模块进行集成。如列表1所示,用户可以添加自定义任务类型,更新工具属性,为每个子任务设计提示,以增强对特定任务的支持。

图片

除了命令行、代码使用之外,MusicAgent还为用户提供了一个Gradio演示。在Gradio演示中,用户可以直接上传音频并可视化观察系统生成的所有中间结果,如图6所示。

图片

小结

在本文中,我们向大家介绍了MusicAgent,这是一个由大型语言模型(LLMs)支持的音乐领域智能体。它的目标是帮助开发者和非专业音乐创作者自动分析用户请求,并选择合适的工具来解决问题。最近,一些智能体的涌现(如AutoGPT和HuggingGPT)受到了大家的热烈关注,这些工作代表着自动化任务处理的重要进步,象征着在不久的将来人们能够更轻松地使用AI来解决各种任务,无需深入的专业知识。小编悄悄透露下~夕小瑶团队最近计划发布一篇关于智能体的大作!敬请各位期待!

这篇关于音乐智能体登场!我和杰伦的距离或许只差一个 MusicAgent!的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/288482

相关文章

嵌入式QT开发:构建高效智能的嵌入式系统

摘要: 本文深入探讨了嵌入式 QT 相关的各个方面。从 QT 框架的基础架构和核心概念出发,详细阐述了其在嵌入式环境中的优势与特点。文中分析了嵌入式 QT 的开发环境搭建过程,包括交叉编译工具链的配置等关键步骤。进一步探讨了嵌入式 QT 的界面设计与开发,涵盖了从基本控件的使用到复杂界面布局的构建。同时也深入研究了信号与槽机制在嵌入式系统中的应用,以及嵌入式 QT 与硬件设备的交互,包括输入输出设

让树莓派智能语音助手实现定时提醒功能

最初的时候是想直接在rasa 的chatbot上实现,因为rasa本身是带有remindschedule模块的。不过经过一番折腾后,忽然发现,chatbot上实现的定时,语音助手不一定会有响应。因为,我目前语音助手的代码设置了长时间无应答会结束对话,这样一来,chatbot定时提醒的触发就不会被语音助手获悉。那怎么让语音助手也具有定时提醒功能呢? 我最后选择的方法是用threading.Time

4B参数秒杀GPT-3.5:MiniCPM 3.0惊艳登场!

​ 面壁智能 在 AI 的世界里,总有那么几个时刻让人惊叹不已。面壁智能推出的 MiniCPM 3.0,这个仅有4B参数的"小钢炮",正在以惊人的实力挑战着 GPT-3.5 这个曾经的AI巨人。 MiniCPM 3.0 MiniCPM 3.0 MiniCPM 3.0 目前的主要功能有: 长上下文功能:原生支持 32k 上下文长度,性能完美。我们引入了

智能交通(二)——Spinger特刊推荐

特刊征稿 01  期刊名称: Autonomous Intelligent Systems  特刊名称: Understanding the Policy Shift  with the Digital Twins in Smart  Transportation and Mobility 截止时间: 开放提交:2024年1月20日 提交截止日

基于 YOLOv5 的积水检测系统:打造高效智能的智慧城市应用

在城市发展中,积水问题日益严重,特别是在大雨过后,积水往往会影响交通甚至威胁人们的安全。通过现代计算机视觉技术,我们能够智能化地检测和识别积水区域,减少潜在危险。本文将介绍如何使用 YOLOv5 和 PyQt5 搭建一个积水检测系统,结合深度学习和直观的图形界面,为用户提供高效的解决方案。 源码地址: PyQt5+YoloV5 实现积水检测系统 预览: 项目背景

【C++学习笔记 20】C++中的智能指针

智能指针的功能 在上一篇笔记提到了在栈和堆上创建变量的区别,使用new关键字创建变量时,需要搭配delete关键字销毁变量。而智能指针的作用就是调用new分配内存时,不必自己去调用delete,甚至不用调用new。 智能指针实际上就是对原始指针的包装。 unique_ptr 最简单的智能指针,是一种作用域指针,意思是当指针超出该作用域时,会自动调用delete。它名为unique的原因是这个

单片机毕业设计基于单片机的智能门禁系统的设计与实现

文章目录 前言资料获取设计介绍功能介绍程序代码部分参考 设计清单具体实现截图参考文献设计获取 前言 💗博主介绍:✌全网粉丝10W+,CSDN特邀作者、博客专家、CSDN新星计划导师,一名热衷于单片机技术探索与分享的博主、专注于 精通51/STM32/MSP430/AVR等单片机设计 主要对象是咱们电子相关专业的大学生,希望您们都共创辉煌!✌💗 👇🏻 精彩专栏 推荐订

【C++】作用域指针、智能指针、共享指针、弱指针

十、智能指针、共享指针 从上篇文章 【C++】如何用C++创建对象,理解作用域、堆栈、内存分配-CSDN博客 中我们知道,你的对象是创建在栈上还是在堆上,最大的区别就是对象的作用域不一样。所以在C++中,一旦程序进入另外一个作用域,那其他作用域的对象就自动销毁了。这种机制有好有坏。我们可以利用这个机制,比如可以自动化我们的代码,像智能指针、作用域锁(scoped_lock)等都是利用了这种机制。

什么是LED智能会议一体机?COB超微小间距LED会议一体机大势所趋

LED智能会议一体机,作为现代会议室革新的核心装备,正逐步颠覆传统会议模式的界限。它不仅仅是一台集成了高清显示、触控互动、音视频处理及远程协作等功能于一体的智能设备,更是推动会议效率与体验双重飞跃的关键力量。随着技术的不断进步,特别是COB(Chip On Board)超微小间距LED技术的引入,LED智能会议一体机正迎来前所未有的发展机遇,成为大势所趋。 COB技术通过将LED芯片直接封装在基

线性代数|机器学习-P35距离矩阵和普鲁克问题

文章目录 1. 距离矩阵2. 正交普鲁克问题3. 实例说明 1. 距离矩阵 假设有三个点 x 1 , x 2 , x 3 x_1,x_2,x_3 x1​,x2​,x3​,三个点距离如下: ∣ ∣ x 1 − x 2 ∣ ∣ 2 = 1 , ∣ ∣ x 2 − x 3 ∣ ∣ 2 = 1 , ∣ ∣ x 1 − x 3 ∣ ∣ 2 = 6 \begin{equation} ||x