Spleeter工具简单分析

2023-11-11 23:50
文章标签 分析 工具 简单 spleeter

本文主要是介绍Spleeter工具简单分析,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

源码地址:https://github.com/deezer/spleeter
pytorch版本:https://github.com/generalwave/spleeter.pytorch

前言

    spleeter是一款基于深度学习的多音轨分离软件。其使用python3.7基于tensorflow1.15版本编写。本文给出了spleeter的pytorch版本,并将官方预训练模型转化为pytorch模型。该版本经验证效果与官方版本一致。
   从功能上,目前预训练模型为2stems(分离出人声/伴奏),4stems(分离出人声/伴奏/鼓/贝斯/其他),5stems(人声/鼓/贝斯/钢琴/其他)。性能上,按照spleeter的官网解释,4stems在使用GPU加速的情况下可以达到100s长度的音乐1s分离完成。从效果上来看,spleeter的各项指标均优于目前的其他开源模型。笔者测试2stems的分离效果,人声和伴奏的分离结果都还不错,两者都比较干净。
   本文将介绍spleeter的设计原理,模型结构以及预测和训练的方法和在阅读代码以及实际使用时笔者的一些理解,如有错误,希望读者批评指正。同时,读者需要注意,本文所介绍的代码级别的内容均基于2stems的模型,以及默认参数设定情况的调用到的代码,其余情况未解释,另外由于spleeter一直在更新,本文行号不一定正确,仅供参考。

设计原理

    spleeter基于频域进行音轨分离。其网络结构中,每条音轨对应着一个unet网络结构。2stems对应着两个unet,4stems对应4个unet网络。unet的网络输入为音频幅度谱,输出为某条音轨的幅度谱。训练时损失函数为计算出音轨的幅度谱与标准幅度谱的L1距离。预测时稍有不同,通过多条音轨的幅度谱计算出每条音轨占据输入音频的能量比例,即每条音轨的mask,通过输入音频频谱乘以mask得到各个音轨的输出频谱,计算得到wav。
    由于spleeter的训练和预测的方法有些差异,因此,笔者将分别叙述两者。
   首先描述训练时的基本原理。如下图1,训练时的一组数据为(音乐,伴奏,人声),要求三者在时间轴上尽量完全一致.提取三者频谱并计算出幅度谱。将音乐幅度谱分别输入到人声unet和伴奏unet中,得到预测出的人声unet和伴奏unet,分别计算预测结果和标准结果的L1距离并取均值,作为损失函数,其中伴奏unet和人声unet内部参数会随着数据输入不断更新,此处不再赘述。
在这里插入图片描述
   预测过程没有标准的人声和伴奏,只有音乐。在于预测出伴奏和人声的幅度谱之后,spleeter将两者分别进行平方,得到人声能量v_eng,和伴奏能量,a_eng,然后使用v_mask = v_eng/(v_eng+a_eng)计算出每个时刻人声在音乐的每个频带上的占比,以及使用a_mask=a_eng/(v_eng+a_eng)计算出伴奏每个时刻在音乐的每个频带上的占比。最后利用输入的音乐频谱分别乘以v_mask和a_mask得到人声和伴奏频谱,使用逆STFT得到人声和伴奏的语音。具体流程如下图:
在这里插入图片描述
   此处需要介绍的一个地方为,本文的unet中,并不是存粹的一个unet结构,其中使用unet网络结构,并在最后一层使用sigmoid激活函数,计算出人声或者伴奏的mask系数,此时通过输入幅度谱乘以该系数得到了伴奏或人声的幅度谱。
   笔者认为预测的时候直接获取每条音轨的mask系数乘以输入音频的频谱得到对应音轨的频谱。实验过够,从听觉来说效果还是不错的。这样的好处在于训练目标和预测目标一致,其次多条音轨之间互不影响,方便根据业务需求进行裁剪优化.

流程以及代码讲解

训练部分

   训练部分在代码上的核心逻辑与上述流程图并不一致。上述流程图描述的是单个音乐的处理过程,由于在训练的时候需要大量的数据。因此,重点在于数据集的处理,其中模型的搭建以及训练过程和所用语言和框架强相关,本文不作为重点,只是简述一下。
   本部分将分为两块叙述。第一为使用部分,讲解如何使用spleeter来进行训练。分为训练时需要的命令以及对应参数解析。第二部分为训练时的核心代码讲解。

第一部分,使用篇

python3 -m spleeter train -p configs/2stems/base_config.json -d example

-m: 这是python的写法,表示指定模块,在此处表示使用spleeter模块
-p: 指定配置文件位置,详细内容见附3
-d: 指定数据集位置
此处需要解释的是,该命令表示执行spleeter的训练模型,采用2stems的配置文件,数据集的位置为本项目目录的example。在运行之前,需要在example中准备好数据集,结构无要求。因为在配置文件中会指定训练数据集和测试数据集的索引文件。具体配置文件信息以及索引文件信息参考附3的解释即可。

第二部分,代码篇

本篇将首先解析训练时的代码整体结构,而后重点分析数据集的构建部分。

代码整体结构:

训练代码使用的是tensorflow的estimator的高级api接口。一共分为三部分,分别为构建模型,构建数据集,训练以及预测.
预备知识:
   模型构建: tensorflow使用tf.estimator.Estimator来构建estimator,其中model_fn参数需要给定一个函数,包含了对于训练/验证/预测时的构建的模型。三者在model_fn中,通过mode参数来进行区分[mode参数是Estimator自动填充的]。其中训练模型需要包含,损失函数(loss)和优化器.验证模型[用来在测试集合上做验证]需要给出损失函数定义[一般会看测试集上的loss],预测模型则不需要包含损失函数和优化器。
   数据处理: 使用tf.estimator.TrainSpec进行训练数据处理,其中input_fn参数需要给出一个函数,并且返回值是(features, labels)的格式,同理,对于验证集合,使用的是tf.estimator.EvalSpec.
   模型训练:通过tf.estimator.train_and_evaluate将参数传入即可训练,并且可以在分布式机器上直接训练,无需改动代码
   注意1: partial函数[https://wiki.jikexueyuan.com/project/explore-python/Functional/partial.html],在构建数据集的时候用到了。
   注意2: 在构建数据集的时候spleeter大量使用了dataset.map函数,其效果与python中的map相近,都是对每一个元素做统一的操作,其中dataset.map函数还支持使用多线程处理。
   注意3: 构建数据集的时候用到了dataset.cache()函数,其将数据集缓存到硬盘中,下次使用的时候可以直接调用.
   注意4: tensorflow estimator的api训练时,遍历数据集,如果数据集被

这篇关于Spleeter工具简单分析的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/393672

相关文章

性能分析之MySQL索引实战案例

文章目录 一、前言二、准备三、MySQL索引优化四、MySQL 索引知识回顾五、总结 一、前言 在上一讲性能工具之 JProfiler 简单登录案例分析实战中已经发现SQL没有建立索引问题,本文将一起从代码层去分析为什么没有建立索引? 开源ERP项目地址:https://gitee.com/jishenghua/JSH_ERP 二、准备 打开IDEA找到登录请求资源路径位置

csu 1446 Problem J Modified LCS (扩展欧几里得算法的简单应用)

这是一道扩展欧几里得算法的简单应用题,这题是在湖南多校训练赛中队友ac的一道题,在比赛之后请教了队友,然后自己把它a掉 这也是自己独自做扩展欧几里得算法的题目 题意:把题意转变下就变成了:求d1*x - d2*y = f2 - f1的解,很明显用exgcd来解 下面介绍一下exgcd的一些知识点:求ax + by = c的解 一、首先求ax + by = gcd(a,b)的解 这个

hdu2289(简单二分)

虽说是简单二分,但是我还是wa死了  题意:已知圆台的体积,求高度 首先要知道圆台体积怎么求:设上下底的半径分别为r1,r2,高为h,V = PI*(r1*r1+r1*r2+r2*r2)*h/3 然后以h进行二分 代码如下: #include<iostream>#include<algorithm>#include<cstring>#include<stack>#includ

高效录音转文字:2024年四大工具精选!

在快节奏的工作生活中,能够快速将录音转换成文字是一项非常实用的能力。特别是在需要记录会议纪要、讲座内容或者是采访素材的时候,一款优秀的在线录音转文字工具能派上大用场。以下推荐几个好用的录音转文字工具! 365在线转文字 直达链接:https://www.pdf365.cn/ 365在线转文字是一款提供在线录音转文字服务的工具,它以其高效、便捷的特点受到用户的青睐。用户无需下载安装任何软件,只

usaco 1.3 Prime Cryptarithm(简单哈希表暴搜剪枝)

思路: 1. 用一个 hash[ ] 数组存放输入的数字,令 hash[ tmp ]=1 。 2. 一个自定义函数 check( ) ,检查各位是否为输入的数字。 3. 暴搜。第一行数从 100到999,第二行数从 10到99。 4. 剪枝。 代码: /*ID: who jayLANG: C++TASK: crypt1*/#include<stdio.h>bool h

uva 10387 Billiard(简单几何)

题意是一个球从矩形的中点出发,告诉你小球与矩形两条边的碰撞次数与小球回到原点的时间,求小球出发时的角度和小球的速度。 简单的几何问题,小球每与竖边碰撞一次,向右扩展一个相同的矩形;每与横边碰撞一次,向上扩展一个相同的矩形。 可以发现,扩展矩形的路径和在当前矩形中的每一段路径相同,当小球回到出发点时,一条直线的路径刚好经过最后一个扩展矩形的中心点。 最后扩展的路径和横边竖边恰好组成一个直

poj 1113 凸包+简单几何计算

题意: 给N个平面上的点,现在要在离点外L米处建城墙,使得城墙把所有点都包含进去且城墙的长度最短。 解析: 韬哥出的某次训练赛上A出的第一道计算几何,算是大水题吧。 用convexhull算法把凸包求出来,然后加加减减就A了。 计算见下图: 好久没玩画图了啊好开心。 代码: #include <iostream>#include <cstdio>#inclu

uva 10130 简单背包

题意: 背包和 代码: #include <iostream>#include <cstdio>#include <cstdlib>#include <algorithm>#include <cstring>#include <cmath>#include <stack>#include <vector>#include <queue>#include <map>

SWAP作物生长模型安装教程、数据制备、敏感性分析、气候变化影响、R模型敏感性分析与贝叶斯优化、Fortran源代码分析、气候数据降尺度与变化影响分析

查看原文>>>全流程SWAP农业模型数据制备、敏感性分析及气候变化影响实践技术应用 SWAP模型是由荷兰瓦赫宁根大学开发的先进农作物模型,它综合考虑了土壤-水分-大气以及植被间的相互作用;是一种描述作物生长过程的一种机理性作物生长模型。它不但运用Richard方程,使其能够精确的模拟土壤中水分的运动,而且耦合了WOFOST作物模型使作物的生长描述更为科学。 本文让更多的科研人员和农业工作者

MOLE 2.5 分析分子通道和孔隙

软件介绍 生物大分子通道和孔隙在生物学中发挥着重要作用,例如在分子识别和酶底物特异性方面。 我们介绍了一种名为 MOLE 2.5 的高级软件工具,该工具旨在分析分子通道和孔隙。 与其他可用软件工具的基准测试表明,MOLE 2.5 相比更快、更强大、功能更丰富。作为一项新功能,MOLE 2.5 可以估算已识别通道的物理化学性质。 软件下载 https://pan.quark.cn/s/57