代码解读 | Hybrid Transformers for Music Source Separation[04]

2024-06-12 04:28

本文主要是介绍代码解读 | Hybrid Transformers for Music Source Separation[04],希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

一、背景

        0、Hybrid Transformer 论文解读

        1、代码复现|Demucs Music Source Separation_demucs架构原理-CSDN博客

        2、Hybrid Transformer 各个模块对应的代码具体在工程的哪个地方

        3、Hybrid Transformer 各个模块的底层到底是个啥(初步感受)?

        4、Hybrid Transformer 各个模块处理后,数据的维度大小是咋变换的?


        从模块上划分,Hybrid Transformer Demucs 共包含 (STFT模块、时域编码模块、频域编码模块、Cross-Domain Transformer Encoder模块、时域解码模块、频域解码模块、ISTFT模块)7个模块。

        本篇目标:拆解STFT模块的底层。

二、拆解STFT模块底层

2.1 torch.stft

import torch as thdef spectro(x, n_fft=512, hop_length=None, pad=0):*other, length = x.shapex = x.reshape(-1, length)is_mps = x.device.type == 'mps'if is_mps:x = x.cpu()z = th.stft(x,n_fft * (1 + pad),hop_length or n_fft // 4,window=th.hann_window(n_fft).to(x),win_length=n_fft,normalized=True,center=True,return_complex=True,pad_mode='reflect')_, freqs, frame = z.shapereturn z.view(*other, freqs, frame)

        核心代码,长上面这样。

        简单说一下为啥使用短时傅里叶变换(STFT),而不直接使用傅里叶变换(FT)。原因:傅立叶变换只能告诉我们信号当中有哪些频率成分。当我们还想知道各个成分出现的时间的时候,就得用到STFT了(这也就是时频分析。所谓时频分析,就是既要考虑到频率特征,又要考虑到时间序列变化)。

        上述公式就是torch.stft的底层公式,一句话总结:首先窗函数×时域信号,然后进行傅里叶变换其中,\omega表示频率,m表示滑动窗口的下标,input是一个时间序列,hop_length表示窗移大小,win_length表示窗长,window表示窗函数。


        具体的,torch.stft函数中各个参数的意义如下所示。

参数名称说明
input (Tensor):the input tensor输入
n_fft (int): size of Fourier transform傅里叶变换大小(决定频率分辨率)
hop_length (int, optional): the distance between neighboring sliding window frames. Default: ``None`` (treated as equal to ``floor(n_fft / 4)``)窗移,默认大小floor(n_fft / 4)
win_length (int, optional): the size of window frame and STFT filter. Default: ``None`` (treated as equal to :attr:`n_fft`)窗长,默认大小n_fft
window (Tensor, optional): the optional window function. Default: ``None`` (treated as window of all :math:`1` s)窗函数
center (bool, optional): whether to pad :attr:`input` on both sides so that the :math:`t`-th frame is centered at time :math:`t \times \text{hop\_length}`. Default: ``True``

是否对input两侧进行填充,

以至于在t帧的是居中的

pad_mode (string, optional): controls the padding method used when :attr:`center` is ``True``. Default: ``"reflect"``填充模式
normalized (bool, optional): controls whether to return the normalized STFT results Default: ``False``是否归一化
onesided (bool, optional): controls whether to return half of results to avoid redundancy for real inputs. Default: ``True`` for real :attr:`input` and :attr:`window`, ``False`` otherwise.控制是否返回一半结果
return_complex (bool, optional): whether to return a complex tensor, or a real tensor with an extra last dimension for the real and imaginary components.返回值是否设置为复数
  • n_fft 关注的是频率分辨率,即能够分辨的最小频率间隔。n_fft 越大,频率分辨率越高,但计算量也越大。
  • win_length 关注的是时间分辨率,即能够分辨的最小时间间隔。win_length 越大,时间分辨率越低,但可以更好地捕捉到低频信号的特征。

2.2 STFT整个模块干了啥

        上图是htdemucs调用STFT模块的入口。

       1、为了保持输出大小=输入大小/hop_length,先对输入信息进行填充(使用pad1d函数),然后进行STFT变换(核心代码见2.1)。

        2、拿到STFT结果后,进入_magnitude函数。当cac为True的时候,_magnitude函数把复数维度移动到通道维度。当cac为False的时候,_magnitude函数计算出幅度值。

        done,STFT模块讲解完成。


        感谢阅读,最近开始写公众号(分享好用的AI工具),欢迎大家一起见证我的成长(桂圆学AI)

这篇关于代码解读 | Hybrid Transformers for Music Source Separation[04]的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1053190

相关文章

JAVA项目swing转javafx语法规则以及示例代码

《JAVA项目swing转javafx语法规则以及示例代码》:本文主要介绍JAVA项目swing转javafx语法规则以及示例代码的相关资料,文中详细讲解了主类继承、窗口创建、布局管理、控件替换、... 目录最常用的“一行换一行”速查表(直接全局替换)实际转换示例(JFramejs → JavaFX)迁移建

Go异常处理、泛型和文件操作实例代码

《Go异常处理、泛型和文件操作实例代码》Go语言的异常处理机制与传统的面向对象语言(如Java、C#)所使用的try-catch结构有所不同,它采用了自己独特的设计理念和方法,:本文主要介绍Go异... 目录一:异常处理常见的异常处理向上抛中断程序恢复程序二:泛型泛型函数泛型结构体泛型切片泛型 map三:文

MyBatis中的两种参数传递类型详解(示例代码)

《MyBatis中的两种参数传递类型详解(示例代码)》文章介绍了MyBatis中传递多个参数的两种方式,使用Map和使用@Param注解或封装POJO,Map方式适用于动态、不固定的参数,但可读性和安... 目录✅ android方式一:使用Map<String, Object>✅ 方式二:使用@Param

SpringBoot实现图形验证码的示例代码

《SpringBoot实现图形验证码的示例代码》验证码的实现方式有很多,可以由前端实现,也可以由后端进行实现,也有很多的插件和工具包可以使用,在这里,我们使用Hutool提供的小工具实现,本文介绍Sp... 目录项目创建前端代码实现约定前后端交互接口需求分析接口定义Hutool工具实现服务器端代码引入依赖获

利用Python在万圣节实现比心弹窗告白代码

《利用Python在万圣节实现比心弹窗告白代码》:本文主要介绍关于利用Python在万圣节实现比心弹窗告白代码的相关资料,每个弹窗会显示一条温馨提示,程序通过参数方程绘制爱心形状,并使用多线程技术... 目录前言效果预览要点1. 爱心曲线方程2. 显示温馨弹窗函数(详细拆解)2.1 函数定义和延迟机制2.2

Springmvc常用的注解代码示例

《Springmvc常用的注解代码示例》本文介绍了SpringMVC中常用的控制器和请求映射注解,包括@Controller、@RequestMapping等,以及请求参数绑定注解,如@Request... 目录一、控制器与请求映射注解二、请求参数绑定注解三、其他常用注解(扩展)四、注解使用注意事项一、控制

Java序列化之serialVersionUID的用法解读

《Java序列化之serialVersionUID的用法解读》Java序列化之serialVersionUID:本文介绍了Java对象的序列化和反序列化过程,强调了serialVersionUID的作... 目录JavChina编程a序列化之serialVersionUID什么是序列化为什么要序列化serialV

C++简单日志系统实现代码示例

《C++简单日志系统实现代码示例》日志系统是成熟软件中的一个重要组成部分,其记录软件的使用和运行行为,方便事后进行故障分析、数据统计等,:本文主要介绍C++简单日志系统实现的相关资料,文中通过代码... 目录前言Util.hppLevel.hppLogMsg.hppFormat.hppSink.hppBuf

VS Code中的Python代码格式化插件示例讲解

《VSCode中的Python代码格式化插件示例讲解》在Java开发过程中,代码的规范性和可读性至关重要,一个团队中如果每个开发者的代码风格各异,会给代码的维护、审查和协作带来极大的困难,这篇文章主... 目录前言如何安装与配置使用建议与技巧如何选择总结前言在 VS Code 中,有几款非常出色的 pyt

利用Python将PDF文件转换为PNG图片的代码示例

《利用Python将PDF文件转换为PNG图片的代码示例》在日常工作和开发中,我们经常需要处理各种文档格式,PDF作为一种通用且跨平台的文档格式,被广泛应用于合同、报告、电子书等场景,然而,有时我们需... 目录引言为什么选择 python 进行 PDF 转 PNG?Spire.PDF for Python