代码解读 | Hybrid Transformers for Music Source Separation[04]

2024-06-12 04:28

本文主要是介绍代码解读 | Hybrid Transformers for Music Source Separation[04],希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

一、背景

        0、Hybrid Transformer 论文解读

        1、代码复现|Demucs Music Source Separation_demucs架构原理-CSDN博客

        2、Hybrid Transformer 各个模块对应的代码具体在工程的哪个地方

        3、Hybrid Transformer 各个模块的底层到底是个啥(初步感受)?

        4、Hybrid Transformer 各个模块处理后,数据的维度大小是咋变换的?


        从模块上划分,Hybrid Transformer Demucs 共包含 (STFT模块、时域编码模块、频域编码模块、Cross-Domain Transformer Encoder模块、时域解码模块、频域解码模块、ISTFT模块)7个模块。

        本篇目标:拆解STFT模块的底层。

二、拆解STFT模块底层

2.1 torch.stft

import torch as thdef spectro(x, n_fft=512, hop_length=None, pad=0):*other, length = x.shapex = x.reshape(-1, length)is_mps = x.device.type == 'mps'if is_mps:x = x.cpu()z = th.stft(x,n_fft * (1 + pad),hop_length or n_fft // 4,window=th.hann_window(n_fft).to(x),win_length=n_fft,normalized=True,center=True,return_complex=True,pad_mode='reflect')_, freqs, frame = z.shapereturn z.view(*other, freqs, frame)

        核心代码,长上面这样。

        简单说一下为啥使用短时傅里叶变换(STFT),而不直接使用傅里叶变换(FT)。原因:傅立叶变换只能告诉我们信号当中有哪些频率成分。当我们还想知道各个成分出现的时间的时候,就得用到STFT了(这也就是时频分析。所谓时频分析,就是既要考虑到频率特征,又要考虑到时间序列变化)。

        上述公式就是torch.stft的底层公式,一句话总结:首先窗函数×时域信号,然后进行傅里叶变换其中,\omega表示频率,m表示滑动窗口的下标,input是一个时间序列,hop_length表示窗移大小,win_length表示窗长,window表示窗函数。


        具体的,torch.stft函数中各个参数的意义如下所示。

参数名称说明
input (Tensor):the input tensor输入
n_fft (int): size of Fourier transform傅里叶变换大小(决定频率分辨率)
hop_length (int, optional): the distance between neighboring sliding window frames. Default: ``None`` (treated as equal to ``floor(n_fft / 4)``)窗移,默认大小floor(n_fft / 4)
win_length (int, optional): the size of window frame and STFT filter. Default: ``None`` (treated as equal to :attr:`n_fft`)窗长,默认大小n_fft
window (Tensor, optional): the optional window function. Default: ``None`` (treated as window of all :math:`1` s)窗函数
center (bool, optional): whether to pad :attr:`input` on both sides so that the :math:`t`-th frame is centered at time :math:`t \times \text{hop\_length}`. Default: ``True``

是否对input两侧进行填充,

以至于在t帧的是居中的

pad_mode (string, optional): controls the padding method used when :attr:`center` is ``True``. Default: ``"reflect"``填充模式
normalized (bool, optional): controls whether to return the normalized STFT results Default: ``False``是否归一化
onesided (bool, optional): controls whether to return half of results to avoid redundancy for real inputs. Default: ``True`` for real :attr:`input` and :attr:`window`, ``False`` otherwise.控制是否返回一半结果
return_complex (bool, optional): whether to return a complex tensor, or a real tensor with an extra last dimension for the real and imaginary components.返回值是否设置为复数
  • n_fft 关注的是频率分辨率,即能够分辨的最小频率间隔。n_fft 越大,频率分辨率越高,但计算量也越大。
  • win_length 关注的是时间分辨率,即能够分辨的最小时间间隔。win_length 越大,时间分辨率越低,但可以更好地捕捉到低频信号的特征。

2.2 STFT整个模块干了啥

        上图是htdemucs调用STFT模块的入口。

       1、为了保持输出大小=输入大小/hop_length,先对输入信息进行填充(使用pad1d函数),然后进行STFT变换(核心代码见2.1)。

        2、拿到STFT结果后,进入_magnitude函数。当cac为True的时候,_magnitude函数把复数维度移动到通道维度。当cac为False的时候,_magnitude函数计算出幅度值。

        done,STFT模块讲解完成。


        感谢阅读,最近开始写公众号(分享好用的AI工具),欢迎大家一起见证我的成长(桂圆学AI)

这篇关于代码解读 | Hybrid Transformers for Music Source Separation[04]的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1053190

相关文章

解读GC日志中的各项指标用法

《解读GC日志中的各项指标用法》:本文主要介绍GC日志中的各项指标用法,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录一、基础 GC 日志格式(以 G1 为例)1. Minor GC 日志2. Full GC 日志二、关键指标解析1. GC 类型与触发原因2. 堆

Java设计模式---迭代器模式(Iterator)解读

《Java设计模式---迭代器模式(Iterator)解读》:本文主要介绍Java设计模式---迭代器模式(Iterator),具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,... 目录1、迭代器(Iterator)1.1、结构1.2、常用方法1.3、本质1、解耦集合与遍历逻辑2、统一

Java中调用数据库存储过程的示例代码

《Java中调用数据库存储过程的示例代码》本文介绍Java通过JDBC调用数据库存储过程的方法,涵盖参数类型、执行步骤及数据库差异,需注意异常处理与资源管理,以优化性能并实现复杂业务逻辑,感兴趣的朋友... 目录一、存储过程概述二、Java调用存储过程的基本javascript步骤三、Java调用存储过程示

Visual Studio 2022 编译C++20代码的图文步骤

《VisualStudio2022编译C++20代码的图文步骤》在VisualStudio中启用C++20import功能,需设置语言标准为ISOC++20,开启扫描源查找模块依赖及实验性标... 默认创建Visual Studio桌面控制台项目代码包含C++20的import方法。右键项目的属性:

MySQL之InnoDB存储页的独立表空间解读

《MySQL之InnoDB存储页的独立表空间解读》:本文主要介绍MySQL之InnoDB存储页的独立表空间,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录1、背景2、独立表空间【1】表空间大小【2】区【3】组【4】段【5】区的类型【6】XDES Entry区结构【

MySQL数据库的内嵌函数和联合查询实例代码

《MySQL数据库的内嵌函数和联合查询实例代码》联合查询是一种将多个查询结果组合在一起的方法,通常使用UNION、UNIONALL、INTERSECT和EXCEPT关键字,下面:本文主要介绍MyS... 目录一.数据库的内嵌函数1.1聚合函数COUNT([DISTINCT] expr)SUM([DISTIN

Java实现自定义table宽高的示例代码

《Java实现自定义table宽高的示例代码》在桌面应用、管理系统乃至报表工具中,表格(JTable)作为最常用的数据展示组件,不仅承载对数据的增删改查,还需要配合布局与视觉需求,而JavaSwing... 目录一、项目背景详细介绍二、项目需求详细介绍三、相关技术详细介绍四、实现思路详细介绍五、完整实现代码

Go语言代码格式化的技巧分享

《Go语言代码格式化的技巧分享》在Go语言的开发过程中,代码格式化是一个看似细微却至关重要的环节,良好的代码格式化不仅能提升代码的可读性,还能促进团队协作,减少因代码风格差异引发的问题,Go在代码格式... 目录一、Go 语言代码格式化的重要性二、Go 语言代码格式化工具:gofmt 与 go fmt(一)

MySQL主从复制与读写分离的用法解读

《MySQL主从复制与读写分离的用法解读》:本文主要介绍MySQL主从复制与读写分离的用法,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录一、主从复制mysql主从复制原理实验案例二、读写分离实验案例安装并配置mycat 软件设置mycat读写分离验证mycat读

Python的端到端测试框架SeleniumBase使用解读

《Python的端到端测试框架SeleniumBase使用解读》:本文主要介绍Python的端到端测试框架SeleniumBase使用,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全... 目录SeleniumBase详细介绍及用法指南什么是 SeleniumBase?SeleniumBase