DPT-FSNET: DUAL-PATH TRANSFORMER BASED FULL-BAND AND SUB-BAND FUSION NETWORK FOR SPEECH ENHANCEMENT

本文主要是介绍DPT-FSNET: DUAL-PATH TRANSFORMER BASED FULL-BAND AND SUB-BAND FUSION NETWORK FOR SPEECH ENHANCEMENT,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

文章目录

  • ICASSP 2022
  • 1. Abstract
  • 2. Intorduction
  • 2. Improved Transformer
    • 2.1 Multi-head self-attention
    • 2.2 Modified position-wise feed forward network
  • 3. Proposed DPT-FSNET
    • 3.1 Encoder
    • 3.2 Dual-path transformer processing module
    • 3.3 Decoder
    • 3.4 Loss function
  • 4. Experiments
    • 4.2 Experimental setup
  • 5. Experimental Results
    • 5.1 Results on the VCTK+DEMAND dataset
    • 5.2 Ablation analysis
    • 5.3 Results on the DNS dataset

在这里插入图片描述

ICASSP 2022

1. Abstract

子带模型对谱图的局部模式建模方面取得了较好的结果。已有部分工作将子带信息和全带信息进行融合,以提升模型的性能。本文提出了一种基于transformer的双分支全带、子带融合网络(DPT-FSNet),用于频域的语音增强。模型的intra和inter部分分别对子带信息和全带信息进行建模。本文提出的方法所使用的特征比时域的双分支网络所使用的的特征更易解释。本文在Voice Bank+ DEMAND和Interspeech2020 Deep Noise Suppression数据集上进行了实验对比,实现了SOTA性能。

2. Intorduction

子带处理将子带频谱特征作为网络的输入和输出,已有方法[9,10,11],子带模型独立处理每个频率,使模型能够关注频谱中的局部模式,从而提升语音增强的性能。

[9] Haohe Liu, Lei Xie, Jian Wu, and Geng Yang, “Channel-Wise Subband Input for Better Voice and Accompaniment Separation on High Resolution Music,” in Proc. Interspeech 2020, 2020, pp. 1241–1245.
[10] Geng Yang, Shan Yang, Kai Liu, Peng Fang, Wei Chen, and Lei Xie, “Multi-band melgan: Faster waveform generation for high-quality text-to-speech,” in 2021 IEEE Spoken Language TechnologyWorkshop (SLT). IEEE, 2021, pp. 492–498.
[11] Shubo Lv, Yanxin Hu, Shimin Zhang, and Lei Xie, “DCCRN+: Channel-Wise Subband DCCRN with SNR Estimation for Speech Enhancement,” in Proc. Interspeech 2021, 2021, pp. 2816–2820.

当前,已有部分工作使用双路径网络取得了较好的性能提升,这类方法能够对输入序列的局部和全局特征进行建模。这些方法都是在时域信号上直接处理,没有进一步探究双路径网络的输入对增强性能的影响。

本文提出了DPT-FSNet网络,包含一个encoder,decoder和一个双路径transformer。模型使用convolutional encoder-docoder(CED)结构为双路径transformer提取有效的latent 特征空间。编码器和解码由1x1卷积层和dense block组成,dense block中包含膨胀卷积,用于学习上下文信息。双路径transformer由两部分组成,分别为intra-transformer和inter-transformer。前者对子带信息进行建模,后者对全带信息进行建模

2. Improved Transformer

本文选用transformer模型的encoder部分作为本文transformer部分的基础模块,原始的transformer encoder通常包含三个模块:位置编码,多头自注意力和position-wise前馈网络。本文的transformer模型包含两个部分:多头自注意力和改进的position-wise前馈网络。

2.1 Multi-head self-attention

本文使用文献【17】提出的多头自注意力机制。

Attention is all you need

2.2 Modified position-wise feed forward network

transformer 的一个关键问题是如何利用语音序列中的顺序信息。
已有工作发现,原始transformer中的位置编码不适用于dual-path网络。受到RNN网络在学习顺序信息方法的启发,本文使用一个GRU层代替前馈网络中的第一个全连接层来学习位置信息。
在这里插入图片描述
FFN(.)表示position-wise前馈网络的输出, W 1 ∈ R d f f × d , b 1 ∈ R d , d f f = 4 × d W_1 \in \mathbb{R}^{d_{ff}\times d}, b_1 \in \mathbb{R}^d, d_{ff}=4\times d W1Rdff×d,b1Rd,dff=4×d

3. Proposed DPT-FSNET

在这里插入图片描述
DPTPM: dual-path transformer processing module.

3.1 Encoder

编码器层包含一个1x1卷积层和一个dilated-dense块,后者由四个膨胀卷积层组成。Encoder的输入为复数谱 X ∈ R 2 × T × F X \in \mathbb{R}^{2 \times T \times F} XR2×T×F,输出高维特征表示 U ∈ C × T × F U \in \mathbb{C \times T \times F} UC×T×F

3.2 Dual-path transformer processing module

DPTPM包含两个1x1卷积层,B个dual-path transformers(DPTs),一个门控1x1卷积层。特征输入DPTs之前,本文使用一个1x1卷积层将通道数减半,即DPTs的输入可以表示为 D ∈ R C ′ × T × F D \in R^{C^{'} \times T \times F} DRC×T×F。每个DPT包含一个intra-transformer和一个inter-transformer,前者对子带信息进行建模,后者对全带信息进行建模。不同于【22】,DPT交替地处理时间和频率路径,而不是并行处理。

[22] Chuanxin Tang, Chong Luo, Zhiyuan Zhao, Wenxuan Xie, and Wenjun Zeng, “Joint time-frequency and time domain learning for speech enhancement,” in Proceedings ofthe Twenty-Ninth International Conference on International Joint Conferences on Artificial Intelligence, 2021, pp. 3816–3822.

在这里插入图片描述
f b i n t r a f^{intra}_b fbintra表示transformer定义的映射函数, b = 1 , 2 , . . . , B b=1,2,...,B b=1,2,...,B D o i n t e r = D , D b − 1 i n t e r [ : , : , i ] ∈ R C ′ × T D_o^{inter}=D, D_{b-1}^{inter}[:,:,i] \in R^{C^{'} \times T} Dointer=D,Db1inter[:,:,i]RC×T表示由第i个子带的所有T个时间步长定义的序列。

inter-transformer块用于聚合每个子带的信息,从而捕获全局信息,作用于D的最后一个维度。
在这里插入图片描述
D b − 1 i n t r a [ : , j , : ] ∈ R C ′ × F D_{b-1}^{intra}[:,j,:] \in R^{C^{'} \times F} Db1intra[:,j,:]RC×F 表示由第j个时间步对应的F个子带定义的序列。经过处理, D b i n t r a D^{intra}_b Dbintra中的每个时间步包含了对应子带的所有信息,从而实现对语音信号的全局信息进行建模。

特征信息经过transformer后,通过一个1x1卷积层恢复通道数,然后通过一个门控卷积层,使DPTPM的输出值平滑。

3.3 Decoder

Decoder包含一个1x1卷积层和一个dilated-dense块,与encoder部分相同。特征信息通过decoder之后,得到复数比值掩码的估计。

3.4 Loss function

本文的损失函数同时利用时域损失和T-F域损失:
在这里插入图片描述
其中 L a u d i o L_{audio} Laudio表示MSE损失(Mean square error):

在这里插入图片描述
L s p e c t r a l L_{spectral} Lspectral表示L1损失:
在这里插入图片描述

4. Experiments

本文使用了两个数据集
小规模数据集:VCTK+DEMAND
大规模数据集:DNS dataset

4.2 Experimental setup

STFT的窗长和窗移分别为25ms和6.25ms,FFT长度为512。通道数C设置为64,encoder 和decoder中所有卷积操作后都会使用层归一化和PReLU。DPTPM中的卷积层后使用PReLU。dense block包含4个膨胀卷积层,膨胀系数d=2。因此4个膨胀卷积的输入特征的通道数分别为C,2C,3C,4C,输出通道数为C。

模型中包含4个双路transformer,参数设置B=4, h=4(多头数量)。超参数 α 1 和 α 2 \alpha1和 \alpha2 α1α2分别设置为0.4和0.6。共训练100个epochs,Adam优化器,使用最大L2范数为5的梯度裁剪来避免梯度爆炸。采用如下动态策略来调整学习率:
在这里插入图片描述
其中n表示步数, d m o d e l d_{model} dmodel表示特征大小。本文将k1,k2,d_model和warmup分别设置为0.2, 4 e − 4 4e^{-4} 4e4,32,4000。

5. Experimental Results

5.1 Results on the VCTK+DEMAND dataset

在这里插入图片描述

5.2 Ablation analysis

在这里插入图片描述
实验1使用时域输入数据。

5.3 Results on the DNS dataset

在这里插入图片描述

这篇关于DPT-FSNET: DUAL-PATH TRANSFORMER BASED FULL-BAND AND SUB-BAND FUSION NETWORK FOR SPEECH ENHANCEMENT的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/329121

相关文章

解决jupyterLab打开后出现Config option `template_path`not recognized by `ExporterCollapsibleHeadings`问题

《解决jupyterLab打开后出现Configoption`template_path`notrecognizedby`ExporterCollapsibleHeadings`问题》在Ju... 目录jupyterLab打开后出现“templandroidate_path”相关问题这是 tensorflo

MySQL报错sql_mode=only_full_group_by的问题解决

《MySQL报错sql_mode=only_full_group_by的问题解决》本文主要介绍了MySQL报错sql_mode=only_full_group_by的问题解决,文中通过示例代码介绍的非... 目录报错信息DataGrip 报错还原Navicat 报错还原报错原因解决方案查看当前 sql mo

解读静态资源访问static-locations和static-path-pattern

《解读静态资源访问static-locations和static-path-pattern》本文主要介绍了SpringBoot中静态资源的配置和访问方式,包括静态资源的默认前缀、默认地址、目录结构、访... 目录静态资源访问static-locations和static-path-pattern静态资源配置

python中os.stat().st_size、os.path.getsize()获取文件大小

《python中os.stat().st_size、os.path.getsize()获取文件大小》本文介绍了使用os.stat()和os.path.getsize()函数获取文件大小,文中通过示例代... 目录一、os.stat().st_size二、os.path.getsize()三、函数封装一、os

Retrieval-based-Voice-Conversion-WebUI模型构建指南

一、模型介绍 Retrieval-based-Voice-Conversion-WebUI(简称 RVC)模型是一个基于 VITS(Variational Inference with adversarial learning for end-to-end Text-to-Speech)的简单易用的语音转换框架。 具有以下特点 简单易用:RVC 模型通过简单易用的网页界面,使得用户无需深入了

poj 2349 Arctic Network uva 10369(prim or kruscal最小生成树)

题目很麻烦,因为不熟悉最小生成树的算法调试了好久。 感觉网上的题目解释都没说得很清楚,不适合新手。自己写一个。 题意:给你点的坐标,然后两点间可以有两种方式来通信:第一种是卫星通信,第二种是无线电通信。 卫星通信:任何两个有卫星频道的点间都可以直接建立连接,与点间的距离无关; 无线电通信:两个点之间的距离不能超过D,无线电收发器的功率越大,D越大,越昂贵。 计算无线电收发器D

图神经网络框架DGL实现Graph Attention Network (GAT)笔记

参考列表: [1]深入理解图注意力机制 [2]DGL官方学习教程一 ——基础操作&消息传递 [3]Cora数据集介绍+python读取 一、DGL实现GAT分类机器学习论文 程序摘自[1],该程序实现了利用图神经网络框架——DGL,实现图注意网络(GAT)。应用demo为对机器学习论文数据集——Cora,对论文所属类别进行分类。(下图摘自[3]) 1. 程序 Ubuntu:18.04

VMware Fusion Pro 13 Mac版虚拟机 安装Win11系统教程

Mac分享吧 文章目录 Win11安装完成,软件打开效果一、VMware安装Windows11虚拟机1️⃣:准备镜像2️⃣:创建虚拟机3️⃣:虚拟机设置4️⃣:安装虚拟机5️⃣:解决连不上网问题 安装完成!!! Win11安装完成,软件打开效果 一、VMware安装Windows11虚拟机 首先确保自己的mac开启了网络共享。不然虚拟机连不上👀的 1️⃣:准备镜像

深度学习--对抗生成网络(GAN, Generative Adversarial Network)

对抗生成网络(GAN, Generative Adversarial Network)是一种深度学习模型,由Ian Goodfellow等人在2014年提出。GAN主要用于生成数据,通过两个神经网络相互对抗,来生成以假乱真的新数据。以下是对GAN的详细阐述,包括其概念、作用、核心要点、实现过程、代码实现和适用场景。 1. 概念 GAN由两个神经网络组成:生成器(Generator)和判别器(D

Transformer从零详细解读

Transformer从零详细解读 一、从全局角度概况Transformer ​ 我们把TRM想象为一个黑盒,我们的任务是一个翻译任务,那么我们的输入是中文的“我爱你”,输入经过TRM得到的结果为英文的“I LOVE YOU” ​ 接下来我们对TRM进行细化,我们将TRM分为两个部分,分别为Encoders(编码器)和Decoders(解码器) ​ 在此基础上我们再进一步细化TRM的