WangDeLiangReview2018 - (5.3)去混响去噪

2023-10-22 08:40

本文主要是介绍WangDeLiangReview2018 - (5.3)去混响去噪,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

【WangDeLiangOverview2018】

Supervised Speech Separation Based on Deep Learning: An Overview,DeLiang Wang / Jitong Chen @ Ohio,IEEE/ACM Trans. ASLP2018

 

【目录】

1. 引入

2. 学习机器(learning machines)

3. 训练目标(training target)

4. 特征

5. 单声道分离

    5.1 语音增强(speech separation)

    5.2 语音增强的泛化

    5.3 语音去混响 & 去噪(speech dereverberation & denoising)

    5.4 说话人分离(speaker separation)

6. 多声道分离(阵列分离)

7. 更多内容

 

【正文】

在真实环境中,语音通常被表面反射的混响(reverberation)所破坏。房间混响相当于直接信号和RIR(Room Impulse Response)的卷积,它会在时间和频率上扭曲语音信号。混响是语音处理中一个公认的挑战,特别是当它与背景噪声相结合时。因此,长期以来人们一直在积极研究去混响(dereverberation)[5][191][131][61]。

Han等人[57]提出了第一种基于DNN的语音去噪方法。这种方法在耳蜗图(cochleagram)上使用谱映射(spectral mapping)。换句话说,DNN被训练成从混响语音帧窗口映射到无混响语音帧,如图10所示。训练后的DNN能很好地重建无回声语音的耳蜗图。在他们后来的工作[58]中,他们在谱图上应用了谱映射,并扩展了方法来执行去混响和去噪。

Wu等人最近提出了一种更复杂的系统[190],他们观察到,当帧长和移位根据混响时间(T60)的不同选择时,去混响性能会得到改善。在此基础上,他们的系统包括T60作为特征提取和DNN训练的控制参数。在去混响阶段,估计T60,选择合适的帧长和偏移量进行特征提取。这种所谓的混响时间感知模型如图11所示。他们的比较表明在[58]的DNN的去噪性能上有改进。

为了改进混响语音和噪声语音对消声语音的估计,Xiao等人[194]提出了一种训练的DNN来同时预测静态(static)、增量(delta)和加速度(acceleration)特征。静态特征为干净语音的对数量级,增量和加速度特征由静态特征派生。认为能较好地预测静态特征的DNN也能较好地预测增量和加速度特征。在DNN结构中加入动态特征有助于改进静态特征的估计,以实现减响。

Zhao等人[211]观察到,谱映射(spectral mapping)比T-F掩蔽更有效的去混响,尽管T-F掩蔽去噪效果更好。因此,他们构建了一个两阶段的DNN,其中第一阶段进行比率掩蔽(ratio masking)去噪,第二阶段进行谱映射去混响。此外,为了减轻利用混响噪声语音相位对增强语音波形信号重新合成的不利影响,本研究对[182]中的时域信号重构技术进行了扩展。这里的训练目标是在时域中定义的,但是训练过程中使用干净阶段,而[182]中使用了噪声阶段。这两个阶段先单独训练,然后联合训练。[211]的结果表明,无论是映射还是掩蔽,两阶段DNN模型都明显优于单阶段模型

 

这篇关于WangDeLiangReview2018 - (5.3)去混响去噪的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/260329

相关文章

兔子-(PHP 5.3 and above) Please set 'request_order' ini value to include C,G and P (recommended: 'CGP'

由于在PHP最新的版本中增加了一个配置项目“request_order”,默认值为“GP”,这个存在一定的安全风险。这里我们建议用户将配置更改为“CGP” 可以在php的安装目录下找到php.ini配置目录,找到下面选项: request_order = "GP"  更改为 request_order = "CGP"   重启服务器后即可。 此

CentOS 6.5 64位 php从5.3升级5.6

CentOS 6.5 64位 php从5.3升级5.6 查看php相关 rpm -qa | grep php 注意:php 小写 需要将所有php相关卸载,图片上的是已经安装好的,只做参考 rpm -e 包 如:rpm -e php-common-5.3.3-48.el6_8.x86_64 … 按照显示的一个个卸载掉,防止冲突 如果报错,说明有依赖,换一个卸载,必须全部删除

5.3二叉树——二叉树链式结构实现

本篇博客梳理二叉树链式结构 明确:二叉树是递归定义的 递归的本质:当前问题+子问题,返回条件是最小规模的子问题 一、二叉树的遍历 1.前序、中序与后序遍历 (1)前序:根->左子树->右子树(每个子树也满足这个遍历顺序,下同) (2)中序:左子树->根->右子树 (3)后序:左子树->右子树->根 分析前序遍历 递归展开图如下,红色箭头表示递推,绿色箭头表示回归 // 二叉树前序遍历:

LAMP环境搭建之编译安装指南(php-5.3.27.tar.gz)

测试环境:CentOS release 6.5 (Final) 软件安装:httpd-2.2.27.tar.gz   mysql-5.1.72.tar.gz   php-5.3.27.tar.gz  1、mysql安装详见:https://www.cnblogs.com/su-root/p/11210794.html 2、apache安装详见:https://www.cnblogs.com/su

【机器学习】(5.3)聚类--层次聚类

无监督模型。 聚类算法需要度量样本间的距离,距离度量的方式可以参考【机器学习】(5)聚类--距离度量_mjiansun的博客-CSDN博客 一般会使用欧氏距离。 起步 层次聚类( Hierarchical Clustering )是聚类算法的一种,通过计算不同类别的相似度类创建一个有层次的嵌套的树。(分为凝聚的和分裂的两种方式,常用的方式是凝聚的方式) 层次聚类算法介绍 假设有

25版王道数据结构课后习题详细分析 第五章 树与二叉树 5.3 二叉树的遍历和线索二叉树 选择题部分

一、单项选择题 ———————————————————— ———————————————————— 解析:二叉树中序遍历的最后一个结点一定是从根开始沿右子女指针链走到底的结点,设用p指示。若结点p不是叶结点(其左子树非空),则前序遍历的最后一个结点在它的左子树中,A、B错误;若结点p是叶结点,则前序与中序遍历的最后一个结点就是它,C正确。若中序遍历的最后一个结点p不是叶结点,它还有一个左

egret 版本升级 5.2.x - 5.3.8

项目要发布头条小程序的版本. 工程是5.2.30, 然后白鹭支持头条小程序的版本需要是5.3.8,所以需要把版本升级到5.3.8. 1.下载5.3.8的引擎, 然后在IDE的终端输入egret upgrade --egretversion 5.3.8 2. 升级完后可能会有些地方报错, 我就遇到了dragonBones的接口不一样的问题. 替换成新的接口就好了 3. 创建一个5.3.8的新工

[蓝牙核心规范5.3][Vol 2 BR/EDR控制器][Part B 基带规范]2 物理通道

蓝牙文档官网: https://www.bluetooth.com/specifications/specs/ 蓝牙核心规范5.3: https://download.csdn.net/download/u012906122/74651266 蓝牙系统中最低的架构层是物理通道层。蓝牙定义了很多物理通道层。蓝牙物理通道有如下特点:一个基本伪随机跳频序列,特定传输时间槽,接入码和包头部编码。对于基本

EmguCV学习笔记 C# 5.3 透视变换

版权声明:本文为博主原创文章,转载请在显著位置标明本文出处以及作者网名,未经作者允许不得用于商业目的。 EmguCV是一个基于OpenCV的开源免费的跨平台计算机视觉库,它向C#和VB.NET开发者提供了OpenCV库的大部分功能。 教程VB.net版本请访问:EmguCV学习笔记 VB.Net 目录-CSDN博客 教程C#版本请访问:EmguCV学习笔记 C# 目录-CSDN博客 笔者的博

5.3 Python len()函数:获取字符串长度或字节数

Python len()函数详解:获取字符串长度或字节数 Python 中,要想知道一个字符串有多少个字符(获得字符串长度),或者一个字符串占用多少个字节,可以使用 len 函数。 len 函数的基本语法格式为: len(string) 其中 string 用于指定要进行长度统计的字符串。 例如,定义一个字符串,内容为“http://c.biancheng.net”,然后用 len()