p0001--汪德亮2018--Supervised Speech Separation Based on DeepLearning: An Overview

本文主要是介绍p0001--汪德亮2018--Supervised Speech Separation Based on DeepLearning: An Overview,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

今天开始看汪德亮的Supervised Speech Separation Based on DeepLearning: An Overview做一个翻译为主的个人笔记    

        abstract:语音分离是指将目标语音从背景干扰中分离出来,传统的方式是从信号处理的角度解决的。最近,多种监督学习的算法用于语音分离,尤其是基于深度学习的监督算法,大大提升了分离的性能。本文主要介绍近几十年用于语音分离的深度学习监督算法。监督学习三个主要的成分:机器学习、训练目标和声学特性。本文回顾的大部分算法是基于单声道的,包括语音增强(speech-nonspeech separation),谈话者分离(multitalker separation),语音反混响以及麦克风技术。讨论了监督学习特有的泛化问题,此外还有一些概念问题,包括目标源的生成。

 instroduction

        语音分离是一个基本的信号处理问题,有着广泛的应用。包括助听器、移动通信以及鲁棒性的语音识别。人类有优秀的听觉能力,比如在鸡尾酒会,人可以在很多背景噪声存在下跟随一个演讲者。语音分离被称为“鸡尾酒问题”,是Cherry在他1953年的文章中提出的术语。

 

        语音分离是声源分离的一类。感知上,源分离是听觉流分离( auditory stream segregation),是听觉上广泛研究的课题。Miller和Heise [ 124]第一次系统性的研究了流分离,指出听者用交变的正弦波将一个信号分成两股,Bregman 和他的同事在这个课题上做了很多实验,并且在他的著作中引入 auditory scene analysis (ASA)一词,是指隔离混音并将来自同一声源的语音分组的感知过程。ASA分为同时组织(集成并发声音)和顺序组织(集成按时顺序声音)。本文说的语音分离主要是指将目标语音从混合语音中分离。

        Miller总结了在各种声调、宽带噪声以及其他声音的干扰下人对单词的理解力,虚线表示50%的理解力。各种声调干扰不大,宽带噪声干扰最大。(speech reception threshold   SRT 语音接受阈)而且,听力不好的人的SRT更大,说明他们对语音分离的能力不强。

 

 

        Cherry在他的1956年的书中提到:“No machine has yet been constructed to do just that [solving the cocktail part problem]. ”没有机器可以像人耳一样进行语音分离,这句话到目前为止依然没有被打破。

 

        按照麦克风数目,语音分离可以被分类为单麦克风和多麦克风。单麦克风的传统算法是语音增强和CASA(computational auditory scene analysis )。语音增强是噪声和语音的一般估计,用估计的噪声从带噪语音中分离出干净语音;最常用的是谱减法(spectral subtraction ),假设噪声是稳态噪声。CASA是听觉场景分析的知觉原理,利用分组线索,如音高和开始。例如,串联算法通过交替音高估计和基于音高的分组来分离语音。

        两个或多个的麦克风阵列使用不同的原理实现语音分离,波束形成,空间滤波,加强特定方向的语音,削弱其他方向的信号。最简单的波束形成器是延时-求和波束形成,噪声的衰减取决于空间、尺寸、阵列的配置,整体来说,衰减程度随着麦克风数目和阵列长度的增加而增强。很明显,当声源和噪声很近时,空间滤波不可用;而且,波束形成的效用在混响情况下也大大衰减,因为声源的方向性不明显了。

 

这篇关于p0001--汪德亮2018--Supervised Speech Separation Based on DeepLearning: An Overview的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/839884

相关文章

Spring Security--Architecture Overview

1 核心组件 这一节主要介绍一些在Spring Security中常见且核心的Java类,它们之间的依赖,构建起了整个框架。想要理解整个架构,最起码得对这些类眼熟。 1.1 SecurityContextHolder SecurityContextHolder用于存储安全上下文(security context)的信息。当前操作的用户是谁,该用户是否已经被认证,他拥有哪些角色权限…这些都被保

Retrieval-based-Voice-Conversion-WebUI模型构建指南

一、模型介绍 Retrieval-based-Voice-Conversion-WebUI(简称 RVC)模型是一个基于 VITS(Variational Inference with adversarial learning for end-to-end Text-to-Speech)的简单易用的语音转换框架。 具有以下特点 简单易用:RVC 模型通过简单易用的网页界面,使得用户无需深入了

BUUCTF靶场[web][极客大挑战 2019]Http、[HCTF 2018]admin

目录   [web][极客大挑战 2019]Http 考点:Referer协议、UA协议、X-Forwarded-For协议 [web][HCTF 2018]admin 考点:弱密码字典爆破 四种方法:   [web][极客大挑战 2019]Http 考点:Referer协议、UA协议、X-Forwarded-For协议 访问环境 老规矩,我们先查看源代码

RabbitMQ练习(AMQP 0-9-1 Overview)

1、What is AMQP 0-9-1 AMQP 0-9-1(高级消息队列协议)是一种网络协议,它允许遵从该协议的客户端(Publisher或者Consumer)应用程序与遵从该协议的消息中间件代理(Broker,如RabbitMQ)进行通信。 AMQP 0-9-1模型的核心概念包括消息发布者(producers/publisher)、消息(messages)、交换机(exchanges)、

论文精读-Supervised Raw Video Denoising with a Benchmark Dataset on Dynamic Scenes

论文精读-Supervised Raw Video Denoising with a Benchmark Dataset on Dynamic Scenes 优势 1、构建了一个用于监督原始视频去噪的基准数据集。为了多次捕捉瞬间,我们手动为对象s创建运动。在高ISO模式下捕获每一时刻的噪声帧,并通过对多个噪声帧进行平均得到相应的干净帧。 2、有效的原始视频去噪网络(RViDeNet),通过探

2018秋招C/C++面试题总结

博主从8月中旬开始大大小小面试了十几家公司,至今也许是告一段落吧,希望后面会有好结果,因此总结记录一些C/C++方向常见的问题。和大家一起学习! 参考了互联网的各种资源,自己尝试归类整理,谢谢~ 一、C和C++的区别是什么? C是面向过程的语言,C++是在C语言的基础上开发的一种面向对象编程语言,应用广泛。 C中函数不能进行重载,C++函数可以重载 C++在C的基础上增添类,C是一个结构

大厂算法例题解之网易2018秋招笔试真题 (未完)

1、字符串碎片 【题目描述】一个由小写字母组成的字符串可以看成一些同一字母的最大碎片组成的。例如,“aaabbaaac” 是由下面碎片组成的:‘aaa’,‘bb’,‘c’。牛牛现在给定一个字符串,请你帮助计算这个字符串的所有碎片的 平均长度是多少。 输入描述: 输入包括一个字符串 s,字符串 s 的长度 length(1 ≤ length ≤ 50),s 只含小写字母(‘a’-‘z’) 输出描述

vulhub GhostScript 沙箱绕过(CVE-2018-16509)

1.执行以下命令启动靶场环境并在浏览器访问 cd vulhub/ghostscript/CVE-2018-16509 #进入漏洞环境所在目录   docker-compose up -d #启动靶场   docker ps #查看容器信息 2.访问网页 3.下载包含payload的png文件 vulhub/ghostscript/CVE-2018-16509/poc.png at

MACS bdgdiff: Differential peak detection based on paired four bedGraph files.

参考原文地址:[http://manpages.ubuntu.com/manpages/xenial/man1/macs2_bdgdiff.1.html](http://manpages.ubuntu.com/manpages/xenial/man1/macs2_bdgdiff.1.html) 文章目录 一、MACS bdgdiff 简介DESCRIPTION 二、用法

Neighborhood Homophily-based Graph Convolutional Network

#paper/ccfB 推荐指数: #paper/⭐ #pp/图结构学习 流程 重定义同配性指标: N H i k = ∣ N ( i , k , c m a x ) ∣ ∣ N ( i , k ) ∣ with c m a x = arg ⁡ max ⁡ c ∈ [ 1 , C ] ∣ N ( i , k , c ) ∣ NH_i^k=\frac{|\mathcal{N}(i,k,c_{