本文主要是介绍p0001--汪德亮2018--Supervised Speech Separation Based on DeepLearning: An Overview,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
今天开始看汪德亮的Supervised Speech Separation Based on DeepLearning: An Overview做一个翻译为主的个人笔记
abstract:语音分离是指将目标语音从背景干扰中分离出来,传统的方式是从信号处理的角度解决的。最近,多种监督学习的算法用于语音分离,尤其是基于深度学习的监督算法,大大提升了分离的性能。本文主要介绍近几十年用于语音分离的深度学习监督算法。监督学习三个主要的成分:机器学习、训练目标和声学特性。本文回顾的大部分算法是基于单声道的,包括语音增强(speech-nonspeech separation),谈话者分离(multitalker separation),语音反混响以及麦克风技术。讨论了监督学习特有的泛化问题,此外还有一些概念问题,包括目标源的生成。
instroduction
语音分离是一个基本的信号处理问题,有着广泛的应用。包括助听器、移动通信以及鲁棒性的语音识别。人类有优秀的听觉能力,比如在鸡尾酒会,人可以在很多背景噪声存在下跟随一个演讲者。语音分离被称为“鸡尾酒问题”,是Cherry在他1953年的文章中提出的术语。
语音分离是声源分离的一类。感知上,源分离是听觉流分离( auditory stream segregation),是听觉上广泛研究的课题。Miller和Heise [ 124]第一次系统性的研究了流分离,指出听者用交变的正弦波将一个信号分成两股,Bregman 和他的同事在这个课题上做了很多实验,并且在他的著作中引入 auditory scene analysis (ASA)一词,是指隔离混音并将来自同一声源的语音分组的感知过程。ASA分为同时组织(集成并发声音)和顺序组织(集成按时顺序声音)。本文说的语音分离主要是指将目标语音从混合语音中分离。
Miller总结了在各种声调、宽带噪声以及其他声音的干扰下人对单词的理解力,虚线表示50%的理解力。各种声调干扰不大,宽带噪声干扰最大。(speech reception threshold SRT 语音接受阈)而且,听力不好的人的SRT更大,说明他们对语音分离的能力不强。
Cherry在他的1956年的书中提到:“No machine has yet been constructed to do just that [solving the cocktail part problem]. ”没有机器可以像人耳一样进行语音分离,这句话到目前为止依然没有被打破。
按照麦克风数目,语音分离可以被分类为单麦克风和多麦克风。单麦克风的传统算法是语音增强和CASA(computational auditory scene analysis )。语音增强是噪声和语音的一般估计,用估计的噪声从带噪语音中分离出干净语音;最常用的是谱减法(spectral subtraction ),假设噪声是稳态噪声。CASA是听觉场景分析的知觉原理,利用分组线索,如音高和开始。例如,串联算法通过交替音高估计和基于音高的分组来分离语音。
两个或多个的麦克风阵列使用不同的原理实现语音分离,波束形成,空间滤波,加强特定方向的语音,削弱其他方向的信号。最简单的波束形成器是延时-求和波束形成,噪声的衰减取决于空间、尺寸、阵列的配置,整体来说,衰减程度随着麦克风数目和阵列长度的增加而增强。很明显,当声源和噪声很近时,空间滤波不可用;而且,波束形成的效用在混响情况下也大大衰减,因为声源的方向性不明显了。
这篇关于p0001--汪德亮2018--Supervised Speech Separation Based on DeepLearning: An Overview的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!