《PHONEME-BASED DISTRIBUTION REGULARIZATION FOR SPEECH ENHANCEMENT》论文阅读

本文主要是介绍《PHONEME-BASED DISTRIBUTION REGULARIZATION FOR SPEECH ENHANCEMENT》论文阅读,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

ABSTRACT

        现存的语音增强方法有时域和频域的方法,但是这些方法啊没有关注过带噪信号里面的语义信息。这篇论文,作者希望借用语义信息能够使得增强的效果更好。因而,提出了一个音素级分布正则化模块PbDr,将帧级语义信息作为条件整合到增强网络里面。频域上不同的音素导致不同的特征分布,通过因素分类模块产生了一个参数对,尺度和偏置。这个参数对不只包括帧级,也包括频域级,能够有效的将特征映射到音素相关的分布。

网络的整体结构

        整个网络包含两部分,一部分是音素分类网络,一部分是增强网络。对于每一帧,从音素分类网络里面获得一个概率向量,表明不同音素的分类概率。之后概率向量送到PDPR模块来得到一个参数对,尺度和偏置。得到的参数对进行乘法和加法,模块参数对和目标特征进行相乘和相加,将特征正则化。由于语义信息很重要,模块在早期的编码层上实现操作的功能来指导增强的过程。通过这种方式,有效地将帧级元素音素信息整合到增强网络里面。

 

增强网络

送入增强网络的是带噪复数谱,包含了编码器,4个残差块,一个解码器。编码器有三个卷积层和一个最大池化层,每一个残差块包含2个卷积层,用一个跳过连接,解码器包含了3个反卷积,将信号恢复到原始的分辨率上。进一步,编码器和解码器之间有跳过连接来恢复丢失掉的信息。解码器输出了幅度和相位,,经过逆傅里叶恢复语音。

帧级音素分类网络

        送入到帧级音素网络里面的特征是MFCC,网络包含了CBHG和一个分类模块,CBHG提取了一些综合性的特征,分类模块输出了预测音素的分类。CBHG包含了一些1维的卷积滤波器,一个网络和一个双向的GRU。这些一维卷探索局部信息和文本信息,而high-way网络和GRU提取高频的信息。对于音素级分类,用的是交叉熵损失函数。

PDPR模块

       频率上不同的音素分类会产生不同的分布。PDPR模块基于分类概率向量学习到了分布模块参数对,之后和特征进行相乘和相加。有的预测的标签是不准确的,为了提高鲁棒性,每一帧通过分类网络产生的概率向量来帮助增强网络,pdpr 模块根据分类得到的向量学习到了一个参数对,尺度和偏置。中间特征被映射到音素相关的分布。这些模块参数应用到所有的通道。

      将语义信息整合到网络里面是很重要的,模块的参数对被执行在早期的编码器指导增强网络的过程。另外,特征矩阵的分辨率在不同的编码器层并不同,所以需要用到不同的尺度因子。把音素的条件信息和一个大的尺度因子加上意味着会关注到更多语音的高维信息,相反,如果如果把条件信息应用到一个小尺度,意味着我们更加关注语音的细节。

数据集

          用的是LIBRISPEECH 和AUDIOSET数据集产生训练集21855条和测试集500条,信噪比在[-5,25]dB。傅里叶窗长是20ms,窗移是10ms,汉明窗。 对于分类网络,输入到里面的是mfcc特征,窗长是40ms,窗移是10ms.。用的是ADAM优化器,学习率分别是0.0002,和0.001.训练250轮。

基线模型是只用了增强网络。

粗略模型,应用一个预训练的音素级分类网络到语音增强网络,同时一起微调。

E-PDPRNET,首先用增强网络获得增强的语音,之后从增强信号种学习到语义信息。这个可以表明语音信息能够增强语音。

CONCAT,从音素分类网络里面学习到的特征和增强网络的特征进行拼接;实验证明,这个效果不好,反而会破坏掉信息。

pdprnet_1,_2在编码器上面的第一层和第二层卷积分别加了条件信息,信息融合是以一个小尺度因子实现的。尺度因子越小,代表越关注语音信息,所以信噪比会高,因子越大,意味着关注的是高水平的信息,因为那些指标会越大。如果没有特殊说明,_2就是所有实验当中使用的模型。

结果:CER代表字错误率,WER代表词错误率。

 

这篇关于《PHONEME-BASED DISTRIBUTION REGULARIZATION FOR SPEECH ENHANCEMENT》论文阅读的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/255399

相关文章

JAVA智听未来一站式有声阅读平台听书系统小程序源码

智听未来,一站式有声阅读平台听书系统 🌟 开篇:遇见未来,从“智听”开始 在这个快节奏的时代,你是否渴望在忙碌的间隙,找到一片属于自己的宁静角落?是否梦想着能随时随地,沉浸在知识的海洋,或是故事的奇幻世界里?今天,就让我带你一起探索“智听未来”——这一站式有声阅读平台听书系统,它正悄悄改变着我们的阅读方式,让未来触手可及! 📚 第一站:海量资源,应有尽有 走进“智听

Retrieval-based-Voice-Conversion-WebUI模型构建指南

一、模型介绍 Retrieval-based-Voice-Conversion-WebUI(简称 RVC)模型是一个基于 VITS(Variational Inference with adversarial learning for end-to-end Text-to-Speech)的简单易用的语音转换框架。 具有以下特点 简单易用:RVC 模型通过简单易用的网页界面,使得用户无需深入了

AI hospital 论文Idea

一、Benchmarking Large Language Models on Communicative Medical Coaching: A Dataset and a Novel System论文地址含代码 大多数现有模型和工具主要迎合以患者为中心的服务。这项工作深入探讨了LLMs在提高医疗专业人员的沟通能力。目标是构建一个模拟实践环境,人类医生(即医学学习者)可以在其中与患者代理进行医学

论文翻译:arxiv-2024 Benchmark Data Contamination of Large Language Models: A Survey

Benchmark Data Contamination of Large Language Models: A Survey https://arxiv.org/abs/2406.04244 大规模语言模型的基准数据污染:一项综述 文章目录 大规模语言模型的基准数据污染:一项综述摘要1 引言 摘要 大规模语言模型(LLMs),如GPT-4、Claude-3和Gemini的快

论文阅读笔记: Segment Anything

文章目录 Segment Anything摘要引言任务模型数据引擎数据集负责任的人工智能 Segment Anything Model图像编码器提示编码器mask解码器解决歧义损失和训练 Segment Anything 论文地址: https://arxiv.org/abs/2304.02643 代码地址:https://github.com/facebookresear

论文翻译:ICLR-2024 PROVING TEST SET CONTAMINATION IN BLACK BOX LANGUAGE MODELS

PROVING TEST SET CONTAMINATION IN BLACK BOX LANGUAGE MODELS https://openreview.net/forum?id=KS8mIvetg2 验证测试集污染在黑盒语言模型中 文章目录 验证测试集污染在黑盒语言模型中摘要1 引言 摘要 大型语言模型是在大量互联网数据上训练的,这引发了人们的担忧和猜测,即它们可能已

OmniGlue论文详解(特征匹配)

OmniGlue论文详解(特征匹配) 摘要1. 引言2. 相关工作2.1. 广义局部特征匹配2.2. 稀疏可学习匹配2.3. 半稠密可学习匹配2.4. 与其他图像表示匹配 3. OmniGlue3.1. 模型概述3.2. OmniGlue 细节3.2.1. 特征提取3.2.2. 利用DINOv2构建图形。3.2.3. 信息传播与新的指导3.2.4. 匹配层和损失函数3.2.5. 与Super

软件架构模式:5 分钟阅读

原文: https://orkhanscience.medium.com/software-architecture-patterns-5-mins-read-e9e3c8eb47d2 软件架构模式:5 分钟阅读 当有人潜入软件工程世界时,有一天他需要学习软件架构模式的基础知识。当我刚接触编码时,我不知道从哪里获得简要介绍现有架构模式的资源,这样它就不会太详细和混乱,而是非常抽象和易

BERT 论文逐段精读【论文精读】

BERT: 近 3 年 NLP 最火 CV: 大数据集上的训练好的 NN 模型,提升 CV 任务的性能 —— ImageNet 的 CNN 模型 NLP: BERT 简化了 NLP 任务的训练,提升了 NLP 任务的性能 BERT 如何站在巨人的肩膀上的?使用了哪些 NLP 已有的技术和思想?哪些是 BERT 的创新? 1标题 + 作者 BERT: Pre-trainin

[论文笔记]LLM.int8(): 8-bit Matrix Multiplication for Transformers at Scale

引言 今天带来第一篇量化论文LLM.int8(): 8-bit Matrix Multiplication for Transformers at Scale笔记。 为了简单,下文中以翻译的口吻记录,比如替换"作者"为"我们"。 大语言模型已被广泛采用,但推理时需要大量的GPU内存。我们开发了一种Int8矩阵乘法的过程,用于Transformer中的前馈和注意力投影层,这可以将推理所需