《TEA-PSE: TENCENT-ETHEREAL-AUDIO-LAB PERSONALIZED SPEECH ENHANCEMENTSYSTEM FOR ICASSP 2022 DNS CHA》

本文主要是介绍《TEA-PSE: TENCENT-ETHEREAL-AUDIO-LAB PERSONALIZED SPEECH ENHANCEMENTSYSTEM FOR ICASSP 2022 DNS CHA》,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

ABSTRACT

        这篇论文提出了两阶段的网络,用ECAPA-TDNN作为获取说话人向量的网络,实现了很好的性能。第一个阶段的网络只是单单的估计幅度谱,和带噪的相位结合起来得到粗糙的复数谱,第二阶段,一个附属的网络作为一个后处理模块,进一步去除掉残余的噪声和人为干扰的声音。同时,相位信息也被跟着改变了。整个大网络用了四个损失组合成最终的损失。

INTRODUCTION

       Personalized speech enhancement (PSE),也叫做说话人提取,目标是从一个复杂的多个说话人和混响的环境中提取出想要的那个说话人。多用于实时的环境中。这个比赛有两个通道,一个是没有目标说话人作为先验知识的,另一个是作为有目标说话人作为先验知识的。本文选择了通道2,有目标说话人作为先验知识的。选择做实时的语音,就需要考虑到模型的大小,验证的时间,并且不能用到未来的东西。本文提到的算法不仅仅是用来去噪去混响的,还需要考虑到有干扰的说话人。所以考虑到多阶段的优势,本文也采用多阶段的方法实现目标。

      本文提到的网络叫做TES-PSE,主要是由两个模块组成,一个是说话人的编码器,提取说话人的特征,另一个是增强的网络。采用了ECAPA-TDNN作为提取说话人特征的网络。先训练出来这个网络,之后再把这个网络的参数冻结,训练第二个增强的网络。使用第一个说话人提取网络,最终会提取到256维度的特征。

      增强的网络:第一阶段,只估计幅度谱,最后将估计到的幅度谱和带噪相位结合得到粗粒度的复数谱,复数谱进入到第二个阶段,进一步估计实部和虚部。其中,幅度谱采用了功率谱压缩。因为有混响,有混响存在的情况下,功率谱压缩是比较有用的一种方法。

第一阶段和第二阶段的网络和下图类似:

ECAPA-TDNN:

res2block:

损失函数采用了三种:SISDR,一个对称的函数,一个幅度谱的函数。还有一个实虚部的函数。

实验数据用的格式DNS挑战赛的数据集。训练的数据,在提取说话人那个网络里面,用到的数据是VoxCelsb2语料库,在增强的网络里面,用到的数据集是DNS数据集。测试集用到三种,第一种是模拟的数据集,用到的是KING-ASR-215。第二种是官方给到的开发集。第三种是官方给到的黑盒测试集。

用到了一些数据增强:

把原始语音随机选取一部分填充为0;

用时频域的掩码应用到输入的频谱上;

增强一种额外的噪声;

增强一种额外的混响;

速度扰动,范围在(0.9,1.1);

同时增强噪声和混响;

实验的结果:

这篇关于《TEA-PSE: TENCENT-ETHEREAL-AUDIO-LAB PERSONALIZED SPEECH ENHANCEMENTSYSTEM FOR ICASSP 2022 DNS CHA》的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/308497

相关文章

Apple quietly slips WebRTC audio, video into Safari's WebKit spec

转自:http://www.zdnet.com/article/apple-quietly-slips-webrtc-audio-video-into-safaris-webkit-spec/?from=timeline&isappinstalled=0 http://www.zdnet.com/article/apple-quietly-slips-webrtc-audio-video-

LLM系列 | 38:解读阿里开源语音多模态模型Qwen2-Audio

引言 模型概述 模型架构 训练方法 性能评估 实战演示 总结 引言 金山挂月窥禅径,沙鸟听经恋法门。 小伙伴们好,我是微信公众号《小窗幽记机器学习》的小编:卖铁观音的小男孩,今天这篇小作文主要是介绍阿里巴巴的语音多模态大模型Qwen2-Audio。近日,阿里巴巴Qwen团队发布了最新的大规模音频-语言模型Qwen2-Audio及其技术报告。该模型在音频理解和多模态交互

Usb Audio Device Descriptor(10) Hid Device

对于 Standard Interface Descriptor, 当 bInterfaceClass=0x03时,即为HID设备。Standard Interface Descriptor如下 struct usb_standard_interface_descriptor{U8 bLength; /*Size of this descriptor in bytes*/U8 bDescrip

DNS协议基础笔记

1.定义 DNS(Domain Name System,域名系统)是互联网的一项核心服务,它作为将域名和 IP 地址相互映射的一个分布式数据库,能够使人更方便地访问互联网。 2.域名解析过程 当用户在浏览器中输入一个域名,浏览器首先会检查自己的缓存中是否有该域名对应的 IP 地址。本地 DNS 服务器收到查询请求后,首先会检查自己的缓存中是否有该域名对应的 IP 地址。根域名服务器收到查询请

Android rk3399 UAC(USB Audio)开发笔记

一、UAC有1.0和2.0,因Windows对2.0支持不好,我使用的是UAC1.0驱动 内核配置:CONFIG_USB_CONFIGFS_F_UAC1          ---这个宏配置无需物理codec,使用虚拟 alsa codec  驱动路径:"kernel\drivers\usb\gadget\function\f_uac1.c" 内核配置:CONFIG_USB_CONFIGFS_

上海大学《2022年836+915自动控制原理真题及答案》 (完整版)

Part1:2022年上海大学真题题目 学硕836 专硕915 Part2:2022年上海大学真题答案 学硕836 专硕915

linux配置DNS解析设置之配置文件“/etc/resolv.conf “

在 Linux 系统中,/etc/resolv.conf 文件用于配置系统的 DNS 解析设置。它定义了如何将主机名(例如 www.example.com)转换为 IP 地址。主要功能包括: 主要功能 DNS 服务器地址:指定系统用于查询域名的 DNS 服务器。你可以在该文件中列出一个或多个 DNS 服务器的 IP 地址。 示例内容: conf 复制代码 nameserver 8.

【算法 2022】高效有用的机器学习算法和 Python 库

2022年已经到来,在此祝大家虎年大吉!2022年,下面几种机器学习算法和 Python 库将在未来更受欢迎!让我们花个几分钟一起来了解下: 一、CatBoost CatBoost 可能是最新的算法,因为它随着越来越流行而不断更新。这个机器学习算法对于处理分类数据的数据科学家特别有用。您可以考虑 Random Forest 和 XGBoost 算法的优点,CatBoost 具有它们的大部分优点

使用 Name.com 和 Namesilo DNS 模板的技术博客

在互联网世界中,域名系统(DNS)扮演着至关重要的角色,它就像是互联网的电话簿,将人类可读的域名转换为机器可理解的IP地址。本文将深入探讨DNS记录的各种类型,并以name.com和NameSilo这两个流行的域名注册商为例,讲解如何设置和管理这些记录。 DNS记录类型概览 在我们深入细节之前,先让我们快速回顾一下最常见的DNS记录类型: A记录CNAME记录MX记录TXT记录NS记录SRV

Win10 - 即插即用的external audio device detected问题

问题     有些牌子的笔记本,在win10下每次插入外设耳机,都会跳出带有 external audio device detected 字样的音频输出设备选择框需要选择 方案     1、在开始菜单选择 运行 ,输入 regedit 后回车打开注册表     2、在注册表中定位到 HKEY_CURRENT_USER\SOFTWARE\Realtek\Audio\RtkNGUI64