Partially Spoofed Audio Detection论文介绍(ICASSP 2024)

2024-06-05 11:36

本文主要是介绍Partially Spoofed Audio Detection论文介绍(ICASSP 2024),希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

An Efficient Temporary Deepfake Location Approach Based Embeddings for Partially Spoofed Audio Detection

论文翻译名:一种基于部分欺骗音频检测的基于临时深度伪造位置方法的高效嵌入

摘要:

  • 部分伪造音频检测是一项具有挑战性的任务,在于需要在帧级别上准确地定位音频的真实性。
  • 时间性深度伪造定位( TDL ),可以有效地捕获特征和位置信息。
  • 我们的方法包括两个新颖的部分:嵌入相似性模块和时间卷积操作。
  • 为了有效地集中位置信息,提出了时间卷积操作来计算相邻帧之间的帧特异性相似度,并动态地选择信息丰富的邻居进行卷积。

结论:TDL在19PS数据集上取得了最好的性能,并且在跨数据集场景下也表现良好。

背景:

  • 在大多数数据集和挑战中,一个重要的场景被忽略,即一个真实的语音语句被合成的语音片段污染,导致部分欺骗(PS)。
  • 在整个PS发展领域,先有了两个数据集(一个叫PartialSpoof),使用SELCNN网络增强语音的准确性,之后是有人使用Wav2Vec2作为前端,ECAPA-TDNN作为后端,在ADD 2022 Track 2中取得了第一名。
  • 上面方法并不能精确地定位特定的片段,有人将之前的语音级PS数据集标签扩展到帧级,并提出了相应的基于W2V2的对抗策略来增强帧级检测能力。
  • TDL——Wav2Vec2作为前端,后端集中于细腻地定位虚假语音片段:第一次使用嵌入相似度模块(嵌入空间并得到高质量的嵌入相似度向量);然后,我们提出了时间卷积操作来从嵌入向量中定位区域。从嵌入中计算每个时间位置的局部相似性。获得一个特定于帧的权重来指导卷积进行时间敏感的计算。

内容成果:

1.使用Wav2Vec - XLS - R从原始音频中提取帧级特征;

2. 设计了一个嵌入相似度模块来在嵌入空间中分离真实帧和合成帧,在嵌入层面增强真假区分的识别;

3.为了捕获位置信息,采用时间卷积操作,通过关注相邻帧之间特定帧的相似性;

4.使用1D卷积层和全连接层对帧级标签进行下采样,以计算二进制交叉熵;

一、W2V2 前端

过在掩码特征编码器上解决对比任务进行训练,

首先,不同长度的语音信号通过由七个卷积神经网络( CNN )层组成的特征提取器。

随后,使用包含24层、16个注意力头、嵌入大小为1024的Transformer网络获得上下文表示。

二、嵌入相似度模块(ESM)

  • 嵌入向量是L2 -规范化的;
  • 利用余弦相似度来度量两个嵌入向量的相似度:

  • 为了增加嵌入空间中真假帧之间的距离,提高泛化能力,我们计算了真帧之间、假帧之间以及真假帧之间的余弦相似度;
  • 确保来自不同位置的真实帧表现出相似性,来自不同位置的虚假帧表现出相似性,而真实帧和虚假帧彼此不相似性;
  • 使得不同位置的真实帧和虚假帧相似:

理解:τsame 是同一类别帧的相似度阈值,⌊ . . . ⌋+ 表示零下限幅,...

  • 虽然知道帧级真实性标签的位置,但W2V2-XLS-R特征的时间维度并不与这些帧级标签内在地保持一致。
  • 分离真假帧:

τdiff为相似度阈值,用于约束真假帧之间的距离;

  • 最后嵌入相似度模块采用LESM进行优化:

三、时间卷积操作

为了有效地捕获位置信息,使用嵌入向量作为局部注意力掩码来执行时间卷积操作;

理解:其中fmt为输出特征向量的第m个通道的值,⌊· · ·⌋表示向下取整操作,[ · · ·]表示矩阵的切片,( · )表示内积。X是经过近邻相似度计算处理的调制特征。

其中矩阵a∈Rk × T是一个相似矩阵,计算每个时间位置的局部相似性,a[ i , t]表示第t个特征向量和它的k个邻居之间的相似性。在实际操作中,邻居设置为1,a[ i , t]、a[ i , t-1 ]、a[ i , t + 1]之间进行相似度计算。

在实际操作中,我们根据ESM模块生成的嵌入向量来确定动态核权重。我们对两个序列1D - CNN上的W2V2特征进行时间卷积操作,其中输入通道和输出通道都保持不变,以保持时间维度上的一致性。

四、总损失

使用1D-CNN,全连接层和sigmoid激活函数来计算BCE(Binary Cross-Entropy)损失。

五、实验结果分析

所有的度量都是基于部分欺骗音频的帧级真实性标签计算的。

使用了基于点的二分类准确率,召回率和Sklearn的F1分数。在任何评估之前,根据特征的实际长度消除零填充。

实验测试表明使用real 1fake 0标签的效果更好,而且提出的模型复杂度更低。

贡献点:

  • 提出TDL方法,一种适用于PS场景的高效的ADD方法,该方法结合了嵌入相似性模块和时间卷积操作,可以有效地捕获特征和位置信息。
  • 提出的方法在ASV spoof 2019PS数据集上优于基线模型,即使在跨数据集实验中也表现出优越的性能。

注:科研新手总结的论文,后续会出一篇结合代码的分析文章。

这篇关于Partially Spoofed Audio Detection论文介绍(ICASSP 2024)的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1032943

相关文章

性能测试介绍

性能测试是一种测试方法,旨在评估系统、应用程序或组件在现实场景中的性能表现和可靠性。它通常用于衡量系统在不同负载条件下的响应时间、吞吐量、资源利用率、稳定性和可扩展性等关键指标。 为什么要进行性能测试 通过性能测试,可以确定系统是否能够满足预期的性能要求,找出性能瓶颈和潜在的问题,并进行优化和调整。 发现性能瓶颈:性能测试可以帮助发现系统的性能瓶颈,即系统在高负载或高并发情况下可能出现的问题

水位雨量在线监测系统概述及应用介绍

在当今社会,随着科技的飞速发展,各种智能监测系统已成为保障公共安全、促进资源管理和环境保护的重要工具。其中,水位雨量在线监测系统作为自然灾害预警、水资源管理及水利工程运行的关键技术,其重要性不言而喻。 一、水位雨量在线监测系统的基本原理 水位雨量在线监测系统主要由数据采集单元、数据传输网络、数据处理中心及用户终端四大部分构成,形成了一个完整的闭环系统。 数据采集单元:这是系统的“眼睛”,

Hadoop数据压缩使用介绍

一、压缩原则 (1)运算密集型的Job,少用压缩 (2)IO密集型的Job,多用压缩 二、压缩算法比较 三、压缩位置选择 四、压缩参数配置 1)为了支持多种压缩/解压缩算法,Hadoop引入了编码/解码器 2)要在Hadoop中启用压缩,可以配置如下参数

2024年流动式起重机司机证模拟考试题库及流动式起重机司机理论考试试题

题库来源:安全生产模拟考试一点通公众号小程序 2024年流动式起重机司机证模拟考试题库及流动式起重机司机理论考试试题是由安全生产模拟考试一点通提供,流动式起重机司机证模拟考试题库是根据流动式起重机司机最新版教材,流动式起重机司机大纲整理而成(含2024年流动式起重机司机证模拟考试题库及流动式起重机司机理论考试试题参考答案和部分工种参考解析),掌握本资料和学校方法,考试容易。流动式起重机司机考试技

【专题】2024飞行汽车技术全景报告合集PDF分享(附原数据表)

原文链接: https://tecdat.cn/?p=37628 6月16日,小鹏汇天旅航者X2在北京大兴国际机场临空经济区完成首飞,这也是小鹏汇天的产品在京津冀地区进行的首次飞行。小鹏汇天方面还表示,公司准备量产,并计划今年四季度开启预售小鹏汇天分体式飞行汽车,探索分体式飞行汽车城际通勤。阅读原文,获取专题报告合集全文,解锁文末271份飞行汽车相关行业研究报告。 据悉,业内人士对飞行汽车行业

高效录音转文字:2024年四大工具精选!

在快节奏的工作生活中,能够快速将录音转换成文字是一项非常实用的能力。特别是在需要记录会议纪要、讲座内容或者是采访素材的时候,一款优秀的在线录音转文字工具能派上大用场。以下推荐几个好用的录音转文字工具! 365在线转文字 直达链接:https://www.pdf365.cn/ 365在线转文字是一款提供在线录音转文字服务的工具,它以其高效、便捷的特点受到用户的青睐。用户无需下载安装任何软件,只

图神经网络模型介绍(1)

我们将图神经网络分为基于谱域的模型和基于空域的模型,并按照发展顺序详解每个类别中的重要模型。 1.1基于谱域的图神经网络         谱域上的图卷积在图学习迈向深度学习的发展历程中起到了关键的作用。本节主要介绍三个具有代表性的谱域图神经网络:谱图卷积网络、切比雪夫网络和图卷积网络。 (1)谱图卷积网络 卷积定理:函数卷积的傅里叶变换是函数傅里叶变换的乘积,即F{f*g}

AI hospital 论文Idea

一、Benchmarking Large Language Models on Communicative Medical Coaching: A Dataset and a Novel System论文地址含代码 大多数现有模型和工具主要迎合以患者为中心的服务。这项工作深入探讨了LLMs在提高医疗专业人员的沟通能力。目标是构建一个模拟实践环境,人类医生(即医学学习者)可以在其中与患者代理进行医学

2024网安周今日开幕,亚信安全亮相30城

2024年国家网络安全宣传周今天在广州拉开帷幕。今年网安周继续以“网络安全为人民,网络安全靠人民”为主题。2024年国家网络安全宣传周涵盖了1场开幕式、1场高峰论坛、5个重要活动、15场分论坛/座谈会/闭门会、6个主题日活动和网络安全“六进”活动。亚信安全出席2024年国家网络安全宣传周开幕式和主论坛,并将通过线下宣讲、创意科普、成果展示等多种形式,让广大民众看得懂、记得住安全知识,同时还

C++——stack、queue的实现及deque的介绍

目录 1.stack与queue的实现 1.1stack的实现  1.2 queue的实现 2.重温vector、list、stack、queue的介绍 2.1 STL标准库中stack和queue的底层结构  3.deque的简单介绍 3.1为什么选择deque作为stack和queue的底层默认容器  3.2 STL中对stack与queue的模拟实现 ①stack模拟实现