Partially Spoofed Audio Detection论文介绍(ICASSP 2024)

2024-06-05 11:36

本文主要是介绍Partially Spoofed Audio Detection论文介绍(ICASSP 2024),希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

An Efficient Temporary Deepfake Location Approach Based Embeddings for Partially Spoofed Audio Detection

论文翻译名:一种基于部分欺骗音频检测的基于临时深度伪造位置方法的高效嵌入

摘要:

  • 部分伪造音频检测是一项具有挑战性的任务,在于需要在帧级别上准确地定位音频的真实性。
  • 时间性深度伪造定位( TDL ),可以有效地捕获特征和位置信息。
  • 我们的方法包括两个新颖的部分:嵌入相似性模块和时间卷积操作。
  • 为了有效地集中位置信息,提出了时间卷积操作来计算相邻帧之间的帧特异性相似度,并动态地选择信息丰富的邻居进行卷积。

结论:TDL在19PS数据集上取得了最好的性能,并且在跨数据集场景下也表现良好。

背景:

  • 在大多数数据集和挑战中,一个重要的场景被忽略,即一个真实的语音语句被合成的语音片段污染,导致部分欺骗(PS)。
  • 在整个PS发展领域,先有了两个数据集(一个叫PartialSpoof),使用SELCNN网络增强语音的准确性,之后是有人使用Wav2Vec2作为前端,ECAPA-TDNN作为后端,在ADD 2022 Track 2中取得了第一名。
  • 上面方法并不能精确地定位特定的片段,有人将之前的语音级PS数据集标签扩展到帧级,并提出了相应的基于W2V2的对抗策略来增强帧级检测能力。
  • TDL——Wav2Vec2作为前端,后端集中于细腻地定位虚假语音片段:第一次使用嵌入相似度模块(嵌入空间并得到高质量的嵌入相似度向量);然后,我们提出了时间卷积操作来从嵌入向量中定位区域。从嵌入中计算每个时间位置的局部相似性。获得一个特定于帧的权重来指导卷积进行时间敏感的计算。

内容成果:

1.使用Wav2Vec - XLS - R从原始音频中提取帧级特征;

2. 设计了一个嵌入相似度模块来在嵌入空间中分离真实帧和合成帧,在嵌入层面增强真假区分的识别;

3.为了捕获位置信息,采用时间卷积操作,通过关注相邻帧之间特定帧的相似性;

4.使用1D卷积层和全连接层对帧级标签进行下采样,以计算二进制交叉熵;

一、W2V2 前端

过在掩码特征编码器上解决对比任务进行训练,

首先,不同长度的语音信号通过由七个卷积神经网络( CNN )层组成的特征提取器。

随后,使用包含24层、16个注意力头、嵌入大小为1024的Transformer网络获得上下文表示。

二、嵌入相似度模块(ESM)

  • 嵌入向量是L2 -规范化的;
  • 利用余弦相似度来度量两个嵌入向量的相似度:

  • 为了增加嵌入空间中真假帧之间的距离,提高泛化能力,我们计算了真帧之间、假帧之间以及真假帧之间的余弦相似度;
  • 确保来自不同位置的真实帧表现出相似性,来自不同位置的虚假帧表现出相似性,而真实帧和虚假帧彼此不相似性;
  • 使得不同位置的真实帧和虚假帧相似:

理解:τsame 是同一类别帧的相似度阈值,⌊ . . . ⌋+ 表示零下限幅,...

  • 虽然知道帧级真实性标签的位置,但W2V2-XLS-R特征的时间维度并不与这些帧级标签内在地保持一致。
  • 分离真假帧:

τdiff为相似度阈值,用于约束真假帧之间的距离;

  • 最后嵌入相似度模块采用LESM进行优化:

三、时间卷积操作

为了有效地捕获位置信息,使用嵌入向量作为局部注意力掩码来执行时间卷积操作;

理解:其中fmt为输出特征向量的第m个通道的值,⌊· · ·⌋表示向下取整操作,[ · · ·]表示矩阵的切片,( · )表示内积。X是经过近邻相似度计算处理的调制特征。

其中矩阵a∈Rk × T是一个相似矩阵,计算每个时间位置的局部相似性,a[ i , t]表示第t个特征向量和它的k个邻居之间的相似性。在实际操作中,邻居设置为1,a[ i , t]、a[ i , t-1 ]、a[ i , t + 1]之间进行相似度计算。

在实际操作中,我们根据ESM模块生成的嵌入向量来确定动态核权重。我们对两个序列1D - CNN上的W2V2特征进行时间卷积操作,其中输入通道和输出通道都保持不变,以保持时间维度上的一致性。

四、总损失

使用1D-CNN,全连接层和sigmoid激活函数来计算BCE(Binary Cross-Entropy)损失。

五、实验结果分析

所有的度量都是基于部分欺骗音频的帧级真实性标签计算的。

使用了基于点的二分类准确率,召回率和Sklearn的F1分数。在任何评估之前,根据特征的实际长度消除零填充。

实验测试表明使用real 1fake 0标签的效果更好,而且提出的模型复杂度更低。

贡献点:

  • 提出TDL方法,一种适用于PS场景的高效的ADD方法,该方法结合了嵌入相似性模块和时间卷积操作,可以有效地捕获特征和位置信息。
  • 提出的方法在ASV spoof 2019PS数据集上优于基线模型,即使在跨数据集实验中也表现出优越的性能。

注:科研新手总结的论文,后续会出一篇结合代码的分析文章。

这篇关于Partially Spoofed Audio Detection论文介绍(ICASSP 2024)的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1032943

相关文章

揭秘未来艺术:AI绘画工具全面介绍

📑前言 随着科技的飞速发展,人工智能(AI)已经逐渐渗透到我们生活的方方面面。在艺术创作领域,AI技术同样展现出了其独特的魅力。今天,我们就来一起探索这个神秘而引人入胜的领域,深入了解AI绘画工具的奥秘及其为艺术创作带来的革命性变革。 一、AI绘画工具的崛起 1.1 颠覆传统绘画模式 在过去,绘画是艺术家们通过手中的画笔,蘸取颜料,在画布上自由挥洒的创造性过程。然而,随着AI绘画工

20.Spring5注解介绍

1.配置组件 Configure Components 注解名称说明@Configuration把一个类作为一个loC容 器 ,它的某个方法头上如果注册7@Bean , 就会作为这个Spring容器中的Bean@ComponentScan在配置类上添加@ComponentScan注解。该注解默认会扫描该类所在的包下所有的配置类,相当于之前的 <context:component-scan>@Sc

创新、引领、发展——SAMPE中国2024年会在京盛大开幕

绿树阴浓夏日长,在这个色彩缤纷的季节,SAMPE中国2024年会暨第十九届国际先进复合材料制品原材料、工装及工程应用展览会在中国国际展览中心(北京朝阳馆)隆重开幕。新老朋友共聚一堂,把酒话桑麻。 为期4天的国际学术会议以“先进复合材料,引领产业创新与可持续化发展”为主题,设立了34个主题分会场,其中包括了可持续化会场、国际大学生会场、中法复合材料制造技术峰会三个国际会场和女科技工作者委员会沙龙,

C++标准模板库STL介绍

STL的六大组成部分 STL(Standard Template Library)是 C++ 标准库中的一个重要组成部分,提供了丰富的通用数据结构和算法,使得 C++ 编程变得更加高效和方便。STL 包括了 6 大类组件,分别是算法(Algorithm)、容器(Container)、空间分配器(Allocator)、迭代器(Iterator)、函数对象(Functor)、适配器(Adapter)

一二三应用开发平台应用开发示例(4)——视图类型介绍以及新增、修改、查看视图配置

调整上级属性类型 前面为了快速展示平台的低代码配置功能,将实体文件夹的数据模型上级属性的数据类型暂时配置为文本类型,现在我们调整下,将其数据类型调整为实体,如下图所示: 数据类型需要选择实体,并在实体选择框中选择自身“文件夹” 这时候,再点击生成代码,平台会报错,提示“实体【文件夹】未设置主参照视图”。这是因为文件夹选择的功能页面,同样是基于配置产生的,因为视图我们还没有配置,所以会报错。

2024年6月24日-6月30日(ue独立游戏为核心)

试过重点放在独立游戏上,有个indienova独立游戏团队是全职的,由于他们干了几个月,节奏暂时跟不上,紧张焦虑了。五一时也有点自暴自弃了,实在没必要,按照自己的节奏走即可。精力和时间也有限,放在周末进行即可。除非哪天失业了,再也找不到工作了,再把重心放在独立游戏上。 另外,找到一个同样业余的美术,从头做肉鸽游戏,两周一次正式交流即可。节奏一定要放慢,不能影响正常工作生活。如果影响到了,还不如自

潜艇伟伟迷杂交版植物大战僵尸2024最新免费安卓+ios苹果+iPad分享

嗨,亲爱的游戏迷们!今天我要给你们种草一个超有趣的游戏——植物大战僵尸杂交版。这款游戏不仅继承了原有经典游戏的核心玩法,还加入了许多创新元素,让玩家能够体验到前所未有的乐趣。快来跟随我一起探索这个神奇的世界吧! 植物大战僵尸杂交版最新绿色版下载链接: https://pan.quark.cn/s/d60ed6e4791c 🔥 创新与经典的完美结合 植物大战僵尸杂交版在保持了原游戏经典玩

49-1 内网渗透 - Bypass UAC介绍

一、Bypass UAC         用户账户控制(UAC)是Windows操作系统的一种安全机制,旨在防止未经授权的应用程序自动安装并防止非授权修改系统设置。它确保应用程序和任务通常在非管理员账户的安全上下文中运行,除非明确需要管理员权限,用户才会被提示确认。         对于非RID 500的管理员用户(除了内置的Administrator账户),当他们登录时,系统会为其分配两个访

okhttp3的详细介绍

这篇文章说下OkHttp的基本用法,是最新的3哦,如果你曾经在网上搜索OkHttp怎么使用发现有些类没有了可能是因为人家说的是2。首先说下OkHttp3是Java和Android都能用,Android还有一个著名网络库叫Volley,那个只有Android能用。导入自己到入jar包,别漏了okio:okhttp-3.3.0.jarokio-1.8.0.jarmaven方式:<dependen

Retrofit详细介绍

转载请标明出处:http://blog.csdn.net/xx326664162/article/details/51910837 文章出自:薛瑄的博客 你也可以查看我的其他同类文章,也会让你有一定的收货! 一、Retrofit 是什么? Retrofit is a type-safe HTTP client for Android and java. Retrofit 是与 Web 服务器提