深度伪造音频普遍检测的Codecfake数据集和对策

2024-05-11 00:04

本文主要是介绍深度伪造音频普遍检测的Codecfake数据集和对策,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

        基于音频语言模型(ALM)的深度伪造音频的扩散,出现了对其负面影响的担忧。如,这项技术可能被用于传播错误信息和虚假新闻,迫切需要有效的检测方法。与通常涉及多步骤过程并以声码器使用结束的传统深度伪造音频生成不同,ALM直接利用神经编解码方法将离散代码解码成音频。此外,由于大规模数据的驱动,ALM展现出显著的鲁棒性和多功能性,为当前的音频深度伪造检测(ADD)模型带来了重大挑战。为了有效检测基于ALM的深度伪造音频,我们从以下三个维度进行优化:

  • 专注于ALM基于音频生成方法的机制,即从神经编解码到波形的转换。
  • 构建Codecfake数据集开源的大规模数据集,包括两种语言、百万级的音频样本以及各种测试条件,专为基于ALM的音频检测量身定制。
  • 提出CSAM策略,实现深度伪造音频的通用检测并解决原始SAM的领域上升偏差问题

1、Codecfake数据集

        Codecfake数据集包含两种语言:英语和中文,共包含1,058,216个音频样本。其中,英语数据来自VCTK数据集,包含248,031个样本;中文数据来自AISHELL3数据集,包含492,716个样本。此外,训练集共包含740,747个样本,验证集共包含92,596个样本,测试集共包含224,873个样本。因此,Codecfake数据集总共包含超过一百万个音频样本

  • 音频采样率:Codecfake数据集中的音频采样率主要使用16kHz和24kHz。具体来说,SoundStream、SpeechTokenizer和FuncCodec使用16kHz的采样率,而Encodec、AudioDec、AcademicCodec和DAC使用24kHz的采样率。
  • 标签及标注:Codecfake数据集提供了真实的标签,用来指示每个样本是真实音频还是伪造音频。

2、如何使用Codecfake数据集Python代码来下载和加载数据集

import os

import requests

import zipfile

# 下载数据集

dataset_url = 'https://zenodo.org/record/5307883/files/codecfake_dataset.zip?download=1'

dataset_path = 'codecfake_dataset.zip'

if not os.path.exists(dataset_path):

    response = requests.get(dataset_url, stream=True)

    with open(dataset_path, 'wb') as file:

        for chunk in response.iter_content(chunk_size=1024):

            if chunk:

                file.write(chunk)

# 加载数据集

with zipfile.ZipFile(dataset_path, 'r') as zip_ref:

    zip_ref.extractall('./codecfake_dataset')

# 此时,您可以加载数据集中的文件并进行相关的分析和处理。

3、CSAM策略

     CSAM(Co-Training Sharpness Aware Minimization)策略是一种用于提高音频深度伪造检测(ADD)模型泛化能力的方法。CSAM策略的核心是在共训练(Co-Training)过程中应用Sharpness Aware Minimization(SAM)的思想,同时解决由于数据集大小不平衡和领域特定伪影导致的领域上升偏差问题。

3.1 CSAM策略的动机

共训练:共训练是指同时使用来自多个领域的数据进行模型训练,以提高模型在不同领域的泛化能力。

SAM:SAM是一种优化方法,用于在非凸优化问题中寻找一个平坦且泛化的最小值。它通过最大化损失函数的梯度来寻找上升方向,从而避免模型陷入过拟合的训练集所对应的尖锐最小值。

领域上升偏差:在共训练过程中,由于不同领域数据量的不平衡,模型可能会偏向于学习数据量较大的领域的特征,而忽略数据量较小的领域。

3.2 CSAM策略的关键点

数据采样器:CSAM定义了一个特定的数据采样器,根据数据集的比例确保每个领域在每个mini-batch中都被均匀地采样。

损失函数计算:在每个mini-batch中,CSAM计算损失函数时,会确保每个领域都根据其数据量比例被随机采样,从而使得上升方向向量在每个mini-batch计算中都包含来自每个领域的梯度。

优化过程:CSAM通过这种方式优化经验风险最小化(ERM)的同时,学习到一个平坦的最小值区域,从而提高了模型在看不见的领域(OOD)上的泛化能力。

3.3 CSAM策略的实现

在实现CSAM策略时,需要考虑以下几点:

  • 数据集的划分:确保共训练的数据集中每个领域都有代表。
  • mini-batch的构建:在构建每个mini-batch时,根据数据集的比例随机采样数据,以避免领域上升偏差。
  • 损失函数的优化:使用SAM的优化方法来寻找一个平坦的最小值,同时在共训练过程中保持领域之间的平衡。

4、三种用于音频深度伪造检测(ADD)的基线模型

Mel-LCNN:这个模型使用Mel-spectrogram(梅尔频谱图)作为前端特征,然后通过轻量级的基于卷积的网络LCNN(Light Convolutional Neural Network)进行处理。LCNN是一个专为音频信号设计的卷积神经网络,它包含一个特定的MFM(Mel-Frequency Magnitudes)层,用于有效筛选有助于验证的特征通道。

W2V2-LCNN:这个模型同样使用Mel-spectrogram作为输入,但前端特征是通过预训练的wav2vec2-XLS-R模型获得的1024维隐藏状态。这些状态被用作LCNN的输入,以利用wav2vec2-XLS-R的强大特征表示能力。

W2V2-AASIST:这个模型使用wav2vec2-XLS-R模型的预训练隐藏状态作为特征,但背骨网络(Backbone network)使用的是AASIST,这是一个在音频深度伪造检测领域中最先进的网络之一。AASIST引入了一种新颖的异构堆叠图注意力层,该层使用异构注意力机制和堆叠节点来模拟不同时间和频域上的特征。

5、实验设置和结果

5.1 实验设置

数据集:使用Codecfake数据集,该数据集包含1,058,216个音频样本,包括132,277个真实样本和925,939个由七种不同编解码方法生成的伪造样本。

训练/验证/测试集:将真实样本分为训练子集(105,821个样本)、开发子集(13,228个样本)和评估子集(13,228个样本)。同样,伪造音频也按照这些类别进行了划分。

基线模型:选择了三种基线模型进行评估,包括Mel-LCNN、W2V2-LCNN和W2V2-AASIST,这些模型使用梅尔频谱图(Mel-spectrogram)和预训练的wav2vec2-XLS-R模型的隐藏状态作为前端特征。

训练细节:所有音频样本首先被下采样到16,000 Hz,并裁剪或填充到4秒的时长。使用Adam优化器进行训练,学习率设置为5×10^-4,并在每个epoch后根据性能进行调整。

评估:使用官方实现的EER计算方法,并使用0.5的阈值来区分真实和伪造的预测。

5.2 结果

Vocoder-trained模型:使用ASVspoof2019LA(19LA)训练集训练的模型在19LA测试集上表现良好,但在Codecfake测试集上表现不佳,表明仅使用声码器训练的模型无法有效检测基于编解码器的音频。

Codec-trained模型:使用Codecfake训练集训练的模型在Codecfake测试条件C1-C7下表现显著提升,其中W2V2-AASIST模型在所有测试条件下平均EER最低,为0.177%。

不同编解码器设置的影响:通过改变编解码器的参数设置(如比特率和量化器),发现这些变化对反欺骗系统的性能影响不大。

ALM-based音频测试:评估了仅使用声码器训练的ADD模型对ALM-based音频的检测效果,发现在某些情况下(如A3)性能下降,这归因于OOD(Out-of-Distribution,即模型未见过的数据分布)问题。

通用ADD方法的对策:提出了一种共训练方法,结合声码器训练的音频和基于编解码器的音频,以确保检测模型在所有场景中表现良好。此外,使用了CSAM方法来优化模型的泛化能力。

CSAM策略的效果:在使用CSAM策略的共训练过程中,模型在所有测试条件下的平均EER最低,为0.616%,表明CSAM策略有效地提高了模型的泛化能力。

这篇关于深度伪造音频普遍检测的Codecfake数据集和对策的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/977941

相关文章

Python获取中国节假日数据记录入JSON文件

《Python获取中国节假日数据记录入JSON文件》项目系统内置的日历应用为了提升用户体验,特别设置了在调休日期显示“休”的UI图标功能,那么问题是这些调休数据从哪里来呢?我尝试一种更为智能的方法:P... 目录节假日数据获取存入jsON文件节假日数据读取封装完整代码项目系统内置的日历应用为了提升用户体验,

SpringCloud动态配置注解@RefreshScope与@Component的深度解析

《SpringCloud动态配置注解@RefreshScope与@Component的深度解析》在现代微服务架构中,动态配置管理是一个关键需求,本文将为大家介绍SpringCloud中相关的注解@Re... 目录引言1. @RefreshScope 的作用与原理1.1 什么是 @RefreshScope1.

Java利用JSONPath操作JSON数据的技术指南

《Java利用JSONPath操作JSON数据的技术指南》JSONPath是一种强大的工具,用于查询和操作JSON数据,类似于SQL的语法,它为处理复杂的JSON数据结构提供了简单且高效... 目录1、简述2、什么是 jsONPath?3、Java 示例3.1 基本查询3.2 过滤查询3.3 递归搜索3.4

MySQL大表数据的分区与分库分表的实现

《MySQL大表数据的分区与分库分表的实现》数据库的分区和分库分表是两种常用的技术方案,本文主要介绍了MySQL大表数据的分区与分库分表的实现,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有... 目录1. mysql大表数据的分区1.1 什么是分区?1.2 分区的类型1.3 分区的优点1.4 分

Mysql删除几亿条数据表中的部分数据的方法实现

《Mysql删除几亿条数据表中的部分数据的方法实现》在MySQL中删除一个大表中的数据时,需要特别注意操作的性能和对系统的影响,本文主要介绍了Mysql删除几亿条数据表中的部分数据的方法实现,具有一定... 目录1、需求2、方案1. 使用 DELETE 语句分批删除2. 使用 INPLACE ALTER T

Python 中的异步与同步深度解析(实践记录)

《Python中的异步与同步深度解析(实践记录)》在Python编程世界里,异步和同步的概念是理解程序执行流程和性能优化的关键,这篇文章将带你深入了解它们的差异,以及阻塞和非阻塞的特性,同时通过实际... 目录python中的异步与同步:深度解析与实践异步与同步的定义异步同步阻塞与非阻塞的概念阻塞非阻塞同步

Python Dash框架在数据可视化仪表板中的应用与实践记录

《PythonDash框架在数据可视化仪表板中的应用与实践记录》Python的PlotlyDash库提供了一种简便且强大的方式来构建和展示互动式数据仪表板,本篇文章将深入探讨如何使用Dash设计一... 目录python Dash框架在数据可视化仪表板中的应用与实践1. 什么是Plotly Dash?1.1

Redis 中的热点键和数据倾斜示例详解

《Redis中的热点键和数据倾斜示例详解》热点键是指在Redis中被频繁访问的特定键,这些键由于其高访问频率,可能导致Redis服务器的性能问题,尤其是在高并发场景下,本文给大家介绍Redis中的热... 目录Redis 中的热点键和数据倾斜热点键(Hot Key)定义特点应对策略示例数据倾斜(Data S

Python实现将MySQL中所有表的数据都导出为CSV文件并压缩

《Python实现将MySQL中所有表的数据都导出为CSV文件并压缩》这篇文章主要为大家详细介绍了如何使用Python将MySQL数据库中所有表的数据都导出为CSV文件到一个目录,并压缩为zip文件到... python将mysql数据库中所有表的数据都导出为CSV文件到一个目录,并压缩为zip文件到另一个

使用Python实现文本转语音(TTS)并播放音频

《使用Python实现文本转语音(TTS)并播放音频》在开发涉及语音交互或需要语音提示的应用时,文本转语音(TTS)技术是一个非常实用的工具,下面我们来看看如何使用gTTS和playsound库将文本... 目录什么是 gTTS 和 playsound安装依赖库实现步骤 1. 导入库2. 定义文本和语言 3