对Whisper模型的静音攻击

本文主要是介绍对Whisper模型的静音攻击，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

针对Whisper模型的静音攻击方法主要针对基于Transformer的自动语音识别系统，特别是Whisper系列模型。其有效性主要基于Whisper模型使用了一些“特殊标记”来指导语言生成过程，如标记表示转录结束。我们可以通过在目标语音信号前添加一个通用短音频段，模拟标记的声学实现，从而成功“静音”Whisper模型。

1、针对Whisper模型的静音攻击步骤

确定攻击目标：攻击的目标是使Whisper模型在解码时忽略语音内容，只转录特殊标记，从而生成空白的转录结果。
构建损失函数：定义损失函数来最大化模型生成标记的概率，即最大化P(y1=|x, y0)。
生成对抗样本：利用梯度下降法来优化这个损失函数，学习一个长度为0.64秒的对抗音频段x’，这个音频段将作为对抗样本。
前置到语音信号：将学习得到的对抗音频段x’前置到任意语音信号x之前，形成新的输入信号x’⊕x。
攻击效果：当Whisper模型处理这个新的输入信号时，由于对抗音频段的影响，模型会生成标记作为第一个输出，从而忽略了后续的语音内容，实现静音攻击。
优化和约束：为了确保对抗音频段对人耳不可感知，需要对音频段的长度和幅度进行限制，如限制音频段长度为0.64秒，幅度不超过0.02（在log mel谱上）

2、不同环境下的攻击效果

同域数据集：在相同的数据域下，即使用LibriSpeech数据集进行训练和测试，攻击成功率超过97%。
跨域数据集：在不同域的数据集上，攻击的成功率略有下降，但在多个不同的数据集上（TED-LIUM、MGB和Artie Bias）仍可达到90%以上。
跨任务测试：将训练好的对抗样本应用于语音翻译任务，发现对于小模型（如Whisper tiny）的攻击成功率仍然很高（94%以上），但大模型（如Whisper base和small）的攻击成功率明显下降。
语言距离：对于源语言与英语距离较远的语言（如德语和俄语），攻击的成功率更低。这表明对抗样本的通用性在一定程度上受到语言距离的影响。