论文研读|TextBack: Watermarking Text Classifiers using Backdooring

本文主要是介绍论文研读|TextBack: Watermarking Text Classifiers using Backdooring,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

在这里插入图片描述

目录

  • 论文信息
  • 文章简介
  • 研究动机
  • 研究方法
    • 水印生成
    • 水印嵌入
    • 版权验证
  • 实验结果
    • 保真度 & 有效性
    • 消融实验
  • 方法评估
  • 相关文献


论文信息

论文名称:TextBack: Watermarking Text Classifiers using Backdooring
作者:Nandish Chattopadhyay, et al. Nanyang Technological University Singapore
发表年份:2022
发表会议:DSD
开源代码:无

文章简介

本文提出一种使用黑盒水印方式保护文本分类模型的方法。通过构建触发集,将其混入干净训练数据微调预训练模型,嵌入水印。(不使用基于FromScratch的方法从头开始训练模型是为了减少不必要的计算资源浪费)

研究动机

现有的模型水印及其攻击方法主要围绕CV领域展开[5,13],而对于自然语言处理领域的模型保护仍处于起步阶段。基于此,本文借鉴后门攻击的思想,提出一种保护文本分类模型的黑盒水印方法。

研究方法

水印生成

本文介绍了两种触发集构造方法:(1)训练数据内选取触发样本(Intra-domain);(2)训练数据外选取触发样本(Inter-domain)。对选取出的触发集样本,保持文本不变,只修改标签为水印标签,实现了clean-text的触发集构建。

水印嵌入

首先使用干净训练数据训练模型得到预训练模型,然后将使用上述方式构建好的触发集其混入干净训练数据微调预训练模型,嵌入水印。 Figure 3 和 Figure 4 分别展示了通过 Intra-domain 和 Inter-domain 构造触发集并进行水印嵌入的流程。

在这里插入图片描述
在这里插入图片描述

版权验证

将触发集中的样本输入待检测模型中,若模型的预测准确率超过一定阈值,则认为该模型含有水印。

实验结果

本文在 IMDB 和 Twitter 两个数据集上进行了测试。选取 vanilla RNN 和 LSTM 作为测试模型。文章首先给出了不含水印模型在原始测试集和触发集上的测试性能,说明不含水印模型无法达到版权验证的效目的。
在这里插入图片描述
5在这里插入图片描述

保真度 & 有效性

在这里插入图片描述
在这里插入图片描述

消融实验

本实验验证了在微调阶段,clean samples 的数量对于模型预测结果的影响,可以看到,微调时必须混入足够数量的clean samples,才能保证原始任务的精度。

在这里插入图片描述
在这里插入图片描述

方法评估

这个方法是把[13]中的方法CV迁移到NLP中,文章出自同一个团队,图也大差不差……而且触发集的构造方式也没有多少新意,和这篇文章中clean-image+label change的思路类似,只不过这里是clean-text+label change;此外,internal & external 借鉴这篇文章中触发集的构造思路,分别从训练数据内外选取触发样本进行修改。而且本文没有展示鲁棒性实验,不清楚这种方法对于剪枝和微调等攻击手段的鲁棒性。

相关文献

[5] H. Chen, B. D. Rouhani, and F. Koushanfar, “Blackmarks: Blackbox multibit watermarking for deep neural networks,” arXiv preprint arXiv:1904.00344, 2019.
[6] H. Chen, B. D. Rohani, and F. Koushanfar, “Deepmarks: a digital fingerprinting framework for deep neural networks,” ICMR, 2019.
[7] B. D. Rouhani, H. Chen, and F. Koushanfar, “Deepsigns: A generic watermarking framework for protecting the ownership of deep learning models.” ASPLOS, 2019.
[8] S. Szyller, B. G. Atli, S. Marchal, and N. Asokan, “Dawn: Dynamic adversarial watermarking of neural networks,” ACM Multimedia, 2021.
[9] H. Chen, C. Fu, J. Zhao, and F. Koushanfar, “Deepinspect: A black-box trojan detection and mitigation framework for deep neural networks.” in IJCAI, 2019, pp. 4658–4664.
[10] W. Guo, L. Wang, X. Xing, M. Du, and D. Song, “Tabor: A highly accurate approach to inspecting and restoring trojan backdoors in ai systems,” arXiv preprint arXiv:1908.01763, 2019.
[11] N. Chattopadhyay, C. S. Y. Viroy, and A. Chattopadhyay, “Re-markable: Stealing watermarked neural networks through synthesis,” in International Conference on Security, Privacy, and Applied Cryptography
Engineering. Springer, 2020, pp. 46–65.
[12] Y. Adi, C. Baum, M. Cisse, B. Pinkas, and J. Keshet, “Turning your weakness into a strength: Watermarking deep neural networks by backdooring,” USENIX, 2018.
[13] N. Chattopadhyay and A. Chattopadhyay, “Rowback: Robust watermarking for neural networks using backdoors,” in 2021 20th IEEE International Conference on Machine Learning and Applications (ICMLA). IEEE, 2021, pp. 1728–1735.

这篇关于论文研读|TextBack: Watermarking Text Classifiers using Backdooring的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/229413

相关文章

AI hospital 论文Idea

一、Benchmarking Large Language Models on Communicative Medical Coaching: A Dataset and a Novel System论文地址含代码 大多数现有模型和工具主要迎合以患者为中心的服务。这项工作深入探讨了LLMs在提高医疗专业人员的沟通能力。目标是构建一个模拟实践环境,人类医生(即医学学习者)可以在其中与患者代理进行医学

论文翻译:arxiv-2024 Benchmark Data Contamination of Large Language Models: A Survey

Benchmark Data Contamination of Large Language Models: A Survey https://arxiv.org/abs/2406.04244 大规模语言模型的基准数据污染:一项综述 文章目录 大规模语言模型的基准数据污染:一项综述摘要1 引言 摘要 大规模语言模型(LLMs),如GPT-4、Claude-3和Gemini的快

论文阅读笔记: Segment Anything

文章目录 Segment Anything摘要引言任务模型数据引擎数据集负责任的人工智能 Segment Anything Model图像编码器提示编码器mask解码器解决歧义损失和训练 Segment Anything 论文地址: https://arxiv.org/abs/2304.02643 代码地址:https://github.com/facebookresear

论文翻译:ICLR-2024 PROVING TEST SET CONTAMINATION IN BLACK BOX LANGUAGE MODELS

PROVING TEST SET CONTAMINATION IN BLACK BOX LANGUAGE MODELS https://openreview.net/forum?id=KS8mIvetg2 验证测试集污染在黑盒语言模型中 文章目录 验证测试集污染在黑盒语言模型中摘要1 引言 摘要 大型语言模型是在大量互联网数据上训练的,这引发了人们的担忧和猜测,即它们可能已

OmniGlue论文详解(特征匹配)

OmniGlue论文详解(特征匹配) 摘要1. 引言2. 相关工作2.1. 广义局部特征匹配2.2. 稀疏可学习匹配2.3. 半稠密可学习匹配2.4. 与其他图像表示匹配 3. OmniGlue3.1. 模型概述3.2. OmniGlue 细节3.2.1. 特征提取3.2.2. 利用DINOv2构建图形。3.2.3. 信息传播与新的指导3.2.4. 匹配层和损失函数3.2.5. 与Super

BERT 论文逐段精读【论文精读】

BERT: 近 3 年 NLP 最火 CV: 大数据集上的训练好的 NN 模型,提升 CV 任务的性能 —— ImageNet 的 CNN 模型 NLP: BERT 简化了 NLP 任务的训练,提升了 NLP 任务的性能 BERT 如何站在巨人的肩膀上的?使用了哪些 NLP 已有的技术和思想?哪些是 BERT 的创新? 1标题 + 作者 BERT: Pre-trainin

【Python报错已解决】AttributeError: ‘list‘ object has no attribute ‘text‘

🎬 鸽芷咕:个人主页  🔥 个人专栏: 《C++干货基地》《粉丝福利》 ⛺️生活的理想,就是为了理想的生活! 文章目录 前言一、问题描述1.1 报错示例1.2 报错分析1.3 解决思路 二、解决方法2.1 方法一:检查属性名2.2 步骤二:访问列表元素的属性 三、其他解决方法四、总结 前言 在Python编程中,属性错误(At

[论文笔记]LLM.int8(): 8-bit Matrix Multiplication for Transformers at Scale

引言 今天带来第一篇量化论文LLM.int8(): 8-bit Matrix Multiplication for Transformers at Scale笔记。 为了简单,下文中以翻译的口吻记录,比如替换"作者"为"我们"。 大语言模型已被广泛采用,但推理时需要大量的GPU内存。我们开发了一种Int8矩阵乘法的过程,用于Transformer中的前馈和注意力投影层,这可以将推理所需

2024 年高教社杯全国大学生数学建模竞赛 C 题 农作物的种植策略 参考论文 无水印

持续更新中,2024年数学建模比赛思路代码论文都会发布到专栏内,只需订阅一次!  完整论文+代码+数据结果链接在文末!  订阅后可查看参考论文文件 第一问 1.1 问题重述 这个问题围绕的是华北山区的某乡村,在有限的耕地条件下,如何制定最优的农作物种植策略。乡村有 34 块露天耕地和 20 个大棚,种植条件包括粮食作物、蔬菜、水稻和食用菌。除了要考虑地块的面积、种植季节等,还要确保

论文精读-Supervised Raw Video Denoising with a Benchmark Dataset on Dynamic Scenes

论文精读-Supervised Raw Video Denoising with a Benchmark Dataset on Dynamic Scenes 优势 1、构建了一个用于监督原始视频去噪的基准数据集。为了多次捕捉瞬间,我们手动为对象s创建运动。在高ISO模式下捕获每一时刻的噪声帧,并通过对多个噪声帧进行平均得到相应的干净帧。 2、有效的原始视频去噪网络(RViDeNet),通过探