文献研读|AIGC溯源场景及研究进展

2024-04-04 22:44

本文主要是介绍文献研读|AIGC溯源场景及研究进展,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

前言:本文介绍关于AIGC生成阶段针对不同溯源场景的几篇相关工作。

如下图所示,在AIGC生成阶段,有4种溯源场景:

1)生成模型溯源训练数据
2)微调模型溯源预训练模型
3)AIGC溯源训练数据/训练概念
4)AIGC溯源生成模型
在这里插入图片描述
下面分别对不同溯源场景下的相关工作进行介绍。


目录

  • Detection and Attribtion of Models Trained on Generated Data. ICASSP, 2024.
  • Matching Pairs: Attributing Fine-Tuned Models to their Pre-Trained Large Language Models. ACL, 2023.
  • Evaluating Data Attribution for Text-to-Image Models. ICCV, 2023.
    • 数据集构建
    • 特征提取器训练
  • ProMark: Proactive Diffusion Watermarking for Causal Attribution. CVPR, 2024.
  • DE-FAKE: Detection and Attribution of Fake Images Generated by Text-to-Image Generation Models, CCS, 2023.


Detection and Attribtion of Models Trained on Generated Data. ICASSP, 2024.

Scenario: 生成模型溯源训练数据

RQ1:模型的训练数据为 real data / fake data?
RQ2:若模型的训练数据为 fake data,则由哪个 GAN 生成?

目标:判断 target model 的训练数据来源

核心思想:
Real dataset 分成:training data, probing dataset,testing data.

  1. 首先用 training data 训练 GANs,得到 GAN-generated data;
  2. 分别用 GAN-generated data 和 real data 训练 surrogate models 和 target models;
  3. 使用 probing dataset 探测 surrogate model 得到 output,用GAN数据训练的 surrogate model 的输出标签均为0,用真实数据训练的 surrogate model 的输出标签均为1,得到 binary dataset;
  4. 使用 binary dataset 训练 detector 。
  5. 使用 testing dataset 探测 target model 得到 output,如果该 target model 基于GAN数据训练,则其 output 送入 detector 的预测标签应该为0,否则应该为1.
    在这里插入图片描述

若为溯源问题,则对于步骤3:

  • Closed-World Attribution:binary dataset 改成多标签分类问题
  • Open-World Attribution:probing set 改为GAN生成数据,若probe image 和 model 训练使用的GAN数据来源一致,则标签为 1。

Matching Pairs: Attributing Fine-Tuned Models to their Pre-Trained Large Language Models. ACL, 2023.

Scenario: 微调模型溯源预训练模型
在这里插入图片描述
Code: https://github.com/IBM/model-attribution-in-machine-learning

核心思想:通过联合微调模型与预训练模型生成结果与提示词的特征,训练分类器,采用集成学习的方式确定微调模型对应的预训练模型。
在这里插入图片描述


Evaluating Data Attribution for Text-to-Image Models. ICCV, 2023.

Page: https://github.com/peterwang512/GenDataAttribution

Scenario: AIGC 溯源训练数据

核心思想:首先构建具有对应关系的溯源数据集,然后使用对比学习的方式,优化特征提取器。

在这里插入图片描述

数据集构建

在这里插入图片描述

特征提取器训练

在这里插入图片描述

特征提取器训练的目标是:使得具有对应关系的合成图像+范本图像距离更近,而无对应关系的合成图像+范本图像距离更远。具体使用对比学习损失来进行训练。


ProMark: Proactive Diffusion Watermarking for Causal Attribution. CVPR, 2024.

Scenario: AIGC 溯源训练概念(概念水印)
在这里插入图片描述

核心思想:使用水印嵌入的方式,实现概念水印的嵌入和提取。

在这里插入图片描述


DE-FAKE: Detection and Attribution of Fake Images Generated by Text-to-Image Generation Models, CCS, 2023.

Scenario: AIGC 溯源生成模型

在这里插入图片描述

核心思想:训练二/多分类器,溯源生成模型。

(1)Image-Only: image 特征提取,后训练(ResNet-18)
(2)Hybrid: image 和 prompt 的特征联合提取拼接,后训练(CLIP+MLP)

在这里插入图片描述


参考文献

  1. Han G, Salem A, Li Z, et al. Detection and Attribution of Models Trained on Generated Data. ICASSP, 2024.
  2. Foley M, Rawat A, Lee T, et al. Matching Pairs: Attributing Fine-Tuned Models to their Pre-Trained Large Language Models. ACL, 2023.
  3. Wang S Y, Efros A A, Zhu J Y, et al. Evaluating data attribution for text-to-image models. ICCV, 2023.
  4. Asnani V, Collomosse J, Bui T, et al. ProMark: Proactive Diffusion Watermarking for Causal Attribution. CVPR, 2024.
  5. Sha Z, Li Z, Yu N, et al. De-fake: Detection and attribution of fake images generated by text-to-image generation models. CCS, 2023.

这篇关于文献研读|AIGC溯源场景及研究进展的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/877003

相关文章

JavaScript中的reduce方法执行过程、使用场景及进阶用法

《JavaScript中的reduce方法执行过程、使用场景及进阶用法》:本文主要介绍JavaScript中的reduce方法执行过程、使用场景及进阶用法的相关资料,reduce是JavaScri... 目录1. 什么是reduce2. reduce语法2.1 语法2.2 参数说明3. reduce执行过程

JavaScript中的isTrusted属性及其应用场景详解

《JavaScript中的isTrusted属性及其应用场景详解》在现代Web开发中,JavaScript是构建交互式应用的核心语言,随着前端技术的不断发展,开发者需要处理越来越多的复杂场景,例如事件... 目录引言一、问题背景二、isTrusted 属性的来源与作用1. isTrusted 的定义2. 为

Python调用另一个py文件并传递参数常见的方法及其应用场景

《Python调用另一个py文件并传递参数常见的方法及其应用场景》:本文主要介绍在Python中调用另一个py文件并传递参数的几种常见方法,包括使用import语句、exec函数、subproce... 目录前言1. 使用import语句1.1 基本用法1.2 导入特定函数1.3 处理文件路径2. 使用ex

Linux alias的三种使用场景方式

《Linuxalias的三种使用场景方式》文章介绍了Linux中`alias`命令的三种使用场景:临时别名、用户级别别名和系统级别别名,临时别名仅在当前终端有效,用户级别别名在当前用户下所有终端有效... 目录linux alias三种使用场景一次性适用于当前用户全局生效,所有用户都可调用删除总结Linux

Mysql虚拟列的使用场景

《Mysql虚拟列的使用场景》MySQL虚拟列是一种在查询时动态生成的特殊列,它不占用存储空间,可以提高查询效率和数据处理便利性,本文给大家介绍Mysql虚拟列的相关知识,感兴趣的朋友一起看看吧... 目录1. 介绍mysql虚拟列1.1 定义和作用1.2 虚拟列与普通列的区别2. MySQL虚拟列的类型2

在MyBatis的XML映射文件中<trim>元素所有场景下的完整使用示例代码

《在MyBatis的XML映射文件中<trim>元素所有场景下的完整使用示例代码》在MyBatis的XML映射文件中,trim元素用于动态添加SQL语句的一部分,处理前缀、后缀及多余的逗号或连接符,示... 在MyBATis的XML映射文件中,<trim>元素用于动态地添加SQL语句的一部分,例如SET或W

VUE动态绑定class类的三种常用方式及适用场景详解

《VUE动态绑定class类的三种常用方式及适用场景详解》文章介绍了在实际开发中动态绑定class的三种常见情况及其解决方案,包括根据不同的返回值渲染不同的class样式、给模块添加基础样式以及根据设... 目录前言1.动态选择class样式(对象添加:情景一)2.动态添加一个class样式(字符串添加:情

java中VO PO DTO POJO BO DO对象的应用场景及使用方式

《java中VOPODTOPOJOBODO对象的应用场景及使用方式》文章介绍了Java开发中常用的几种对象类型及其应用场景,包括VO、PO、DTO、POJO、BO和DO等,并通过示例说明了它... 目录Java中VO PO DTO POJO BO DO对象的应用VO (View Object) - 视图对象

Python中异常类型ValueError使用方法与场景

《Python中异常类型ValueError使用方法与场景》:本文主要介绍Python中的ValueError异常类型,它在处理不合适的值时抛出,并提供如何有效使用ValueError的建议,文中... 目录前言什么是 ValueError?什么时候会用到 ValueError?场景 1: 转换数据类型场景

python中的与时间相关的模块应用场景分析

《python中的与时间相关的模块应用场景分析》本文介绍了Python中与时间相关的几个重要模块:`time`、`datetime`、`calendar`、`timeit`、`pytz`和`dateu... 目录1. time 模块2. datetime 模块3. calendar 模块4. timeit