文献研读|AIGC溯源场景及研究进展

2024-04-04 22:44

本文主要是介绍文献研读|AIGC溯源场景及研究进展,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

前言:本文介绍关于AIGC生成阶段针对不同溯源场景的几篇相关工作。

如下图所示,在AIGC生成阶段,有4种溯源场景:

1)生成模型溯源训练数据
2)微调模型溯源预训练模型
3)AIGC溯源训练数据/训练概念
4)AIGC溯源生成模型
在这里插入图片描述
下面分别对不同溯源场景下的相关工作进行介绍。


目录

  • Detection and Attribtion of Models Trained on Generated Data. ICASSP, 2024.
  • Matching Pairs: Attributing Fine-Tuned Models to their Pre-Trained Large Language Models. ACL, 2023.
  • Evaluating Data Attribution for Text-to-Image Models. ICCV, 2023.
    • 数据集构建
    • 特征提取器训练
  • ProMark: Proactive Diffusion Watermarking for Causal Attribution. CVPR, 2024.
  • DE-FAKE: Detection and Attribution of Fake Images Generated by Text-to-Image Generation Models, CCS, 2023.


Detection and Attribtion of Models Trained on Generated Data. ICASSP, 2024.

Scenario: 生成模型溯源训练数据

RQ1:模型的训练数据为 real data / fake data?
RQ2:若模型的训练数据为 fake data,则由哪个 GAN 生成?

目标:判断 target model 的训练数据来源

核心思想:
Real dataset 分成:training data, probing dataset,testing data.

  1. 首先用 training data 训练 GANs,得到 GAN-generated data;
  2. 分别用 GAN-generated data 和 real data 训练 surrogate models 和 target models;
  3. 使用 probing dataset 探测 surrogate model 得到 output,用GAN数据训练的 surrogate model 的输出标签均为0,用真实数据训练的 surrogate model 的输出标签均为1,得到 binary dataset;
  4. 使用 binary dataset 训练 detector 。
  5. 使用 testing dataset 探测 target model 得到 output,如果该 target model 基于GAN数据训练,则其 output 送入 detector 的预测标签应该为0,否则应该为1.
    在这里插入图片描述

若为溯源问题,则对于步骤3:

  • Closed-World Attribution:binary dataset 改成多标签分类问题
  • Open-World Attribution:probing set 改为GAN生成数据,若probe image 和 model 训练使用的GAN数据来源一致,则标签为 1。

Matching Pairs: Attributing Fine-Tuned Models to their Pre-Trained Large Language Models. ACL, 2023.

Scenario: 微调模型溯源预训练模型
在这里插入图片描述
Code: https://github.com/IBM/model-attribution-in-machine-learning

核心思想:通过联合微调模型与预训练模型生成结果与提示词的特征,训练分类器,采用集成学习的方式确定微调模型对应的预训练模型。
在这里插入图片描述


Evaluating Data Attribution for Text-to-Image Models. ICCV, 2023.

Page: https://github.com/peterwang512/GenDataAttribution

Scenario: AIGC 溯源训练数据

核心思想:首先构建具有对应关系的溯源数据集,然后使用对比学习的方式,优化特征提取器。

在这里插入图片描述

数据集构建

在这里插入图片描述

特征提取器训练

在这里插入图片描述

特征提取器训练的目标是:使得具有对应关系的合成图像+范本图像距离更近,而无对应关系的合成图像+范本图像距离更远。具体使用对比学习损失来进行训练。


ProMark: Proactive Diffusion Watermarking for Causal Attribution. CVPR, 2024.

Scenario: AIGC 溯源训练概念(概念水印)
在这里插入图片描述

核心思想:使用水印嵌入的方式,实现概念水印的嵌入和提取。

在这里插入图片描述


DE-FAKE: Detection and Attribution of Fake Images Generated by Text-to-Image Generation Models, CCS, 2023.

Scenario: AIGC 溯源生成模型

在这里插入图片描述

核心思想:训练二/多分类器,溯源生成模型。

(1)Image-Only: image 特征提取,后训练(ResNet-18)
(2)Hybrid: image 和 prompt 的特征联合提取拼接,后训练(CLIP+MLP)

在这里插入图片描述


参考文献

  1. Han G, Salem A, Li Z, et al. Detection and Attribution of Models Trained on Generated Data. ICASSP, 2024.
  2. Foley M, Rawat A, Lee T, et al. Matching Pairs: Attributing Fine-Tuned Models to their Pre-Trained Large Language Models. ACL, 2023.
  3. Wang S Y, Efros A A, Zhu J Y, et al. Evaluating data attribution for text-to-image models. ICCV, 2023.
  4. Asnani V, Collomosse J, Bui T, et al. ProMark: Proactive Diffusion Watermarking for Causal Attribution. CVPR, 2024.
  5. Sha Z, Li Z, Yu N, et al. De-fake: Detection and attribution of fake images generated by text-to-image generation models. CCS, 2023.

这篇关于文献研读|AIGC溯源场景及研究进展的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/877003

相关文章

ModelMapper基本使用和常见场景示例详解

《ModelMapper基本使用和常见场景示例详解》ModelMapper是Java对象映射库,支持自动映射、自定义规则、集合转换及高级配置(如匹配策略、转换器),可集成SpringBoot,减少样板... 目录1. 添加依赖2. 基本用法示例:简单对象映射3. 自定义映射规则4. 集合映射5. 高级配置匹

python中Hash使用场景分析

《python中Hash使用场景分析》Python的hash()函数用于获取对象哈希值,常用于字典和集合,不可变类型可哈希,可变类型不可,常见算法包括除法、乘法、平方取中和随机数哈希,各有优缺点,需根... 目录python中的 Hash除法哈希算法乘法哈希算法平方取中法随机数哈希算法小结在Python中,

Python主动抛出异常的各种用法和场景分析

《Python主动抛出异常的各种用法和场景分析》在Python中,我们不仅可以捕获和处理异常,还可以主动抛出异常,也就是以类的方式自定义错误的类型和提示信息,这在编程中非常有用,下面我将详细解释主动抛... 目录一、为什么要主动抛出异常?二、基本语法:raise关键字基本示例三、raise的多种用法1. 抛

Spring组件实例化扩展点之InstantiationAwareBeanPostProcessor使用场景解析

《Spring组件实例化扩展点之InstantiationAwareBeanPostProcessor使用场景解析》InstantiationAwareBeanPostProcessor是Spring... 目录一、什么是InstantiationAwareBeanPostProcessor?二、核心方法解

Java 枚举的基本使用方法及实际使用场景

《Java枚举的基本使用方法及实际使用场景》枚举是Java中一种特殊的类,用于定义一组固定的常量,枚举类型提供了更好的类型安全性和可读性,适用于需要定义一组有限且固定的值的场景,本文给大家介绍Jav... 目录一、什么是枚举?二、枚举的基本使用方法定义枚举三、实际使用场景代替常量状态机四、更多用法1.实现接

java -jar命令运行 jar包时运行外部依赖jar包的场景分析

《java-jar命令运行jar包时运行外部依赖jar包的场景分析》:本文主要介绍java-jar命令运行jar包时运行外部依赖jar包的场景分析,本文给大家介绍的非常详细,对大家的学习或工作... 目录Java -jar命令运行 jar包时如何运行外部依赖jar包场景:解决:方法一、启动参数添加: -Xb

C/C++ chrono简单使用场景示例详解

《C/C++chrono简单使用场景示例详解》:本文主要介绍C/C++chrono简单使用场景示例详解,本文通过实例代码给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的朋友... 目录chrono使用场景举例1 输出格式化字符串chrono使用场景China编程举例1 输出格式化字符串示

Java集成Onlyoffice的示例代码及场景分析

《Java集成Onlyoffice的示例代码及场景分析》:本文主要介绍Java集成Onlyoffice的示例代码及场景分析,本文给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要... 需求场景:实现文档的在线编辑,团队协作总结:两个接口 + 前端页面 + 配置项接口1:一个接口,将o

Python Flask 库及应用场景

《PythonFlask库及应用场景》Flask是Python生态中​轻量级且高度灵活的Web开发框架,基于WerkzeugWSGI工具库和Jinja2模板引擎构建,下面给大家介绍PythonFl... 目录一、Flask 库简介二、核心组件与架构三、常用函数与核心操作 ​1. 基础应用搭建​2. 路由与参

IDEA实现回退提交的git代码(四种常见场景)

《IDEA实现回退提交的git代码(四种常见场景)》:本文主要介绍IDEA实现回退提交的git代码(四种常见场景),具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录1.已提交commit,还未push到远端(Undo Commit)2.已提交commit并push到