论文阅读_AI生成检测_Ghostbuster

2023-12-02 01:04

本文主要是介绍论文阅读_AI生成检测_Ghostbuster,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

英文名称: Ghostbuster: Detecting Text Ghostwritten by Large Language Models
中文名称: 捉鬼人:检测大语言模型生成的文本
文章: http://arxiv.org/abs/2305.15047
代码: https://github.com/vivek3141/ghostbuster
作者: Vivek Verma,Eve Fleisig,Nicholas Tomlin,Dan Klein
日期: 2023-11-13

1 摘要

提出了 Ghostbuster,一种用于检测 AI 生成文本的最先进系统。该方法将文档通过一系列较弱的语言模型,对其特征的可能组合进行结构化搜索,然后训练一个分类器来预测文档是否为 AI 生成的。对于检测黑盒模型或未知模型生成的文本非常有用。并发布了三个新的数据集,可作为学生论文、创意写作和新闻文章领域的检测基准

2 读后感

通过文章分析,可以看到人工文件与生成文本的主要差异,检测时主要的难点,以及自动生成检测的使用场景和注意事项;并且对比了工具和人类的分辨能力。

从方法上看难度不大,主要组合了现有模型,综合了它们的优势,其中比较有巧思的在特征组合和选择的算法设计(缩减向量维度时可作参考);从实验结果和分析中可以看到,不同子方法的重要程度和产生的效果。

3 引言

由于语言模型容易出现事实错误和幻觉,读者可能希望知道是否在新闻文章或其他信息性文本中使用了这样的工具,以决定是否信任来源

目前已经提出的几种检测框架常会将真实作品错误地标记为 AI 生成的作品;特别是将非英语为母语的文本常被标记为 AI 生成的。

文中提出了 Ghostbuster,将人工撰写和 AI 生成的文档通过一系列较弱的语言模型,从 unigram 模型到未经指导调整的 GPT-3 模型进行处理。给定这些模型的词概率,然后在将这些概率组合成一组特征,可在固定空间中进行搜索。最后,将这些特征输入线性分类器进行分类。

人工智能生成的文本与人类撰写的文本存在质量上的差异,虽然志愿者通常认为 ChatGPT 的回答比人类的更有帮助,但 ChatGPT 的回答仍更正式、更严格,并使用更多的连词。

本文主要关注由语言模型生成整段或整个文档的情况,对有针对性的攻击有待未来实现。

4 数据集

论文收集了三个新的数据集,用于对创意写作、新闻和学生论文的 AI 生成文本检测进行基准测试。

创意写作人工文件基于创作故事的论坛(2022 年 10 月前 50 名发帖者的数据),抓取了每个用户的最后 100 篇帖子;新闻数据集基于路透社数据集,其中包含 50 名记者撰写的 5000 篇新闻文章;学生论文数据集基于IvyPanda 的论文,其中包括高中和大学水平的各个学科的论文。然后收集了与人工撰写文本相对应的 ChatGPT 生成文本,所有的训练数据都使用 gpt-3.5-turbo 生成

5 模型

Ghostbuster 的主要目标是训练一个具有强大泛化能力的辨别模型,能够适应各种分布变化,包括不同的文本领域、提示和模型。

它使用了两个基准模型,使用困惑度的模型和基于RoBERTa的模型,使用上述语言模型的文档概率的组合特征来对文档进行分类,这种方法比仅使用困惑度的方法具有更大的表达能力,同时对领域变化具有更强的鲁棒性。

Ghostbuster 使用以下三阶段的训练过程:

5.1 概率计算

方法使用了一个 unigram fertility 模型、一个 Kneser-Ney trigram 模型和两个早期的 GPT-3 模型(ada 和 davinci,未引导精调)来获取概率。模型训练细节见附录 B。

5.2 特征选择

算法一用于查找所有可能有用的特征,其中 p 是之前的特征,V 是子模型输出的向量,标量函数 Fs,向量函数 Fv:

标量函数(长度均值等)将向量转换为标量,向量函数(加减乘除等)将两个向量合并为一个。具体的向量和标量函数共 13 个,见表 -9:

将训练文档转换为一系列 token 概率向量,由于文档的长度不同,向量不能直接输入分类模型,这里使用了构造特征再筛选特征的方法,最终产生固定数量的标量来表示文档。

调用算法 1 运行了四次,以生成大量可能的特征。每次以每个模型的概率向量作为起始特征,并设置最大深度为 3。特征的形式是将三个任意的概率向量与向量函数组合起来,然后将它们缩减为标量。

这种方法定义了一个结构化的搜索空间(维数固定),其中只使用了有限的易于解释的特征作为我们分类模型的输入。

5.3 训练分类器

训练逻辑回归分类器,使用 L2 正则化;对概率的组合特征进行训练,还包括基于词长度和最大标记概率的七个附加特征(附录 C)。这些附加特征旨在融入关于 AI 生成文本的定性启发。

6 基线

文中模型是一个线性分类器,根据训练集学习一个阈值参数。此外,还在相同的数据上对一个基于 RoBERTa 的有监督模型进行了微调。

另外,收集了人工注释来验证数据集的难度,并提供一个人类基准线。随机选择了 6 名本科生和博士生,他们之前有使用文本生成模型的经验,要求他们标记这些文档是由人类还是 AI 撰写的。平均人类准确率为 59%(最高 80%,最低 34%)。

7 结果

从表 -2 中可以看到 Ghostbuster 在领域内和领域外的评估效果。

从表 -3 中可以看到,Ghostbuster 性能不受提示策略风格的影响;在 ChatGPT 上训练的模型在 Claude 上效果略下降,但也能达到 92.2;

8 分析

消融实验结果如下:

消融实验结果表明结构化搜索和使用神经 LLM 的概率对性能至关重要(领域外更重要);在不同扰动下编辑文章,评测模型鲁棒性(是否可以通过简单地拼写错误或添加无意义的标记来规避检测),发现大多数全局编辑对性能影响不大,而需要大量局部编辑才能欺骗模型;在较短的文档上分析性能时,文章越长效果越好,在超过 100 个 token 的文档上通常更可靠。

9 伦理与限制

Ghostbuster 的错误预测可能特别容易出现在较短的文本、与 Ghostbuster 训练的领域更远的领域(如短信)、英语标准美式或英式以外的英语变体或非英语语言的文本、非英语母语者撰写的文本、由人类编辑或改写的 AI 生成文本,以及通过提示 AI 模型进行改写或调整人类输入生成的文本。

建议在人类监督下谨慎使用 Ghostbuster,不同应用场景下,对检测器的假阳性和假阴性率之间进行权衡。例如,在检测学生论文是否由 AI 生成时,需要优先降低假阳性的风险,以避免错误指控学生行为不端。而在其他场合,假阳性可能不那么严重。例如,检测器用于防止 AI 生成的文本被用于语言模型训练数据,或者标记网络上可能由 AI 生成的内容。

这篇关于论文阅读_AI生成检测_Ghostbuster的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/443369

相关文章

Spring AI集成DeepSeek的详细步骤

《SpringAI集成DeepSeek的详细步骤》DeepSeek作为一款卓越的国产AI模型,越来越多的公司考虑在自己的应用中集成,对于Java应用来说,我们可以借助SpringAI集成DeepSe... 目录DeepSeek 介绍Spring AI 是什么?1、环境准备2、构建项目2.1、pom依赖2.2

Python如何实现PDF隐私信息检测

《Python如何实现PDF隐私信息检测》随着越来越多的个人信息以电子形式存储和传输,确保这些信息的安全至关重要,本文将介绍如何使用Python检测PDF文件中的隐私信息,需要的可以参考下... 目录项目背景技术栈代码解析功能说明运行结php果在当今,数据隐私保护变得尤为重要。随着越来越多的个人信息以电子形

Deepseek R1模型本地化部署+API接口调用详细教程(释放AI生产力)

《DeepseekR1模型本地化部署+API接口调用详细教程(释放AI生产力)》本文介绍了本地部署DeepSeekR1模型和通过API调用将其集成到VSCode中的过程,作者详细步骤展示了如何下载和... 目录前言一、deepseek R1模型与chatGPT o1系列模型对比二、本地部署步骤1.安装oll

浅析如何使用Swagger生成带权限控制的API文档

《浅析如何使用Swagger生成带权限控制的API文档》当涉及到权限控制时,如何生成既安全又详细的API文档就成了一个关键问题,所以这篇文章小编就来和大家好好聊聊如何用Swagger来生成带有... 目录准备工作配置 Swagger权限控制给 API 加上权限注解查看文档注意事项在咱们的开发工作里,API

Spring AI Alibaba接入大模型时的依赖问题小结

《SpringAIAlibaba接入大模型时的依赖问题小结》文章介绍了如何在pom.xml文件中配置SpringAIAlibaba依赖,并提供了一个示例pom.xml文件,同时,建议将Maven仓... 目录(一)pom.XML文件:(二)application.yml配置文件(一)pom.xml文件:首

SpringBoot整合DeepSeek实现AI对话功能

《SpringBoot整合DeepSeek实现AI对话功能》本文介绍了如何在SpringBoot项目中整合DeepSeekAPI和本地私有化部署DeepSeekR1模型,通过SpringAI框架简化了... 目录Spring AI版本依赖整合DeepSeek API key整合本地化部署的DeepSeek

Java使用POI-TL和JFreeChart动态生成Word报告

《Java使用POI-TL和JFreeChart动态生成Word报告》本文介绍了使用POI-TL和JFreeChart生成包含动态数据和图表的Word报告的方法,并分享了实际开发中的踩坑经验,通过代码... 目录前言一、需求背景二、方案分析三、 POI-TL + JFreeChart 实现3.1 Maven

PyCharm接入DeepSeek实现AI编程的操作流程

《PyCharm接入DeepSeek实现AI编程的操作流程》DeepSeek是一家专注于人工智能技术研发的公司,致力于开发高性能、低成本的AI模型,接下来,我们把DeepSeek接入到PyCharm中... 目录引言效果演示创建API key在PyCharm中下载Continue插件配置Continue引言

MybatisGenerator文件生成不出对应文件的问题

《MybatisGenerator文件生成不出对应文件的问题》本文介绍了使用MybatisGenerator生成文件时遇到的问题及解决方法,主要步骤包括检查目标表是否存在、是否能连接到数据库、配置生成... 目录MyBATisGenerator 文件生成不出对应文件先在项目结构里引入“targetProje

SpringBoot使用Apache Tika检测敏感信息

《SpringBoot使用ApacheTika检测敏感信息》ApacheTika是一个功能强大的内容分析工具,它能够从多种文件格式中提取文本、元数据以及其他结构化信息,下面我们来看看如何使用Ap... 目录Tika 主要特性1. 多格式支持2. 自动文件类型检测3. 文本和元数据提取4. 支持 OCR(光学