伯克利研究院推出Ghostbuster用于检测由LLM代笔的文本

本文主要是介绍伯克利研究院推出Ghostbuster用于检测由LLM代笔的文本,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

Ghostbuster的架构,用于检测人工智能生成文本的最先进的新方法

像 ChatGPT 这样的大型语言模型写得非常好,但事实上,它们已经成为一个棘手的问题。学生们已经开始使用这些模型代写作业,导致一些学校禁止 ChatGPT。此外,这些模型也容易产生带有事实错误的文本,因此谨慎的读者可能想知道生成人工智能工具是否被用来代写新闻文章或其他来源,然后再相信它们。

教师和读者可以做些什么以应对?现有的检测人工智能生成文本的工具有时在处理与训练数据不同的数据时表现不佳。此外,如果这些模型错误地将真实的人类写作归类为人工智能生成的,它们可能会危及那些真实作品受到质疑的学生。

Ghostbuster,这是一种检测人工智能生成文本的最先进的方法。Ghostbuster 的工作原理是在几个较弱的语言模型下找到在文档中生成每个标记的概率,然后根据这些概率组合函数作为最终分类器的输入。Ghostbuster 不需要知道使用什么模型来生成文档,也不需要知道在该特定模型下生成文档的概率。这一特性使 Ghostbuster 对于检测可能由未知模型或黑盒模型生成的文本特别有用,例如流行的商业模型 ChatGPT 和 Claude,这些模型的概率不可用。我们特别感兴趣的是确保Ghostbuster 能够很好地概括,因此我们评估了文本生成的一系列方式,包括不同的领域(使用新收集的论文、新闻和故事数据集)、语言模型或提示。

人工创作和 AI 生成的文本示例

为什么采用这种方法

目前许多人工智能生成的文本检测系统很难对不同类型的文本进行分类(例如,不同的写作风格,或不同的文本生成模型或提示)。仅使用困惑的简单模型通常无法捕获更复杂的特征,并且在新的写作领域中表现尤其差。事实上,我们发现,在某些领域,包括非英语母语人士的数据,仅困惑的基线比随机基线更糟糕。同时,基于大型语言模型(如 RoBERTa)的分类器很容易捕获复杂的特征,但对训练数据拟合过度且泛化效果不佳:我们发现 RoBERTa 基线具有灾难性的最坏情况泛化性能,有时甚至比仅困惑的基线更差。零样本方法在不对标记数据进行训练的情况下,通过计算文本由特定模型生成的概率来对文本进行分类,当实际使用不同的模型生成文本时,也往往表现不佳。

Ghostbuster 的工作原理

Ghostbuster 使用三个阶段的训练过程:计算概率、选择特征、 和分类器训练。

计算概率:我们通过计算在一系列较弱的语言模型(一个单元模型、一个三元模型和两个非指令调优的 GPT-3 模型,ada 和 davinci)下生成文档中每个单词的概率,将每个文档转换为一系列向量。

选择特征:我们使用结构化搜索程序来选择特征,其工作原理是 (1) 定义一组组合概率的向量和标量运算,以及 (2) 使用正向特征选择搜索这些操作的有用组合,重复添加最佳剩余特征。

分类器训练:我们根据基于概率的最佳特征和一些额外的手动选择特征训练线性分类器

结果

当在同一领域进行训练和测试时,Ghostbuster 在所有三个数据集中都取得了 99.0 F1,比 GPTZero 高出 5.9 F1,比 DetectGPT 高出 41.6 F1。在域外,Ghostbuster 在所有条件下的平均 F1 为 97.0,比 DetectGPT 高出 39.6 F1,比 GPTZero 高出 7.5 F1。当在所有数据集上进行域内评估时,我们的 RoBERTa 基线达到了 98.1 F1,但其泛化性能不一致。Ghostbuster 在除创意写作领域外的所有领域都优于 RoBERTa 基线,并且平均而言,域外表现比 RoBERTa 好得多(13.8 F1 利润率)。

 

关于 Ghostbuster 域内和域外性能的结果

为了确保 Ghostbuster 对用户提示模型的一系列方式(例如请求不同的写作风格或阅读水平)具有鲁棒性,我们评估了 Ghostbuster 对几种提示变体的鲁棒性。Ghostbuster 以 99.5 F1 的成绩超越了这些提示变体的所有其他测试方法。为了测试跨模型的泛化性,我们评估了 Claude 生成的文本的性能,其中 Ghostbuster 的性能也优于所有其他测试方法的 92.2 F1。

AI 生成的文本检测器通过轻微编辑生成的文本而被愚弄。我们研究了 Ghostbuster 对编辑的鲁棒性,例如交换句子或段落、重新排序字符或用同义词替换单词。句子或段落级别的大多数更改不会显着影响性能,但如果通过重复释义、使用商业检测规避器(如 Undetectable AI)或进行大量单词或字符级别的更改来编辑文本,则性能会平稳下降。在较长的文档上,性能也最好。

由于人工智能生成的文本检测器可能会将非英语母语人士的文本错误地归类为人工智能生成的文本,因此我们评估了 Ghostbuster  在非英语母语人士写作方面的表现。所有测试的模型在三个测试数据集中的两个数据集上的准确率都超过95%,但在第三组较短的论文中表现更差。然而,文档长度可能是这里的主要因素,因为 Ghostbuster 在这些文档(74.7 F1)上的表现几乎与在类似长度的其他域外文档(75.6到93.1 F1)上的表现一样好。

希望将 Ghostbuster 应用于文本生成可能被禁止使用的真实案例(例如,ChatGPT 撰写的学生论文)的用户应注意,较短的文本、与 Ghostbuster 训练的领域相去甚远的领域(例如,不同种类的英语)、非英语母语人士的文本、人工编辑的模型生成或通过提示 AI 模型修改人类创作的输入生成的文本更有可能出现错误。为了避免算法上的危害,我们强烈反对在没有人工监督的情况下自动惩罚涉嫌使用文本生成的行为。相反,如果将某人的写作归类为 AI 生成可能会伤害他们,我们建议谨慎地、人机交互地使用 Ghostbuster 。Ghostbuster 还可以帮助处理各种低风险应用程序,包括从语言模型训练数据中过滤 AI 生成的文本,并检查在线信息源是否是 AI 生成的。

结论

Ghostbuster 是一种最先进的 AI 生成的文本检测模型,在测试领域中具有 99.0 F1 性能,与现有模型相比取得了实质性进展。它可以很好地泛化到不同的领域、提示和模型,并且非常适合从黑盒或未知模型中识别文本,因为它不需要访问用于生成文档的特定模型的概率。

Ghostbuster 的未来方向包括为模型决策提供解释,并提高对专门试图欺骗探测器的攻击的鲁棒性。人工智能生成的文本检测方法也可以与水印等替代方案一起使用。我们还希望 Ghostbuster 能够在各种应用程序中提供帮助,例如过滤语言模型训练数据或在网络上标记 AI 生成的内容。

源码:https://github.com/vivek3141/ghostbuster

这篇关于伯克利研究院推出Ghostbuster用于检测由LLM代笔的文本的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/691633

相关文章

综合安防管理平台LntonAIServer视频监控汇聚抖动检测算法优势

LntonAIServer视频质量诊断功能中的抖动检测是一个专门针对视频稳定性进行分析的功能。抖动通常是指视频帧之间的不必要运动,这种运动可能是由于摄像机的移动、传输中的错误或编解码问题导致的。抖动检测对于确保视频内容的平滑性和观看体验至关重要。 优势 1. 提高图像质量 - 清晰度提升:减少抖动,提高图像的清晰度和细节表现力,使得监控画面更加真实可信。 - 细节增强:在低光条件下,抖

烟火目标检测数据集 7800张 烟火检测 带标注 voc yolo

一个包含7800张带标注图像的数据集,专门用于烟火目标检测,是一个非常有价值的资源,尤其对于那些致力于公共安全、事件管理和烟花表演监控等领域的人士而言。下面是对此数据集的一个详细介绍: 数据集名称:烟火目标检测数据集 数据集规模: 图片数量:7800张类别:主要包含烟火类目标,可能还包括其他相关类别,如烟火发射装置、背景等。格式:图像文件通常为JPEG或PNG格式;标注文件可能为X

基于 YOLOv5 的积水检测系统:打造高效智能的智慧城市应用

在城市发展中,积水问题日益严重,特别是在大雨过后,积水往往会影响交通甚至威胁人们的安全。通过现代计算机视觉技术,我们能够智能化地检测和识别积水区域,减少潜在危险。本文将介绍如何使用 YOLOv5 和 PyQt5 搭建一个积水检测系统,结合深度学习和直观的图形界面,为用户提供高效的解决方案。 源码地址: PyQt5+YoloV5 实现积水检测系统 预览: 项目背景

JavaFX应用更新检测功能(在线自动更新方案)

JavaFX开发的桌面应用属于C端,一般来说需要版本检测和自动更新功能,这里记录一下一种版本检测和自动更新的方法。 1. 整体方案 JavaFX.应用版本检测、自动更新主要涉及一下步骤: 读取本地应用版本拉取远程版本并比较两个版本如果需要升级,那么拉取更新历史弹出升级控制窗口用户选择升级时,拉取升级包解压,重启应用用户选择忽略时,本地版本标志为忽略版本用户选择取消时,隐藏升级控制窗口 2.

微软正式推出 Spartan 斯巴达浏览器

作为用于替代 IE 浏览器的下一代继任者,微软的 Project Spartan 斯巴达浏览器可算是吊足了玩家们的胃口!如今,在最新的 Windows 10 Build 10049 版本起,它终于正式登场了。 斯巴达浏览器搭载了全新的渲染引擎、新的用户界面并集成了 Cortana 语音助手。功能上新增了稍后阅读列表、阅读视图、F12开发者工具、支持网页注释 (手写涂鸦),可以保存到 O

[数据集][目标检测]血细胞检测数据集VOC+YOLO格式2757张4类别

数据集格式:Pascal VOC格式+YOLO格式(不包含分割路径的txt文件,仅仅包含jpg图片以及对应的VOC格式xml文件和yolo格式txt文件) 图片数量(jpg文件个数):2757 标注数量(xml文件个数):2757 标注数量(txt文件个数):2757 标注类别数:4 标注类别名称:["Platelets","RBC","WBC","sickle cell"] 每个类别标注的框数:

[论文笔记]LLM.int8(): 8-bit Matrix Multiplication for Transformers at Scale

引言 今天带来第一篇量化论文LLM.int8(): 8-bit Matrix Multiplication for Transformers at Scale笔记。 为了简单,下文中以翻译的口吻记录,比如替换"作者"为"我们"。 大语言模型已被广泛采用,但推理时需要大量的GPU内存。我们开发了一种Int8矩阵乘法的过程,用于Transformer中的前馈和注意力投影层,这可以将推理所需

Level3 — PART 3 — 自然语言处理与文本分析

目录 自然语言处理概要 分词与词性标注 N-Gram 分词 分词及词性标注的难点 法则式分词法 全切分 FMM和BMM Bi-direction MM 优缺点 统计式分词法 N-Gram概率模型 HMM概率模型 词性标注(Part-of-Speech Tagging) HMM 文本挖掘概要 信息检索(Information Retrieval) 全文扫描 关键词

Temu官方宣导务必将所有的点位材料进行检测-RSL资质检测

关于饰品类产品合规问题宣导: 产品法规RSL要求 RSL测试是根据REACH法规及附录17的要求进行测试。REACH法规是欧洲一项重要的法规,其中包含许多对化学物质进行限制的规定和高度关注物质。 为了确保珠宝首饰的安全性,欧盟REACH法规规定,珠宝首饰上架各大电商平台前必须进行RSLReport(欧盟禁限用化学物质检测报告)资质认证,以确保产品不含对人体有害的化学物质。 RSL-铅,

LLM系列 | 38:解读阿里开源语音多模态模型Qwen2-Audio

引言 模型概述 模型架构 训练方法 性能评估 实战演示 总结 引言 金山挂月窥禅径,沙鸟听经恋法门。 小伙伴们好,我是微信公众号《小窗幽记机器学习》的小编:卖铁观音的小男孩,今天这篇小作文主要是介绍阿里巴巴的语音多模态大模型Qwen2-Audio。近日,阿里巴巴Qwen团队发布了最新的大规模音频-语言模型Qwen2-Audio及其技术报告。该模型在音频理解和多模态交互