论文翻译:ICLR-2024 PROVING TEST SET CONTAMINATION IN BLACK BOX LANGUAGE MODELS

本文主要是介绍论文翻译:ICLR-2024 PROVING TEST SET CONTAMINATION IN BLACK BOX LANGUAGE MODELS,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

PROVING TEST SET CONTAMINATION IN BLACK BOX LANGUAGE MODELS

https://openreview.net/forum?id=KS8mIvetg2

验证测试集污染在黑盒语言模型中

文章目录

  • 验证测试集污染在黑盒语言模型中
  • 摘要
  • 1 引言

摘要

大型语言模型是在大量互联网数据上训练的,这引发了人们的担忧和猜测,即它们可能已经记住了公共基准测试。从猜测到证明污染的存在是具有挑战性的,因为专有模型使用的预训练数据通常并不公开。我们展示了一种方法,可以在不访问预训练数据或模型权重的情况下,为语言模型提供可证明的测试集污染保证。我们的方法利用了一个事实,即如果没有数据污染,所有可交换基准测试的排序都应该同样可能。相比之下,语言模型倾向于记忆示例顺序,这意味着一个被污染的语言模型会发现某些规范排序比其他排序更有可能。我们的测试在规范排序的基准测试数据集的可能性显著高于洗牌后的可能性时,标记潜在的污染。我们证明了我们的程序足够敏感,能够在包括只有10亿参数的模型、只有1000个示例的小测试集,以及在预训练语料库中只出现几次的数据集等具有挑战性的情况下,可靠地证明测试集污染。使用我们的测试,我们审计了四种流行的公开可访问的语言模型,以检测测试集污染,并发现很少有普遍污染的证据。

1 引言

大型语言模型(LLMs)在许多自然语言处理基准测试(Wang等人,2019)和专业考试(OpenAI,2023)上取得了显著的进步。这些进步是由在从互联网收集的大量数据集上进行的大规模预训练驱动的。虽然这种范式很强大,但涉及的最少策划导致了对数据集污染的日益关注,预训练数据集包含了各种评估基准。这种污染导致理解语言模型的真实性能变得困难——例如,它们是否只是记住了难题的答案。区分泛化效应和测试集记忆的影响对我们理解语言模型性能至关重要,但随着许多今天部署的语言模型的预训练数据集很少公开,这变得越来越困难。

尽管LLM提供商正在进行工作,从预训练数据集中移除基准,并进行数据集污染研究,但这种过滤可能会因为错误(Brown等人,2020a)而失败,仅限于一组选定的基准(Brown等人,2020a;Wei等人,2021;Chowdhery等人,2022),并且需要信任这些供应商。竞争压力的增加也导致了一些最近的模型发布完全没有污染研究(OpenAI,2023)。这些因素使我们能够审计现有的语言模型,以检测基准数据集的存在,而不需要语言模型提供商的合作。

与污染研究并行,有关启发式成员推断算法的文献越来越多,这些算法试图逆向工程预训练数据集的方面(Carlini等人,2019;Mattern等人,2023),并为测试集污染提供一些证据(Sainz等人,2023;Golchin & Surdeanu,2023)。然而,这些方法的启发式性质限制了它们的有用性,因为这些方法不能将对疑似测试集污染实例的猜测提升为污染的无可辩驳的证据。

在这项工作中,我们展示了如何超越启发式方法,并为黑盒语言模型提供可证明的测试集污染保证。更具体地说,我们提供了一个统计测试,它可以在不访问模型的训练数据或权重的情况下,识别预训练数据集中基准的存在,并提供可证明的误报率保证。

为了实现这些保证,我们利用了许多数据集具有的一个属性,即可交换性,其中数据集中示例的顺序可以洗牌,而不会影响其联合分布。我们的关键洞察是,如果语言模型对数据集的任何特定排序表现出偏好——例如,在公开可用的存储库中出现的规范排序——这违反了可交换性,并且只有在训练期间观察到数据集时才会发生(图1)。

我们利用这一洞察提出了一组测试,比较语言模型在“规范”排序(来自公共存储库)上的对数概率与在洗牌示例数据集上的对数概率,并在两个对数概率在统计上有显著差异时标记数据集

利用这些想法,我们提出了一个计算效率高且统计强大的测试,用于污染,该测试将数据集分割成更小的片段,并在每个片段内进行一系列对数概率比较。我们证明这种分片测试可以控制误报率,实现计算效率高的并行测试,并显著提高测试对于小p值的统计能力。

我们在一个训练了10亿参数的语言模型上评估了我们的统计测试,该模型在维基百科和一组策划的金丝雀测试集的组合上进行了训练。我们的测试足够敏感,可以识别出只有1000个示例的测试集,有时甚至在预训练语料库中只出现两次。在重复次数更高的情况下,例如数据集出现10次或更多次,我们的测试获得了极小的p值。最后,我们在四种常用的公共语言模型上运行我们的测试,以研究我们的测试在野外语言模型上的行为,并发现很少有普遍和强烈的测试集污染的证据。

我们总结了我们的贡献如下。
• 展示了使用可交换性作为仅使用对数概率查询来可证明地识别测试集污染的方法。
• 构建了一个高效且强大的分片假设测试,用于测试集污染。
• 实证展示了黑盒检测在预训练期间只出现几次的小数据集的污染。
我们的三项贡献表明,黑盒识别测试集污染是可行的,测试能力的进一步改进可能使我们能够定期审计野外的语言模型,以检测测试集污染。为了鼓励开发新的可证明的测试集污染保证,我们将我们的预训练模型作为开发未来统计测试的基准发布。1
在这里插入图片描述

图1:给定一个被BoolQ(Clark等人,2019)测试集污染的预训练数据集(左),我们通过测试数据集的可交换性(右)来检测这种污染。如果模型已经看到了一个基准数据集,它将偏好规范顺序(即示例在公共存储库中给出的顺序)而不是随机洗牌的示例顺序。我们测试这些对数概率的差异,并在整个数据集中汇总它们,以提供误报率保证。

这篇关于论文翻译:ICLR-2024 PROVING TEST SET CONTAMINATION IN BLACK BOX LANGUAGE MODELS的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1150196

相关文章

2024年流动式起重机司机证模拟考试题库及流动式起重机司机理论考试试题

题库来源:安全生产模拟考试一点通公众号小程序 2024年流动式起重机司机证模拟考试题库及流动式起重机司机理论考试试题是由安全生产模拟考试一点通提供,流动式起重机司机证模拟考试题库是根据流动式起重机司机最新版教材,流动式起重机司机大纲整理而成(含2024年流动式起重机司机证模拟考试题库及流动式起重机司机理论考试试题参考答案和部分工种参考解析),掌握本资料和学校方法,考试容易。流动式起重机司机考试技

【专题】2024飞行汽车技术全景报告合集PDF分享(附原数据表)

原文链接: https://tecdat.cn/?p=37628 6月16日,小鹏汇天旅航者X2在北京大兴国际机场临空经济区完成首飞,这也是小鹏汇天的产品在京津冀地区进行的首次飞行。小鹏汇天方面还表示,公司准备量产,并计划今年四季度开启预售小鹏汇天分体式飞行汽车,探索分体式飞行汽车城际通勤。阅读原文,获取专题报告合集全文,解锁文末271份飞行汽车相关行业研究报告。 据悉,业内人士对飞行汽车行业

高效录音转文字:2024年四大工具精选!

在快节奏的工作生活中,能够快速将录音转换成文字是一项非常实用的能力。特别是在需要记录会议纪要、讲座内容或者是采访素材的时候,一款优秀的在线录音转文字工具能派上大用场。以下推荐几个好用的录音转文字工具! 365在线转文字 直达链接:https://www.pdf365.cn/ 365在线转文字是一款提供在线录音转文字服务的工具,它以其高效、便捷的特点受到用户的青睐。用户无需下载安装任何软件,只

AI hospital 论文Idea

一、Benchmarking Large Language Models on Communicative Medical Coaching: A Dataset and a Novel System论文地址含代码 大多数现有模型和工具主要迎合以患者为中心的服务。这项工作深入探讨了LLMs在提高医疗专业人员的沟通能力。目标是构建一个模拟实践环境,人类医生(即医学学习者)可以在其中与患者代理进行医学

poj 3050 dfs + set的妙用

题意: 给一个5x5的矩阵,求由多少个由连续6个元素组成的不一样的字符的个数。 解析: dfs + set去重搞定。 代码: #include <iostream>#include <cstdio>#include <set>#include <cstdlib>#include <algorithm>#include <cstring>#include <cm

2024网安周今日开幕,亚信安全亮相30城

2024年国家网络安全宣传周今天在广州拉开帷幕。今年网安周继续以“网络安全为人民,网络安全靠人民”为主题。2024年国家网络安全宣传周涵盖了1场开幕式、1场高峰论坛、5个重要活动、15场分论坛/座谈会/闭门会、6个主题日活动和网络安全“六进”活动。亚信安全出席2024年国家网络安全宣传周开幕式和主论坛,并将通过线下宣讲、创意科普、成果展示等多种形式,让广大民众看得懂、记得住安全知识,同时还

2024/9/8 c++ smart

1.通过自己编写的class来实现unique_ptr指针的功能 #include <iostream> using namespace std; template<class T> class unique_ptr { public:         //无参构造函数         unique_ptr();         //有参构造函数         unique_ptr(

论文翻译:arxiv-2024 Benchmark Data Contamination of Large Language Models: A Survey

Benchmark Data Contamination of Large Language Models: A Survey https://arxiv.org/abs/2406.04244 大规模语言模型的基准数据污染:一项综述 文章目录 大规模语言模型的基准数据污染:一项综述摘要1 引言 摘要 大规模语言模型(LLMs),如GPT-4、Claude-3和Gemini的快

论文阅读笔记: Segment Anything

文章目录 Segment Anything摘要引言任务模型数据引擎数据集负责任的人工智能 Segment Anything Model图像编码器提示编码器mask解码器解决歧义损失和训练 Segment Anything 论文地址: https://arxiv.org/abs/2304.02643 代码地址:https://github.com/facebookresear

免费也能高质量!2024年免费录屏软件深度对比评测

我公司因为客户覆盖面广的原因经常会开远程会议,有时候说的内容比较广需要引用多份的数据,我记录起来有一定难度,所以一般都用录屏工具来记录会议内容。这次我们来一起探索有什么免费录屏工具可以提高我们的工作效率吧。 1.福晰录屏大师 链接直达:https://www.foxitsoftware.cn/REC/  录屏软件录屏功能就是本职,这款录屏工具在录屏模式上提供了多种选项,可以选择屏幕录制、窗口