Evaluation Metrics in the Era of GPT-4

2023-11-07 23:01
文章标签 gpt evaluation metrics era

本文主要是介绍Evaluation Metrics in the Era of GPT-4,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

本文是LLM系列文章,针对《Evaluation Metrics in the Era of GPT-4: Reliably Evaluating Large Language Models on Sequence to Sequence Tasks》的翻译。

GPT-4时代的评估度量:在序列到序列的任务中可靠地评估大型语言模型

  • 摘要
  • 1 引言
  • 2 实验设置
  • 3 评估指标
  • 4 结果和讨论
  • 5 结论
  • 局限性

摘要

大型语言模型(LLM)评估是一个不完整和不一致的领域,很明显,自动评估指标的质量没有跟上生成模型的发展步伐。我们的目标是通过在三个NLP基准上对一系列开源和闭源生成LLM进行初步和混合评估来提高对当前模型性能的理解:文本总结、文本简化和语法纠错(GEC),同时使用自动和人工评估。我们还探索了最近发布的GPT-4作为评估器的潜力。我们发现,根据人类评审员的说法,ChatGPT在大多数指标上始终优于许多其他流行模型,而在使用经典的自动评估指标时,得分要低得多。我们还发现,人类评审员对黄金参考的评价远低于最佳模型的输出,这表明许多流行基准的质量很差。最后,我们发现GPT-4能够以一种与人类判断合理紧密一致的方式对模型的输出进行排序,尽管任务有特定的变化,但在GEC任务中的一致性较低。

1 引言

2 实验设置

3 评估指标

4 结果和讨论

5 结论

模型评估是一个越来越引起社会关注的话题。梁等人最近发表了一份关于LLM的广泛评估报告,但他们大多关注自动评估。在最新LLM生成能力的最新进展的推动下,我们进行了这项研究,以探索人类判断与零样本模型性能的自动、基于参考的评估之间的漂移。我们还探索了GPT-4的模型对模型评估。这项研究是使用大型开源数据集进行的,这些数据集通常作为各自任务的基准。
我们的工作揭示了一系列生成任务中基于参考的自动度量和人类评估之间的系统性错位,突出了公共NLP基准中黄金参考的不足。目前尚不清楚这种偏差是否纯粹是由于自动度量的限制,或者较差的参考质量是否使使用任何基于参考的比较度量变得不可靠。尽管ChatGPT在大多数指标上被人类评审员评为最佳模型之一,但最好的开源LLM也始终优于参考输出。我们还探索了GPT-4作为评审员的潜力,发现它与总结和简化任务的人类判断有很强的相关性,与GEC有中等的相关性。
未来的工作将着眼于提高提示的质量,提供少量的上下文学习,或探索思维链提示在提高模型输出方面的潜力。考虑到上述偏差,将人类评估扩展到更大的数据集和更广泛的模型设置也将是未来特别感兴趣的,以最大限度地减少在使用自动度量选择用于人类评估的子集时引入的偏差。最后,为每个任务引入多个自动评估指标(例如,无参考)可能有助于加深我们对这些指标与人类判断之间关系的理解。

局限性

本文存在以下局限性:

  • 进行了有限数量的快速调整和快速空间调查。每个任务尝试了2到5种不同的提示,因此,对提示工程进行更集中的研究可能会带来显著的改进,但这是一个独立的探索主题,我们将其留给未来的工作。
  • 我们没有进行任何上下文学习或思维链提示,这已被证明可以显著提高生成模型的性能。因此,可能有提高模型输出质量的余地,而黄金参考的质量将保持不变,直到新的数据集可用。
  • 我们使用自动指标(SARI、ROGE和F0.5)来确定每个任务的最佳设置组合(型号、提示、温度)。然而,由于这项研究揭示了人类判断与这些指标之间的相关性较差,我们不能排除我们为人类评估选择的设置不是最合适的,这意味着该研究可能受到了一些偏见的影响,这些偏见是通过使用自动指标来选择人类评估研究的输出而间接引入的。当可能存在多个同等有效的输出时,传统的开源数据集每个样本只提供一个黄金参考输出,导致得分不可靠,这进一步加剧了这种情况;例如,同一个故事的两个摘要可能都很好,但很少包含常见的二进制图,导致在进行自动评估时ROUGE分数很低。
  • 鉴于我们使用的大多数模型都是在各种各样的文本语料库上进行预训练的,很可能至少有一些模型是在我们用来评估它们的一些开源数据集上进行训练的。虽然很难缓解这种情况(例如,OpenAI没有发布用于训练其模型的数据集列表),但我们的结果可能受到了影响,使用新的未发布数据集会更好地减少这种偏差。然而,这是不可能的,因为从头开始创建高质量大型数据集的任务非常昂贵和耗时,这是整个研究界众所周知的问题。
  • 虽然我们没有使用相同的模型进行推理和评估,但我们使用GPT-4来评估所有模型,包括ChatGPT的输出。考虑到它们属于同一家族的OpenAI模型,GPT-4可能对ChatGPT的输出评级高于其他模型有偏见。然而,我们的结果无法验证或反驳这一点,因为人类评审人员也将ChatGPT的输出评为大多数指标中最好的。
  • 由于时间和预算限制,我们只能雇佣3名评审员(不包括GPT-4),并要求评审员为每个数据集注释100个样本,这在每个数据集中只占很小的比例。由于审查人员和审查样本数量较少,信噪比可能会影响我们研究结果的强度和可推广性。此外,使用人类评估作为黄金标准也容易引入偏见。然而,我们发现,在大多数情况下,所有注释器都认为黄金标准比最佳模型的输出更差,因此,考虑到不同任务和注释器之间的一致性,我们确实相信这是一个有效的结论。

这篇关于Evaluation Metrics in the Era of GPT-4的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/366692

相关文章

4B参数秒杀GPT-3.5:MiniCPM 3.0惊艳登场!

​ 面壁智能 在 AI 的世界里,总有那么几个时刻让人惊叹不已。面壁智能推出的 MiniCPM 3.0,这个仅有4B参数的"小钢炮",正在以惊人的实力挑战着 GPT-3.5 这个曾经的AI巨人。 MiniCPM 3.0 MiniCPM 3.0 MiniCPM 3.0 目前的主要功能有: 长上下文功能:原生支持 32k 上下文长度,性能完美。我们引入了

GPT系列之:GPT-1,GPT-2,GPT-3详细解读

一、GPT1 论文:Improving Language Understanding by Generative Pre-Training 链接:https://cdn.openai.com/research-covers/languageunsupervised/language_understanding_paper.pdf 启发点:生成loss和微调loss同时作用,让下游任务来适应预训

图解可观测Metrics, tracing, and logging

最近在看Gophercon大会PPT的时候无意中看到了关于Metrics,Tracing和Logging相关的一篇文章,凑巧这些我基本都接触过,也是去年后半年到现在一直在做和研究的东西。从去年的关于Metrics的goappmonitor,到今年在排查问题时脑洞的基于log全链路(Tracing)追踪系统的设计,正好是对这三个话题的实践。这不禁让我对它们的关系进行思考:Metrics和Loggi

速通GPT-3:Language Models are Few-Shot Learners全文解读

文章目录 论文实验总览1. 任务设置与测试策略2. 任务类别3. 关键实验结果4. 数据污染与实验局限性5. 总结与贡献 Abstract1. 概括2. 具体分析3. 摘要全文翻译4. 为什么不需要梯度更新或微调⭐ Introduction1. 概括2. 具体分析3. 进一步分析 Approach1. 概括2. 具体分析3. 进一步分析 Results1. 概括2. 具体分析2.1 语言模型

MiniCPM-V: A GPT-4V Level MLLM on Your Phone

MiniCPM-V: A GPT-4V Level MLLM on Your Phone 研究背景和动机 现有的MLLM通常需要大量的参数和计算资源,限制了其在实际应用中的范围。大部分MLLM需要部署在高性能云服务器上,这种高成本和高能耗的特点,阻碍了其在移动设备、离线和隐私保护场景中的应用。 文章主要贡献: 提出了MiniCPM-V系列模型,能在移动端设备上部署的MLLM。 性能优越:

prometheus删除指定metrics下收集的值

Prometheus 删除指定 Metric 官方文档: ​ - https://prometheus.io/docs/prometheus/latest/querying/api/#tsdb-admin-apis Prometheus 的管理 API 接口,官方到现在一共提供了三个接口,对应的分别是快照功能、数据删除功能、数据清理功能,想要使用 API 需要先添加启动参数 --web.en

OpenAI澄清:“GPT Next”不是新模型。

不,”GPT Next” 并不是OpenAI的下一个重要项目。 本周早些时候,OpenAI 日本业务的负责人长崎忠男在日本 KDDI 峰会上分享了一场演讲,似乎在暗示一个名为 “GPT Next” 的新模型即将出现。 但OpenAI的一位发言人已向Mashable证实,幻灯片中用引号括起来的”GPT Next”一词只是一个假设性占位符,旨在表明OpenAI的模型如何随着时间呈指数级进化。发言人

AI跟踪报道第55期-新加坡内哥谈技术-本周AI新闻: GPT NEXT (x100倍)即将在2024推出

每周跟踪AI热点新闻动向和震撼发展 想要探索生成式人工智能的前沿进展吗?订阅我们的简报,深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同,从行业内部的深度分析和实用指南中受益。不要错过这个机会,成为AI领域的领跑者。点击订阅,与未来同行! 订阅:https://rengongzhineng.io/ 点击下面视频观看在B站本周AI更新: B 站 链接 观看: 本周AI

什么是GPT-3的自回归架构?为什么GPT-3无需梯度更新和微调

文章目录 知识回顾GPT-3的自回归架构何为自回归架构为什么架构会影响任务表现自回归架构的局限性与双向模型的对比小结 为何无需梯度更新和微调为什么不需要怎么做到不需要 🍃作者介绍:双非本科大四网络工程专业在读,阿里云专家博主,专注于Java领域学习,擅长web应用开发,目前开始人工智能领域相关知识的学习 🦅个人主页:@逐梦苍穹 📕所属专栏:人工智能 🌻gitee地址:x

win10 gpt分区+uefi引导 卸载双系统ubuntu

1、首先暴力卸载ubuntu 在win10里面磁盘管理中找到对应的linux磁盘分区 删除卷OK 2、重启 出现下面(根据机型不同界面可能不一样 ) 3、exit 退出grub引导 进入uefi引导  选择win10引导项 (当然你要是一直按着进入bios boot的那个按键的话 也不用看第二步了 直接选择windows启动项进去 dell的话是F12) 4、进入