Evaluation Metrics in the Era of GPT-4

2023-11-07 23:01
文章标签 gpt evaluation metrics era

本文主要是介绍Evaluation Metrics in the Era of GPT-4,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

本文是LLM系列文章,针对《Evaluation Metrics in the Era of GPT-4: Reliably Evaluating Large Language Models on Sequence to Sequence Tasks》的翻译。

GPT-4时代的评估度量:在序列到序列的任务中可靠地评估大型语言模型

  • 摘要
  • 1 引言
  • 2 实验设置
  • 3 评估指标
  • 4 结果和讨论
  • 5 结论
  • 局限性

摘要

大型语言模型(LLM)评估是一个不完整和不一致的领域,很明显,自动评估指标的质量没有跟上生成模型的发展步伐。我们的目标是通过在三个NLP基准上对一系列开源和闭源生成LLM进行初步和混合评估来提高对当前模型性能的理解:文本总结、文本简化和语法纠错(GEC),同时使用自动和人工评估。我们还探索了最近发布的GPT-4作为评估器的潜力。我们发现,根据人类评审员的说法,ChatGPT在大多数指标上始终优于许多其他流行模型,而在使用经典的自动评估指标时,得分要低得多。我们还发现,人类评审员对黄金参考的评价远低于最佳模型的输出,这表明许多流行基准的质量很差。最后,我们发现GPT-4能够以一种与人类判断合理紧密一致的方式对模型的输出进行排序,尽管任务有特定的变化,但在GEC任务中的一致性较低。

1 引言

2 实验设置

3 评估指标

4 结果和讨论

5 结论

模型评估是一个越来越引起社会关注的话题。梁等人最近发表了一份关于LLM的广泛评估报告,但他们大多关注自动评估。在最新LLM生成能力的最新进展的推动下,我们进行了这项研究,以探索人类判断与零样本模型性能的自动、基于参考的评估之间的漂移。我们还探索了GPT-4的模型对模型评估。这项研究是使用大型开源数据集进行的,这些数据集通常作为各自任务的基准。
我们的工作揭示了一系列生成任务中基于参考的自动度量和人类评估之间的系统性错位,突出了公共NLP基准中黄金参考的不足。目前尚不清楚这种偏差是否纯粹是由于自动度量的限制,或者较差的参考质量是否使使用任何基于参考的比较度量变得不可靠。尽管ChatGPT在大多数指标上被人类评审员评为最佳模型之一,但最好的开源LLM也始终优于参考输出。我们还探索了GPT-4作为评审员的潜力,发现它与总结和简化任务的人类判断有很强的相关性,与GEC有中等的相关性。
未来的工作将着眼于提高提示的质量,提供少量的上下文学习,或探索思维链提示在提高模型输出方面的潜力。考虑到上述偏差,将人类评估扩展到更大的数据集和更广泛的模型设置也将是未来特别感兴趣的,以最大限度地减少在使用自动度量选择用于人类评估的子集时引入的偏差。最后,为每个任务引入多个自动评估指标(例如,无参考)可能有助于加深我们对这些指标与人类判断之间关系的理解。

局限性

本文存在以下局限性:

  • 进行了有限数量的快速调整和快速空间调查。每个任务尝试了2到5种不同的提示,因此,对提示工程进行更集中的研究可能会带来显著的改进,但这是一个独立的探索主题,我们将其留给未来的工作。
  • 我们没有进行任何上下文学习或思维链提示,这已被证明可以显著提高生成模型的性能。因此,可能有提高模型输出质量的余地,而黄金参考的质量将保持不变,直到新的数据集可用。
  • 我们使用自动指标(SARI、ROGE和F0.5)来确定每个任务的最佳设置组合(型号、提示、温度)。然而,由于这项研究揭示了人类判断与这些指标之间的相关性较差,我们不能排除我们为人类评估选择的设置不是最合适的,这意味着该研究可能受到了一些偏见的影响,这些偏见是通过使用自动指标来选择人类评估研究的输出而间接引入的。当可能存在多个同等有效的输出时,传统的开源数据集每个样本只提供一个黄金参考输出,导致得分不可靠,这进一步加剧了这种情况;例如,同一个故事的两个摘要可能都很好,但很少包含常见的二进制图,导致在进行自动评估时ROUGE分数很低。
  • 鉴于我们使用的大多数模型都是在各种各样的文本语料库上进行预训练的,很可能至少有一些模型是在我们用来评估它们的一些开源数据集上进行训练的。虽然很难缓解这种情况(例如,OpenAI没有发布用于训练其模型的数据集列表),但我们的结果可能受到了影响,使用新的未发布数据集会更好地减少这种偏差。然而,这是不可能的,因为从头开始创建高质量大型数据集的任务非常昂贵和耗时,这是整个研究界众所周知的问题。
  • 虽然我们没有使用相同的模型进行推理和评估,但我们使用GPT-4来评估所有模型,包括ChatGPT的输出。考虑到它们属于同一家族的OpenAI模型,GPT-4可能对ChatGPT的输出评级高于其他模型有偏见。然而,我们的结果无法验证或反驳这一点,因为人类评审人员也将ChatGPT的输出评为大多数指标中最好的。
  • 由于时间和预算限制,我们只能雇佣3名评审员(不包括GPT-4),并要求评审员为每个数据集注释100个样本,这在每个数据集中只占很小的比例。由于审查人员和审查样本数量较少,信噪比可能会影响我们研究结果的强度和可推广性。此外,使用人类评估作为黄金标准也容易引入偏见。然而,我们发现,在大多数情况下,所有注释器都认为黄金标准比最佳模型的输出更差,因此,考虑到不同任务和注释器之间的一致性,我们确实相信这是一个有效的结论。

这篇关于Evaluation Metrics in the Era of GPT-4的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/366692

相关文章

【机器学习】自然语言处理的新前沿:GPT-4与Beyond

📝个人主页:哈__ 期待您的关注  目录 🔥引言 背景介绍 文章目的 一、GPT-4简介 GPT-4概述 主要特性 局限性和挑战 二、自监督学习的新进展 自监督学习的原理 代表性模型和技术 三、少样本学习和零样本学习 少样本学习的挑战 先进方法 四、跨模态学习 跨模态学习的概念 代表性技术 应用场景 第五部分:可解释性和透明性 AI的可解释

【文末附gpt升级秘笈】腾讯元宝AI搜索解析能力升级:千万字超长文处理的新里程碑

腾讯元宝AI搜索解析能力升级:千万字超长文处理的新里程碑 一、引言 随着人工智能技术的飞速发展,自然语言处理(NLP)和机器学习(ML)在各行各业的应用日益广泛。其中,AI搜索解析能力作为信息检索和知识抽取的核心技术,受到了广泛的关注和研究。腾讯作为互联网行业的领军企业,其在AI领域的探索和创新一直走在前列。近日,腾讯旗下的AI大模型应用——腾讯元宝,迎来了1.1.7版本的升级,新版本在AI搜

1.1 从图灵机到GPT,人工智能经历了什么?——《带你自学大语言模型》系列

《带你自学大语言模型》系列部分目录及计划,完整版目录见: 带你自学大语言模型系列 —— 前言 第一部分 走进大语言模型(科普向) 第一章 走进大语言模型 1.1 从图灵机到GPT,人工智能经历了什么?1.2 如何让机器理解人类语言?(next, next)1.3 Transformer做对了什么?(next, next, next) 第二部分 构建大语言模型(技术向) 第二章 基础知识

GPT-5大幅推迟?OpenAI CTO称将在2025年底到2026年初推出

GPT-5大幅推迟?OpenAI CTO称将在2025年底到2026年初推出 OpenAI CTO同时透露,GPT-5性能将有巨大飞跃,在某些特定任务中达到“博士水平”智能,此前市场曾预测GPT-5可能在2023年底或2024年夏季发布。 一再跳票的GPT-5可能大幅推迟,但预计性能将显著跃升,达到“博士水平”的智能。 据媒体周日报道,OpenAI首席技术官Mira Murati近日透露,公

Java开发-面试题-0007-GPT和MBR的区别

Java开发-面试题-0007-GPT和MBR的区别 更多内容欢迎关注我(持续更新中,欢迎Star✨) Github:CodeZeng1998/Java-Developer-Work-Note 技术公众号:CodeZeng1998(纯纯技术文) 生活公众号:好锅(Life is more than code) CSDN: CodeZeng1998 其他平台:CodeZeng1998、好

从零实现GPT【1】——BPE

文章目录 Embedding 的原理训练特殊 token 处理和保存编码解码完整代码 BPE,字节对编码 Embedding 的原理 简单来说就是查表 # 解释embeddingfrom torch.nn import Embeddingimport torch# 标准的正态分布初始化 也可以用均匀分布初始化emb = Embedding(10, 32)res

GPT-4o一夜被赶超,Claude 3.5一夜封王|快手可灵大模型推出图生视频功能|“纯血”鸿蒙大战苹果AI|智谱AI“钱途”黯淡|月之暗面被曝进军美国

快手可灵大模型推出图生视频功能“纯血”鸿蒙大战苹果AI,华为成败在此一举大模型低价火拼间,智谱AI“钱途”黯淡手握新“王者”,腾讯又跟渠道干上了“美食荒漠”杭州,走出一个餐饮IPOGPT-4o一夜被赶超,Anthropic推出Claude3.5,网友3分钟克隆马里奥游戏支付宝能否翻越“内容”这座山?月之暗面被曝进军美国,阿里腾讯捧出的30亿美元独角兽终于要出海了Claude3.5一夜封王,10倍编

【Rust日报】2022-02-19 Tokio Metrics 0.1

Tokio Metrics 0.1 今天,我们很高兴地宣布初始发布Tokio-Metrics,一个用于获得Tokio应用程序的运行时和任务级别指标的crate。Tokio-Metrics使Tokio用户更容易通过提供生产中的运行时行为来调试性能问题。 如今,Tokio已成功用于亚马逊、微软、Discord等公司的大规模生产部署。然而,我们通常会从处理调试问题的工程师那里收到问题。 文章链接,ht

17-云原生监控体系-metrics-server

1. 关于监控 Kubernetes 如果想让 Prometheus 监控 Kubernetes 集群,首先需要明确集群中需要监控哪些对象,也就是需要收集哪些监控指标,如下是总结 Kubernetes 集群中大概有三类指标需要收集: 集群中每个节点服务器的指标,就是每台服务器的CPU,内存等这些级别信息,可以使用之前学习到的 node_exporter 实现。Kubernetes 集群组件的指

AI大模型日报#0622:Claude 3.5 Sonnet超越GPT-4o、盘古大模型跳级发布、松鼠AI多模态教育大模型

导读:AI大模型日报,爬虫+LLM自动生成,一文览尽每日AI大模型要点资讯!目前采用“文心一言”(ERNIE-4.0-8K-latest)生成了今日要点以及每条资讯的摘要。欢迎阅读!《AI大模型日报》今日要点:中科大与上海AI Lab等团队发布了高质量视频数据集ShareGPT4Video,通过GPT-4v的视觉能力实现视频的高质量描述,对视频理解和生成任务有着重要意义。同时,OpenAI收购数据