Chatbot Arena: An Open Platform for Evaluating LLMs by Human Preference

2024-03-11 15:04

本文主要是介绍Chatbot Arena: An Open Platform for Evaluating LLMs by Human Preference,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

Chatbot Arena: An Open Platform for Evaluating LLMs by Human Preference

相关链接:arxiv
关键字:Large Language ModelsLLMsHuman PreferenceChatbot ArenaBenchmark Platform

摘要

随着大型语言模型(LLMs)解锁新功能和应用,评估它们与人类偏好的一致性仍然是一个重大挑战。为了解决这个问题,我们引入了Chatbot Arena,一个基于人类偏好评估LLMs的开放平台。我们的方法采用成对比较方法,并通过众包从不同的用户群体中获取输入。该平台已经运行了几个月,累计收集了超过240K的投票。本文描述了该平台,并分析了目前我们所收集的数据,并解释了我们正在使用的有效和准确的评估和模型排名的统计方法。我们确认众包问题充分多样化和有区分力,并且众包人类投票与专家评分者的意见高度一致。这些分析共同为Chatbot Arena的可信度奠定了坚实的基础。由于其独特的价值和开放性,Chatbot Arena已成为LLM领域中最受参考的排行榜之一,并成为了行业标准。我们承诺公开我们的数据和代码,以确保该平台是开源的、易于获取的。

核心方法

在这里插入图片描述

  • Chatbot Arena平台:集成了众包的方法,通过匿名的随机化对决来收集模型性能评估数据。
  • 强大的统计方法:使用Bradley-Terry模型的统计模型到Vovk & Wang提出的E-值等多种强大的统计技术。
  • 有效的取样算法:特别设计的取样算法,选择模型对进行排名,同时保留统计的有效性。
  • 评估模型的排名:使用经典的Bradley-Terry模型估计模型的概率赢得胜利。
  • 异常用户检测:初步步骤是用来识别出异常IP地址,在线对比新用户的评分与历史分布。

实验说明

在实验中,通过DynaBench强调了静态基准测试的风险,并展示了如何使用人在回路等方法来创建实时基准测试。Chatbot Arena在这类测试中采用一个大规模用户层面的实现。

  • 用户/模型交互:使用众包方法从用户那里获取模型评价反馈。
  • 决策对比:用户在两个模型答案之间进行投票。
  • 数据统计:自2023年4月收集数据以来,截止到2024年1月,收到了约240K次投票,覆盖超过50种模型和100多种语言。

结论

Chatbot Arena为LLMs提供了一个能够准确反映现实世界用例、基于用户偏好的开放而实时的评估平台。用户生成的问题具有足够的多样性,足以覆盖广泛的LLMs用例,并足以区分不同的模型。此外,我们所确认的众包投票与专家评估的高度一致性为我们的平台提供了强有力的支持。由于其独特的价值和开放性,Chatbot Arena已成为LLM领域中最重要的基准测试平台之一。

这篇关于Chatbot Arena: An Open Platform for Evaluating LLMs by Human Preference的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/798154

相关文章

Ollama整合open-webui的步骤及访问

《Ollama整合open-webui的步骤及访问》:本文主要介绍如何通过源码方式安装OpenWebUI,并详细说明了安装步骤、环境要求以及第一次使用时的账号注册和模型选择过程,需要的朋友可以参考... 目录安装环境要求步骤访问选择PjrIUE模型开始对话总结 安装官方安装地址:https://docs.

透彻!驯服大型语言模型(LLMs)的五种方法,及具体方法选择思路

引言 随着时间的发展,大型语言模型不再停留在演示阶段而是逐步面向生产系统的应用,随着人们期望的不断增加,目标也发生了巨大的变化。在短短的几个月的时间里,人们对大模型的认识已经从对其zero-shot能力感到惊讶,转变为考虑改进模型质量、提高模型可用性。 「大语言模型(LLMs)其实就是利用高容量的模型架构(例如Transformer)对海量的、多种多样的数据分布进行建模得到,它包含了大量的先验

Open a folder or workspace... (File -> Open Folder)

问题:vscode Open with Live Server 时 显示Open a folder or workspace... (File -> Open Folder)报错 解决:不可以单独打开文件1.html ; 需要在文件夹里打开 像这样

android java.io.IOException: open failed: ENOENT (No such file or directory)-api23+权限受权

问题描述 在安卓上,清单明明已经受权了读写文件权限,但偏偏就是创建不了目录和文件 调用mkdirs()总是返回false. <uses-permission android:name="android.permission.WRITE_EXTERNAL_STORAGE"/><uses-permission android:name="android.permission.READ_E

MonoHuman: Animatable Human Neural Field from Monocular Video 翻译

MonoHuman:来自单目视频的可动画人类神经场 摘要。利用自由视图控制来动画化虚拟化身对于诸如虚拟现实和数字娱乐之类的各种应用来说是至关重要的。已有的研究试图利用神经辐射场(NeRF)的表征能力从单目视频中重建人体。最近的工作提出将变形网络移植到NeRF中,以进一步模拟人类神经场的动力学,从而动画化逼真的人类运动。然而,这种流水线要么依赖于姿态相关的表示,要么由于帧无关的优化而缺乏运动一致性

[论文笔记]QLoRA: Efficient Finetuning of Quantized LLMs

引言 今天带来LoRA的量化版论文笔记——QLoRA: Efficient Finetuning of Quantized LLMs 为了简单,下文中以翻译的口吻记录,比如替换"作者"为"我们"。 我们提出了QLoRA,一种高效的微调方法,它在减少内存使用的同时,能够在单个48GB GPU上对65B参数的模型进行微调,同时保持16位微调任务的完整性能。QLoRA通过一个冻结的4位量化预

Open-Sora代码详细解读(1):解读DiT结构

Diffusion Models专栏文章汇总:入门与实战 前言:目前开源的DiT视频生成模型不是很多,Open-Sora是开发者生态最好的一个,涵盖了DiT、时空DiT、3D VAE、Rectified Flow、因果卷积等Diffusion视频生成的经典知识点。本篇博客从Open-Sora的代码出发,深入解读背后的原理。 目录 DiT相比于Unet的关键改进点 Token化方

error while loading shared libraries: libnuma.so.1: cannot open shared object file:

腾讯云CentOS,安装Mysql时: 1.yum remove libnuma.so.1 2.yum install numactl.x86_64

Open Source, Open Life 第九届中国开源年会论坛征集正式启动

中国开源年会 COSCon 是业界最具影响力的开源盛会之一,由开源社在2015年首次发起,而今年我们将迎来第九届 COSCon! 以其独特定位及日益增加的影响力,COSCon 吸引了越来越多的国内外企业、高校、开源组织/社区的大力支持。与一般企业、IT 媒体、行业协会举办的行业大会不同,COSCon 具有跨组织、跨项目、跨社区的广泛覆盖面,也吸引了众多国内外开源开发者和开源爱好者的关注及参与

kubernetes Pod failed to create fsnotify watcher: too many open files

fs.nr_open: 控制单个进程可以打开的文件描述符的最大数量。单个进程的文件描述符限制可以通过 ulimit 命令来设置。 /proc/sys/fs/nr_open 是一个系统级别的全局参数,表示系统中单个进程能够打开的文件描述符总数的限制。/proc/sys/fs/file-max 系统级别,当前系统可打开的最大数量/etc/security/limits.conf 用户级别,指定用户