Chatbot Arena: An Open Platform for Evaluating LLMs by Human Preference

2024-03-11 15:04

本文主要是介绍Chatbot Arena: An Open Platform for Evaluating LLMs by Human Preference,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

Chatbot Arena: An Open Platform for Evaluating LLMs by Human Preference

相关链接:arxiv
关键字:Large Language ModelsLLMsHuman PreferenceChatbot ArenaBenchmark Platform

摘要

随着大型语言模型(LLMs)解锁新功能和应用,评估它们与人类偏好的一致性仍然是一个重大挑战。为了解决这个问题,我们引入了Chatbot Arena,一个基于人类偏好评估LLMs的开放平台。我们的方法采用成对比较方法,并通过众包从不同的用户群体中获取输入。该平台已经运行了几个月,累计收集了超过240K的投票。本文描述了该平台,并分析了目前我们所收集的数据,并解释了我们正在使用的有效和准确的评估和模型排名的统计方法。我们确认众包问题充分多样化和有区分力,并且众包人类投票与专家评分者的意见高度一致。这些分析共同为Chatbot Arena的可信度奠定了坚实的基础。由于其独特的价值和开放性,Chatbot Arena已成为LLM领域中最受参考的排行榜之一,并成为了行业标准。我们承诺公开我们的数据和代码,以确保该平台是开源的、易于获取的。

核心方法

在这里插入图片描述

  • Chatbot Arena平台:集成了众包的方法,通过匿名的随机化对决来收集模型性能评估数据。
  • 强大的统计方法:使用Bradley-Terry模型的统计模型到Vovk & Wang提出的E-值等多种强大的统计技术。
  • 有效的取样算法:特别设计的取样算法,选择模型对进行排名,同时保留统计的有效性。
  • 评估模型的排名:使用经典的Bradley-Terry模型估计模型的概率赢得胜利。
  • 异常用户检测:初步步骤是用来识别出异常IP地址,在线对比新用户的评分与历史分布。

实验说明

在实验中,通过DynaBench强调了静态基准测试的风险,并展示了如何使用人在回路等方法来创建实时基准测试。Chatbot Arena在这类测试中采用一个大规模用户层面的实现。

  • 用户/模型交互:使用众包方法从用户那里获取模型评价反馈。
  • 决策对比:用户在两个模型答案之间进行投票。
  • 数据统计:自2023年4月收集数据以来,截止到2024年1月,收到了约240K次投票,覆盖超过50种模型和100多种语言。

结论

Chatbot Arena为LLMs提供了一个能够准确反映现实世界用例、基于用户偏好的开放而实时的评估平台。用户生成的问题具有足够的多样性,足以覆盖广泛的LLMs用例,并足以区分不同的模型。此外,我们所确认的众包投票与专家评估的高度一致性为我们的平台提供了强有力的支持。由于其独特的价值和开放性,Chatbot Arena已成为LLM领域中最重要的基准测试平台之一。

这篇关于Chatbot Arena: An Open Platform for Evaluating LLMs by Human Preference的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/798154

相关文章

大语言模型(LLMs)能够进行推理和规划吗?

大语言模型(LLMs),基本上是经过强化训练的 n-gram 模型,它们在网络规模的语言语料库(实际上,可以说是我们文明的知识库)上进行了训练,展现出了一种超乎预期的语言行为,引发了我们的广泛关注。从训练和操作的角度来看,LLMs 可以被认为是一种巨大的、非真实的记忆库,相当于为我们所有人提供了一个外部的系统 1(见图 1)。然而,它们表面上的多功能性让许多研究者好奇,这些模型是否也能在通常需要系

文件权限修改为777,php failed to open stream: Permission denied

记录一次在谷歌云上的异常诡异的事件: 环境 centos7.5 nginx php7.0 mysql 问题: 问题一 我用相同的nginx配置,只是修改了nginx root目录。 打开/var/www/html/ 这个目录就报 2018/06/22 04:35:03 [error] 15840#0: *438 FastCGI sent in stderr: “Primary scr

FFplay源码分析-stream_component_open

《FFmpeg原理》的社群来了,想加入社群的朋友请购买 VIP 版,VIP 版有更高级的内容与答疑服务。 本系列 以 ffmpeg4.2 源码为准,下载地址:链接:百度网盘 提取码:g3k8 FFplay 源码分析系列以一条简单的命令开始,ffplay -i a.mp4。a.mp4下载链接:百度网盘,提取码:nl0s 。 上一篇文章已经讲解完了 stream_component_op

FFplay源码分析-streams_open

《FFmpeg原理》的社群来了,想加入社群的朋友请购买 VIP 版,VIP 版有更高级的内容与答疑服务。 本系列 以 ffmpeg4.2 源码为准,下载地址:链接:百度网盘 提取码:g3k8 FFplay 源码分析系列以一条简单的命令开始,ffplay -i a.mp4。a.mp4下载链接:百度网盘,提取码:nl0s 。 如下图所示,本文主要讲解 streams_open() 函数的

FFplay源码分析-avformat_open_input

《FFmpeg原理》的社群来了,想加入社群的朋友请购买 VIP 版,VIP 版有更高级的内容与答疑服务。 本系列 以 ffmpeg4.4 源码为准,主要讲解 ffplay 的 RTMP 协议解析,播放。本文使用的命令如下: ffplay -i rtmp://192.168.0.122/live/livestream 前两篇文章 《FFplay源码分析-rtmp入口》 《FFplay源

AI 大模型企业应用实战(10)-LLMs和Chat Models

1 模型 来看两种不同类型的模型--LLM 和聊天模型。然后,它将介绍如何使用提示模板来格式化这些模型的输入,以及如何使用输出解析器来处理输出。 LangChain 中的语言模型有两种类型: 1.1 Chat Models 聊天模型通常由 LLM 支持,但专门针对会话进行了调整。提供者 API 使用与纯文本补全模型不同的接口。它们的输入不是单个字符串,而是聊天信息列表,输出则是一条人工智能

SpringBoot单元测试报错:java.lang.NoSuchMethodError: org.junit.platform.commons.util.ReflectionUtils

当我在SpringBoot项目中想做单元测试时,运行就报以下错误     我的配置信息都是正确的,瞬间懵逼了,网上都说是Junit5与IDEA版本不兼容,需要升级IDEA的版本,或者使用Junit4来进行单元测试。IDEA升级怕又要破解,很是蛋疼,所以还是想想使用Junit4来做测试了。     网上也找了半天也没有太全的说明,自己研究了下,竟然搞成了,前戏完成,上菜了

libcudart.so.9.0: cannot open shared object file: No such file or directory

使用torch 或者 torchvision的时候,报错:libcudart.so.9.0: cannot open shared object file: No such file or directory 经过gg一下,发现这个错误是 没有正确安装 英伟达的 CUDA 9 工具包。 但我一想 不对!我是服务器上根本没有GPU 根本不需要安装cuda啊! 后来torch官网发现,必须专门指

Unable to create the selected preference page解决方法

解决: 将path路径中的%JAVA_HOME%\bin 移动到最前面即可.  问题:  Unable to create the selected preferencepage.  com.avaya.exvantage.ui.interfaces.eclipse.plugin  解决办法:  方式一:  系统级别path高于用户级别pathjdk路径一定在系统path比较保险  方式二:

AIGC-CVPR2024best paper-Rich Human Feedback for Text-to-Image Generation-论文精读

Rich Human Feedback for Text-to-Image Generation斩获CVPR2024最佳论文!受大模型中的RLHF技术启发,团队用人类反馈来改进Stable Diffusion等文生图模型。这项研究来自UCSD、谷歌等。 在本文中,作者通过标记不可信或与文本不对齐的图像区域,以及注释文本提示中的哪些单词在图像上被歪曲或丢失来丰富反馈信号。 在 18K 生成图像 (R