本文主要是介绍Judging LLM-as-a-Judge with MT-Bench and Chatbot Arena阅读笔记,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
使用 MT-Bench 和 Chatbot Arena 评估 LLM 作为评审的效果
Lianmin Zheng1∗ Wei-Lin Chiang1∗ Ying Sheng4∗ Siyuan Zhuang1
Zhanghao Wu1 Yonghao Zhuang3 Zi Lin2 Zhuohan Li1 Dacheng Li13
Eric P. Xing35 Hao Zhang12 Joseph E. Gonzalez1 Ion Stoica1
1 UC Berkeley 2 UC San Diego 3 Carnegie Mellon University 4 Stanford 5 MBZUAI
摘要
评估基于大型语言模型(LLM)的聊天助手具有挑战性,因为它们具备广泛的功能,现有基准不足以测量人类的偏好。为了解决这个问题,我们探索使用强大的LLM作为评审来评估这些模型在更开放式问题上的表现。我们检查了LLM作为评审的使用情况及其局限性,包括位置、冗长和自我提升偏见,以及有限的推理能力,并提出了一些解决方案来缓解这些问题。随后我们通过引入两个基准来验证LLM评审与人类偏好之间的一致性:MT-bench,这是一个多回合问题集;以及Chatbot Arena,这是一个众包战斗平台。我们的结果显示,像GPT-4这样的强大LLM评审可以很好地匹配控制和众包的人类偏好,达到超过80%的一致性,与人类之间的一致性相同。因此,LLM作为评审是一种可扩展和可解释的方式,可以近似人类偏好,这些偏好通常非常昂贵。此外,我们通过评估LLaMA和Vicuna的多个变种,展示了我们的基准和传统基准是如何互为补充的。MT-bench问题、3K专家投票和30K带有人类偏好的对话都可以在https://github.com/lm-
这篇关于Judging LLM-as-a-Judge with MT-Bench and Chatbot Arena阅读笔记的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!