Judging LLM-as-a-Judge with MT-Bench and Chatbot Arena阅读笔记

本文主要是介绍Judging LLM-as-a-Judge with MT-Bench and Chatbot Arena阅读笔记，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

使用 MT-Bench 和 Chatbot Arena 评估 LLM 作为评审的效果

Lianmin Zheng1∗ Wei-Lin Chiang1∗ Ying Sheng4∗ Siyuan Zhuang1

Zhanghao Wu1 Yonghao Zhuang3 Zi Lin2 Zhuohan Li1 Dacheng Li13

Eric P. Xing35 Hao Zhang12 Joseph E. Gonzalez1 Ion Stoica1

1 UC Berkeley 2 UC San Diego 3 Carnegie Mellon University 4 Stanford 5 MBZUAI

摘要

评估基于大型语言模型（LLM）的聊天助手具有挑战性，因为它们具备广泛的功能，现有基准不足以测量人类的偏好。为了解决这个问题，我们探索使用强大的LLM作为评审来评估这些模型在更开放式问题上的表现。我们检查了LLM作为评审的使用情况及其局限性，包括位置、冗长和自我提升偏见，以及有限的推理能力，并提出了一些解决方案来缓解这些问题。随后我们通过引入两个基准来验证LLM评审与人类偏好之间的一致性：MT-bench，这是一个多回合问题集；以及Chatbot Arena，这是一个众包战斗平台。我们的结果显示，像GPT-4这样的强大LLM评审可以很好地匹配控制和众包的人类偏好，达到超过80%的一致性，与人类之间的一致性相同。因此，LLM作为评审是一种可扩展和可解释的方式，可以近似人类偏好，这些偏好通常非常昂贵。此外，我们通过评估LLaMA和Vicuna的多个变种，展示了我们的基准和传统基准是如何互为补充的。MT-bench问题、3K专家投票和30K带有人类偏好的对话都可以在https://github.com/lm-

这篇关于Judging LLM-as-a-Judge with MT-Bench and Chatbot Arena阅读笔记的文章就介绍到这儿，希望我们推荐的文章对编程师们有所帮助！