傻掉专题

小心你的大模型被基准评估坑了，模型直接傻掉！人大高瓴揭秘大模型作弊

作者 | 谢年年、Python 从 ChatGPT 横空出世到国内外「百模大战」打响以来，我们隔三差五就会看到某某大模型又超越多个模型，刷新SOTA，成功屠榜的消息。这些榜单都是基于一系列高质量的评估基准创立的，从不同的方面比较LLMs的性能。典型的评估基准包括MMLU（用于衡量多任务语言理解能力）、Big-Bench（用于量化和外推LLMs的能力）以及AGIEval（用于评估应对人类