mathbench专题

上海AI lab发布MathBench，GPT-4o的数学能力有多强？

大模型数学能力哪家强？最近，上海AI lab构建了一个全面的多语言数学基准——MathBench。与现有的基准不同的是，MathBench涵盖从小学、初中、高中、大学不同难度，从基础算术题到高阶微积分、统计学、概率论等丰富类别的数学题目，跨度大，难度设置呈阶梯状，可以多维度评估模型的数学能力。本文测试了20+个开源或闭源不同规模的大模型，包括新秀GPT-4o、常胜将军GPT-4，还