mathbench专题

上海AI lab发布MathBench,GPT-4o的数学能力有多强?

大模型数学能力哪家强? 最近,上海AI lab构建了一个全面的多语言数学基准——MathBench。与现有的基准不同的是,MathBench涵盖从小学、初中、高中、大学不同难度,从基础算术题到高阶微积分、统计学、概率论等丰富类别的数学题目,跨度大,难度设置呈阶梯状,可以多维度评估模型的数学能力。 本文测试了20+个开源或闭源不同规模的大模型,包括新秀GPT-4o、常胜将军GPT-4,还