重测专题

老题重测,国产AI大模型从“智障”走向“智能”?

2023年8月,拿我家小孩的一道小学数学题来测试了一批知名的国产大模型,结果很失望,没有一个能答对。最近正好看到OpenAI GPT-4o发布的新闻,于是跑去重测了一遍,结果很惊喜,绝大部分国产AI大模型都给出清晰、正确的答案,说明它们在语义理解上进步神速。 下面的表格对比了一下时隔9个月,各大模型(也包括国外的一些知名模型)在同一道小学数学题上的表现。 题目:15个圆球从上往下排列,其