骡子专题

【InternLM实战营第二期笔记】07：OpenCompass ：是骡子是马，拉出来溜溜

文章目录课程实操课程评测的意义是什么呢？我最近也在想。看到这节开头的内容后忽然有个顿悟：如果大模型最终也会变成一种基础工具（类比软件），稳定或可预期的效果需要先于用户感知构建出来，评测 case 就需要变成用例的相对充分抽样。除了提高效率本身，最近还有一个很好的工作 MixEval，把标准、静态的 benchmarks 跟 elo 表现做了充分关联，使得只测试少量