本文主要是介绍【InternLM实战营第二期笔记】07:OpenCompass :是骡子是马,拉出来溜溜,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
文章目录
- 课程
- 实操
课程
评测的意义是什么呢?我最近也在想。看到这节开头的内容后忽然有个顿悟:如果大模型最终也会变成一种基础工具(类比软件),稳定或可预期的效果需要先于用户感知构建出来,评测 case 就需要变成用例的相对充分抽样。
除了提高效率本身,最近还有一个很好的工作 MixEval,把标准、静态的 benchmarks 跟 elo 表现做了充分关联,使得只测试少量样本就能得到近似 lmsys arena 的打分,也非常厉害。
对了 Opencompass 也开了 arena,感兴趣可以去打打分和体验一些最新模型的效果。
实操
如果有人跟我一样,运行评测命令行时总是提示包没安装,那文档可能写的有问题,pip install -r requirements.txt
是必须的。
评测完毕。
这篇关于【InternLM实战营第二期笔记】07:OpenCompass :是骡子是马,拉出来溜溜的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!