首页
Python
Java
前端
数据库
Linux
Chatgpt专题
开发者工具箱
骡子专题
【InternLM实战营第二期笔记】07:OpenCompass :是骡子是马,拉出来溜溜
文章目录 课程实操 课程 评测的意义是什么呢?我最近也在想。看到这节开头的内容后忽然有个顿悟:如果大模型最终也会变成一种基础工具(类比软件),稳定或可预期的效果需要先于用户感知构建出来,评测 case 就需要变成用例的相对充分抽样。 除了提高效率本身,最近还有一个很好的工作 MixEval,把标准、静态的 benchmarks 跟 elo 表现做了充分关联,使得只测试少量
阅读更多...