本文主要是介绍【书生·浦语】大模型实战营——第六课笔记,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
视频链接:https://www.bilibili.com/video/BV1Gg4y1U7uc/?vd_source=5d94ee72ede352cb2dfc19e4694f7622
教程文档:https://github.com/InternLM/tutorial/blob/main/opencompass/opencompass_tutorial.md
仓库:https://github.com/open-compass/opencompass
关于评测的三个问题
1、为什么需要评测?
2、需要测什么?
3、怎么测?
客观评测
有很多东西是客观评测评测不了的,因此只能使用主观评测的方式。
提示词工程
如果只是换了一个prompt,模型就回答错了。说明模型对prompt非常敏感,鲁棒性还不够好。
主流大模型评测框架
OpenCompass能力框架
OpenCompass是唯一一个由meta官方推荐的国内开发的大模型评测体系
OpenCompass开源评测平台架构
OpenCompass评测流水线设计
进行了推理优化,对评测任务进行了切分。
目前还在探索多模态能力的评测
同时也在探索垂直领域的评测
法律领域
医疗领域
大模型评测领域的挑战
这篇关于【书生·浦语】大模型实战营——第六课笔记的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!