本文主要是介绍测试模型基线能力之有手就行PromptBench,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
以前我说过微软出的AI开源没几个有用的,deepspeed,Autogen算两个,今天我觉得有必要加一个promptbench
我相信我的读者,或多或少对模型训练是有概念的,再不济微调也是玩过的,同时我也相信百分之80以上的读者,是没有对模型进行基线能力评测的经验的
-
其实究其原因,方法论缺失只占百分之十,比如如何设计prompt问答测试对
-
真正核心能力缺失主要是不知道去哪找测试的datasets
这个project可以满足你缺失内容至少百分之75以上的补齐,所以我称他为好项目
下图从多个角度展示了PromptBench的能力圈,主要分为以下几个维度:
模型维度:什么T5,Llama这些开源的,GPT,Gemini这些商用的也都支持(新模型也可以自己改源码加)
任务:自然语言生成,多任务理解,情感分析啥的,你能想到的,和你想象不到的NLP任务,它几乎都覆盖了
Datasets: 重点中的重点,GLUE,MMLU,Mathematics一堆,api直接下载,我愿意称为最强
Prompts&Engineering: 传统的,高级的prompt模板都有,0 shot,few shot, COT能力也都在线
Attacks:这块其实平时我跟朋友们聊天大家不太注意这个,但是对于攻击性测试,如果你的模型想要商用,我觉得你要重点关注这块,这个人家也给你集成进来了
Protocals: 标准eval,动态eval,语义化eval啥
这篇关于测试模型基线能力之有手就行PromptBench的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!