测试模型基线能力之有手就行PromptBench

本文主要是介绍测试模型基线能力之有手就行PromptBench，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

以前我说过微软出的AI开源没几个有用的，deepspeed，Autogen算两个，今天我觉得有必要加一个promptbench

我相信我的读者，或多或少对模型训练是有概念的，再不济微调也是玩过的，同时我也相信百分之80以上的读者，是没有对模型进行基线能力评测的经验的

这个project可以满足你缺失内容至少百分之75以上的补齐，所以我称他为好项目
下图从多个角度展示了PromptBench的能力圈，主要分为以下几个维度：

模型维度：什么T5,Llama这些开源的，GPT,Gemini这些商用的也都支持(新模型也可以自己改源码加)

任务：自然语言生成，多任务理解，情感分析啥的，你能想到的，和你想象不到的NLP任务，它几乎都覆盖了

Datasets: 重点中的重点，GLUE,MMLU，Mathematics一堆，api直接下载，我愿意称为最强

Prompts&Engineering: 传统的，高级的prompt模板都有，0 shot，few shot, COT能力也都在线

Attacks：这块其实平时我跟朋友们聊天大家不太注意这个，但是对于攻击性测试，如果你的模型想要商用，我觉得你要重点关注这块，这个人家也给你集成进来了

Protocals: 标准eval,动态eval，语义化eval啥

这篇关于测试模型基线能力之有手就行PromptBench的文章就介绍到这儿，希望我们推荐的文章对编程师们有所帮助！