OpenCompass：大模型测评工具

本文主要是介绍OpenCompass：大模型测评工具，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

大模型相关目录

大模型，包括部署微调prompt/Agent应用开发、知识库增强、数据库增强、知识图谱增强、自然语言处理、多模态等大模型应用开发内容
从0起步，扬帆起航。

大模型应用向开发路径：AI代理工作流
大模型应用开发实用开源项目汇总
大模型问答项目问答性能评估方法
大模型数据侧总结
大模型token等基本概念及参数和内存的关系
大模型应用开发-华为大模型生态规划
从零开始的LLaMA-Factory的指令增量微调
基于实体抽取-SMC-语义向量的大模型能力评估通用算法（附代码）
基于Langchain-chatchat的向量库构建及检索（附代码）
一文教你成为合格的Prompt工程师
最简明的大模型agent教程
批量使用API调用langchain-chatchat知识库能力
langchin-chatchat部分开发笔记（持续更新）
文心一言、讯飞星火、GPT、通义千问等线上API调用示例
大模型RAG性能提升路径
langchain的基本使用
结合基础模型的大模型多源信息应用开发
COT：大模型的强化利器
多角色大模型问答性能提升策略（附代码）
大模型接入外部在线信息提升应用性能
从零开始的Dify大模型应用开发指南
基于dify开发的多模态大模型应用（附代码）
基于零一万物多模态大模型通过外接数据方案优化图像文字抽取系统
快速接入stable diffusion的文生图能力
多模态大模型通过外接数据方案实现电力智能巡检（设计方案）
大模型prompt实例：知识库信息质量校验模块
基于Dify的LLM-RAG多轮对话需求解决方案（附代码）
Dify大模型开发技巧：约束大模型回答范围
以API形式调用Dify项目应用（附代码）
基于Dify的QA数据集构建（附代码）
Qwen-2-7B和GLM-4-9B：大模型届的比亚迪秦L
文擎毕昇和Dify：大模型开发平台模式对比
Qwen-VL图文多模态大模型微调指南
从零开始的Ollama指南：部署私域大模型
基于Dify的智能分类方案：大模型结合KNN算法（附代码）
OpenCompass：大模型测评工具

文章目录

大模型相关目录
简介
下载安装
使用
测评结果

简介

OpenCompass，也称为“司南”，是由上海人工智能实验室发布的一个开源的大模型评测体系，已经成为目前权威的大型模型评估平台。作为一站式的大模型评估平台，它不仅量化了模型在知识、语言、理解、推理等方面的能力，还推动了模型的迭代和优化。其主要特点包括：
在这里插入图片描述

对模型和数据集支持丰富：支持20+HuggingFace和API模型，70+数据集的模型评估方案，约40万个问题，从五个维度全面评估模型的能力
分布式高效评测：提供了分布式评测方案，支持了本机或集群上的计算任务并行分发，实现评测并行式的提速
评估范式多样化：支持Zero-Shot、Few-Shot、思维链，内置多种Prompt模板，最大程度激发大模型潜能
模块化设计和可拓展性强：支持对用户自定义的的新模型或者数据集进行测评，各模块可高效复用和拓展
实验管理和报告机制：有完备的实验管理和报告结果跟踪，并且有多种可视化方案，输出到终端、文件、飞书
引用：https://www.jianshu.com/p/bdc151e458f6

下载安装

1.创建conda虚拟环境
2.拉取OpenCompass项目源码
3.安装项目目录下所需的依赖

conda create --name opencompass python=3.10 pytorch torchvision pytorch-cuda -c nvidia -c pytorch -y
conda activate opencompass
git clone https://github.com/open-compass/opencompass opencompass
cd opencompass
pip install -r ./requirements/runtime.txt
pip install -e .

使用

下载评测数据集

wget https://github.com/open-compass/opencompass/releases/download/0.1.8.rc1/OpenCompassData-core-20231110.zip
unzip OpenCompassData-core-20231110.zip

输入模型路径和评测集路径即可开始评测

python run.py \
--datasets ceval_gen \
--hf-path /home/model/chatglm2-6b \
--tokenizer-path /home/model/chatglm2-6b \
--model-kwargs device_map='auto' trust_remote_code=True \
--tokenizer-kwargs padding_side='left' truncation='left' use_fast=False trust_remote_code=True \
--max-out-len 100 \
--max-seq-len 2048 \
--batch-size 8 \
--no-batch-padding \
--num-gpus 1

测评结果

OpenCompass会将评测信息写入本地文件，默认在项目的outputs/default下，进入对应的评测版本号，一共有5个文件夹

drwxr-xr-x 2 root root 4096 2月 20 14:37 configs
drwxr-xr-x 4 root root 4096 2月 20 14:45 logs
drwxr-xr-x 3 root root 4096 2月 20 14:38 predictions
drwxr-xr-x 3 root root 4096 2月 20 14:45 results
drwxr-xr-x 2 root root 4096 2月 20 14:48 summary

configs：记录了每个科目的数据配置信息，包括Prompt模板，标签名称等
logs：程序运行日志，又包括eval日志和infer日志，其中eval日志记录了每个科目的正确率和运行耗时，infer日志记录了推理日志，包括运行进度，报错信息等
predictions：记录每个科目的模型回答结果，其中包含了模型的最终输入和输出，通过该文件可以追溯每一条问题的回答结果。以一条信息为例
results：记录了每个科目的正确率结果
summary：记录了最终评测结果，以csv表格的形式呈现，结果如下
在这里插入图片描述