InternLM大模型实战-6.OpenCompass大模型评测

本文主要是介绍InternLM大模型实战-6.OpenCompass大模型评测，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

文章目录

前言
笔记正文
- 关于模型评测的三个问题
- - 为什么需要评测
  - 我们需要测什么
  - 怎么测试大语言模型
- 主流大模型评测框架
- OpenCompass
- 大模型评测领域的挑战

前言

本文是对于InternLM全链路开源体系系列课程的学习笔记。【OpenCompass 大模型评测】 https://www.bilibili.com/video/BV1Gg4y1U7uc/?share_source=copy_web&vd_source=99d9a9488d6d14ace3c7925a3e19793e

笔记正文

关于模型评测的三个问题

为什么需要评测

对于这么多的模型，需要标准去进行比较，这样才有利于普通用户、开发者、管理机构、产业界的使用。

我们需要测什么

对于大语言模型，需要评测的东西很多，如知识语言推理、长文本生成等。

怎么测试大语言模型

分为基座模型和对话模型、分为客观评测和主观评测、提示词工程。

主流大模型评测框架

在这里插入图片描述

OpenCompass

而OpenCompass是一个比较全面系统的评测框架，受到meta的推荐，也是meta推荐的唯一一个国内评测框架
在这里插入图片描述
并且支持很多模型和很好的评测流水线设计。

同时除了上面的评测，也在进行前沿探索，如多模态领域和法律等

大模型评测领域的挑战

缺少高质量的中文评测集
难以准确提取答案
能力唯独不足
测试集混入训练集
测试标准各异
人工测试成本高昂

作业后面写

这篇关于InternLM大模型实战-6.OpenCompass大模型评测的文章就介绍到这儿，希望我们推荐的文章对编程师们有所帮助！

InternLM大模型实战-6.OpenCompass大模型评测

文章目录

前言

笔记正文

关于模型评测的三个问题

为什么需要评测

我们需要测什么

怎么测试大语言模型

主流大模型评测框架

OpenCompass

大模型评测领域的挑战

相关文章

Spring Boot + MyBatis Plus 高效开发实战从入门到进阶优化(推荐)

MyBatis 动态 SQL 优化之标签的实战与技巧(常见用法)

Pandas使用SQLite3实战

Java的IO模型、Netty原理解析

基于Flask框架添加多个AI模型的API并进行交互

Python实战之屏幕录制功能的实现

最新Spring Security实战教程之Spring Security安全框架指南

最新Spring Security实战教程之表单登录定制到处理逻辑的深度改造(最新推荐)

OpenManus本地部署实战亲测有效完全免费(最新推荐)

4G/5G全网通! FiberHome烽火5G CPE Air路由器拆机评测