AlignBench：量身打造的中文大语言模型对齐评测

2023-12-26 22:36

文章标签 语言打造模型中文评测对齐量身 alignbench

本文主要是介绍AlignBench：量身打造的中文大语言模型对齐评测，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

对齐（Alignment），是指大语言模型（LLM）与人类意图的一致性。换言之，就是让LLM生成的结果更加符合人类的预期，包括遵循人类的指令，理解人类的意图，进而能产生有帮助的回答等。对齐是决定LLM能否在实际场景中得到真正应用的关键因素。因此，评估模型的对齐水平显得至关重要 —— 如果没有评估，我们就无法判断模型的优劣。

然而，至今为止，中文评测领域关于对齐的评测仍然是一片空白。当前广泛使用的一些评测数据集，如 MMLU，C-Eval 等，与真实使用场景的差别较大，不能有效评估模型的指令遵循能力。针对对齐水平的英文评测数据集，如 MT-Bench，AlpacaEval等，受限于其语言、数量、评测方式，也并不能有效评估中文大模型的对齐水平。考虑到以上因素，以及实际的需求，智谱清言团队推出了AlignBench。

论文：https://arxiv.org/abs/2311.18743
数据、代码：https://github.com/THUDM/AlignBench
项目网站：LLMBench

AlignBench是一个多维度、综合性的评测基准。目前来看，这是第一个专为中文大模型设计，能够在多维度上细致评测模型和人类意图对齐水平的评测基准。将 AlignBench 在评测数据和评测方法上与其他基准的对比情况总结如下：

为了让开发人员能够更加高效地完成评估，作者也开发了自动评估模型 CritiqueLLM ，它是一个能够达到 GPT-4 95% 评估能力的专用的评测模型。可以在 AlignBench 网站上使用 CritiqueLLM 进行评测。

数据集

AlignBench 从 ChatGLM 真实的使用场景中构建，经过初步构造，敏感性筛查，参考答案生成，难度筛选等步骤，构建了具有真实性、挑战性的评测数据集。AlignBench 构建了综合全面的分类体系，分为 8 个大类。

评测方法

AlignBench 使用评分模型（GPT-4，CritiqueLLM）为每个模型的回答打 1-10 的综合分数，代表其回答质量。AlignBench 构建了多维度、规则校准的模型评测方法，有效提升了模型评分和人类评分的一致性，以及模型评价的质量。

1. 多维度：AlignBench 针对每个种类定制了多个细分的评测维度（如创造性、逻辑性等等）。

2. 规则校准：AlignBench 引入了细致的打分规则，提升和人类的一致程度。

评测表明，所提出的模型评测方法提高了和人类评分的一致性。在生成的分析上，所提出的方法能够显著提高分析的质量。在对分析质量的成对评估中，所提出的方法分别以 12.4% 和 20.40% 的胜负差显著胜出。

评测结果

使用 gpt-4-0613 和 CritiqueLLM 分别作为评分模型对 17 个中文大模型进行了评测，结果分别如下。

结果表明：

1. 中文大模型相比于 gpt-4，在逻辑推理能力上差距较大。
2. 顶尖中文大模型相比于 gpt-4，在中文相关能力（尤其是中文理解类）能取得相近甚至更好的表现。
3. 中文大模型的开源活力充沛，顶尖开源模型对齐表现接近闭源模型，已处于同一梯队。

这篇关于AlignBench：量身打造的中文大语言模型对齐评测的文章就介绍到这儿，希望我们推荐的文章对编程师们有所帮助！

http://www.chinasem.cn/article/541018。 23002807@qq.com

相关文章

Python结合PyWebView库打造跨平台桌面应用

Python结合PyWebView库打造跨平台桌面应用

《Python结合PyWebView库打造跨平台桌面应用》随着Web技术的发展,将HTML/CSS/JavaScript与Python结合构建桌面应用成为可能,本文将系统讲解如何使用PyWebView... 目录一、技术原理与优势分析1.1 架构原理1.2 核心优势二、开发环境搭建2.1 安装依赖2.2 验

阅读更多...

基于Python打造一个全能文本处理工具

基于Python打造一个全能文本处理工具

《基于Python打造一个全能文本处理工具》：本文主要介绍一个基于Python+Tkinter开发的全功能本地化文本处理工具,它不仅具备基础的格式转换功能,更集成了中文特色处理等实用功能,有需要的... 目录1. 概述：当文本处理遇上python图形界面2. 功能全景图：六大核心模块解析3.运行效果4. 相

阅读更多...

Go 语言中的select语句详解及工作原理

Go 语言中的select语句详解及工作原理

《Go语言中的select语句详解及工作原理》在Go语言中,select语句是用于处理多个通道（channel）操作的一种控制结构,它类似于switch语句,本文给大家介绍Go语言中的select语... 目录Go 语言中的 select 是做什么的基本功能语法工作原理示例示例 1：监听多个通道示例 2：带

阅读更多...

C语言函数递归实际应用举例详解

C语言函数递归实际应用举例详解

《C语言函数递归实际应用举例详解》程序调用自身的编程技巧称为递归,递归做为一种算法在程序设计语言中广泛应用,：本文主要介绍C语言函数递归实际应用举例的相关资料,文中通过代码介绍的非常详细,需要的朋... 目录前言一、递归的概念与思想二、递归的限制条件三、递归的实际应用举例（一）求 n 的阶乘（二）顺序打印

阅读更多...

Python从零打造高安全密码管理器

Python从零打造高安全密码管理器

《Python从零打造高安全密码管理器》在数字化时代,每人平均需要管理近百个账号密码,本文将带大家深入剖析一个基于Python的高安全性密码管理器实现方案,感兴趣的小伙伴可以参考一下... 目录一、前言：为什么我们需要专属密码管理器二、系统架构设计2.1 安全加密体系2.2 密码强度策略三、核心功能实现详解

阅读更多...

Spring Security基于数据库的ABAC属性权限模型实战开发教程

Spring Security基于数据库的ABAC属性权限模型实战开发教程

《SpringSecurity基于数据库的ABAC属性权限模型实战开发教程》：本文主要介绍SpringSecurity基于数据库的ABAC属性权限模型实战开发教程,本文给大家介绍的非常详细,对大... 目录1. 前言2. 权限决策依据RBACABAC综合对比3. 数据库表结构说明4. 实战开始5. MyBA

阅读更多...

基于Python打造一个可视化FTP服务器

基于Python打造一个可视化FTP服务器

《基于Python打造一个可视化FTP服务器》在日常办公和团队协作中,文件共享是一个不可或缺的需求,所以本文将使用Python+Tkinter+pyftpdlib开发一款可视化FTP服务器,有需要的小... 目录1. 概述2. 功能介绍3. 如何使用4. 代码解析5. 运行效果6.相关源码7. 总结与展望1

阅读更多...

Java的IO模型、Netty原理解析

Java的IO模型、Netty原理解析

《Java的IO模型、Netty原理解析》Java的I/O是以流的方式进行数据输入输出的,Java的类库涉及很多领域的IO内容：标准的输入输出,文件的操作、网络上的数据传输流、字符串流、对象流等,这篇... 目录1.什么是IO2.同步与异步、阻塞与非阻塞3.三种IO模型BIO（blocking I/O）NI

阅读更多...

基于Flask框架添加多个AI模型的API并进行交互

基于Flask框架添加多个AI模型的API并进行交互

《基于Flask框架添加多个AI模型的API并进行交互》：本文主要介绍如何基于Flask框架开发AI模型API管理系统,允许用户添加、删除不同AI模型的API密钥,感兴趣的可以了解下... 目录1. 概述2. 后端代码说明2.1 依赖库导入2.2 应用初始化2.3 API 存储字典2.4 路由函数2.5 应

阅读更多...

C语言中的数据类型强制转换

C语言中的数据类型强制转换

《C语言中的数据类型强制转换》：本文主要介绍C语言中的数据类型强制转换方式,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录C语言数据类型强制转换自动转换强制转换类型总结C语言数据类型强制转换强制类型转换：是通过类型转换运算来实现的，主要的数据类型转换分为自动转换

阅读更多...