vllm 部署GLM4模型进行 Zero-Shot 文本分类实验,让大模型给出分类原因,准确率可提高6%

本文主要是介绍vllm 部署GLM4模型进行 Zero-Shot 文本分类实验,让大模型给出分类原因,准确率可提高6%,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

文章目录

    • 简介
    • 数据集
    • 实验设置
    • 数据集转换
    • 模型推理
    • 评估

简介

本文记录了使用 vllm 部署 GLM4-9B-Chat 模型进行 Zero-Shot 文本分类的实验过程与结果。通过对 AG_News 数据集的测试,研究发现大模型在直接进行分类时的准确率为 77%。然而,让模型给出分类原因描述(reason)后,准确率显著提升至 83%,提升幅度达 6%。这一结果验证了引入 reasoning 机制的有效性。文中详细介绍了实验数据、提示词设计、模型推理方法及评估手段。

复现自这篇论文:Text Classification via Large Language Models. https://arxiv.org/abs/2305.08377 让大模型使用reason。

该项目的文件结构如下所示:

├── cls_vllm.log
├── cls_vllm.py
├── data
│   ├── basic_llm.csv
│   └── reason_llm.csv
├── data_processon.ipynb
├── eval.ipynb
├── output
│   ├── basic_vllm.pkl
│   └── reason_vllm.pkl
├── settings.py
└── utils.py

数据集

现在要找一个数据集做实验,进入 https://paperswithcode.com/。
找到 文本分类,看目前的 SOTA 是在哪些数据集上做的,文本分类. https://paperswithcode.com/task/text-classification

在这里插入图片描述

实验使用了 AG_News 数据集。若您对数据集操作技巧感兴趣,可以参考这篇文章:

datasets库一些基本方法:filter、map、select等. https://blog.csdn.net/sjxgghg/article/details/141384131

实验设置

settings.py 文件中,我们定义了一些实验中使用的提示词:

LABEL_NAMES = ['World', 'Sports', 'Business', 'Science | Technology']BASIC_CLS_PROMPT = """
你是文本分类专家,请你给下述文本分类,把它分到下述类别中:
* World
* Sports
* Business
* Science | Technologytext是待分类的文本。请你一步一步思考,在label中给出最终的分类结果:
text: {text}
label: 
"""REASON_CLS_PROMPT = """
你是文本分类专家,请你给下述文本分类,把它分到下述类别中:
* World
* Sports
* Business
* Science | Technologytext是待分类的文本。请你一步一步思考,首先在reason中说明你的判断理由,然后在label中给出最终的分类结果:
text: {text}
reason: 
label: 
""".lstrip()data_files = ["data/basic_llm.csv","data/reason_llm.csv"
]output_dirs = ["output/basic_vllm.pkl","output/reason_vllm.pkl"
]

这两个数据文件用于存储不同提示词的大模型推理数据:

  • data/basic_llm.csv
  • data/reason_llm.csv

数据集转换

为了让模型能够执行文本分类任务,我们需要对原始数据集进行转换,添加提示词。

原始的数据集样式,要经过提示词转换后,才能让模型做文本分类。

代码如下:

data_processon.ipynb

from datasets import load_datasetfrom settings import LABEL_NAMES, BASIC_CLS_PROMPT, REASON_CLS_PROMPT, data_filesimport os
os.environ['HTTP_PROXY'] = 'http://127.0.0.1:7890'
os.environ['HTTPS_PROXY'] = 'http://127.0.0.1:7890'# 加载 AG_News 数据集的测试集,只使用test的数据去预测
ds = load_dataset("fancyzhx/ag_news")# 转换为 basic 提示词格式
def trans2llm(item):item["text"] = BASIC_CLS_PROMPT.format(text=item["text"])return item
ds["test"].map(trans2llm).to_csv(data_files[0], index=False)# 转换为 reason 提示词格式
def trans2llm(item):item["text"] = REASON_CLS_PROMPT.format(text=item["text"])return item
ds["test"].map(trans2llm).to_csv(data_files[1], index=False)

上述代码实现的功能就是把数据集的文本,放入到提示词的{text} 里面。

模型推理

本文使用 ZhipuAI/glm-4-9b-chat. https://www.modelscope.cn/models/zhipuai/glm-4-9b-chat 智谱9B的chat模型,进行VLLM推理。

为了简化模型调用,我们编写了一些实用工具:

utils.py

import pickle
from transformers import AutoTokenizer
from vllm import LLM, SamplingParams
from modelscope import snapshot_downloaddef save_obj(obj, name):"""将对象保存到文件:param obj: 要保存的对象:param name: 文件的名称(包括路径)"""with open(name, "wb") as f:pickle.dump(obj, f, pickle.HIGHEST_PROTOCOL)def load_obj(name):"""从文件加载对象:param name: 文件的名称(包括路径):return: 反序列化后的对象"""with open(name, "rb") as f:return pickle.load(f)def glm4_vllm(prompts, output_dir, temperature=0, max_tokens=1024):# GLM-4-9B-Chat-1Mmax_model_len, tp_size = 131072, 1model_dir = snapshot_download('ZhipuAI/glm-4-9b-chat')tokenizer = AutoTokenizer.from_pretrained(model_dir, trust_remote_code=True)llm = LLM(model=model_dir,tensor_parallel_size=tp_size,max_model_len=max_model_len,trust_remote_code=True,enforce_eager=True,)stop_token_ids = [151329, 151336, 151338]sampling_params = SamplingParams(temperature=temperature, max_tokens=max_tokens, stop_token_ids=stop_token_ids)inputs = tokenizer.apply_chat_template(prompts, tokenize=False, add_generation_prompt=True)outputs = llm.generate(prompts=inputs, sampling_params=sampling_params)save_obj(outputs, output_dir)

glm4_vllm :

  • 参考自 https://www.modelscope.cn/models/zhipuai/glm-4-9b-chat

    给大家封装好了,以后有任务,直接调用函数

save_obj:

  • 把python对象,序列化保存到本地;

    在本项目中,用来保存 vllm 推理的结果;

模型推理代码
cls_vllm.py

from datasets import load_datasetfrom utils import glm4_vllm
from settings import data_files, output_dirs# basic 预测
basic_dataset = load_dataset("csv",data_files=data_files[0],split="train",
)
prompts = []
for item in basic_dataset:prompts.append([{"role": "user", "content": item["text"]}])
glm4_vllm(prompts, output_dirs[0])# reason 预测,添加了原因说明
reason_dataset = load_dataset("csv",data_files=data_files[1],split="train",
)
prompts = []
for item in reason_dataset:prompts.append([{"role": "user", "content": item["text"]}])
glm4_vllm(prompts, output_dirs[1])# nohup python cls_vllm.py > cls_vllm.log 2>&1 &

在推理过程中,我们使用了 glm4_vllm 函数进行模型推理,并将结果保存到指定路径。

output_dirs: 最终推理完成的结果输出路径;

评估

在获得模型推理结果后,我们需要对其进行评估,以衡量分类的准确性。

eval.ipynb

from settings import LABEL_NAMES
from utils import load_objfrom datasets import load_dataset
from settings import data_files, output_dirsimport os
os.environ['HTTP_PROXY'] = 'http://127.0.0.1:7890'
os.environ['HTTPS_PROXY'] = 'http://127.0.0.1:7890'ds = load_dataset("fancyzhx/ag_news")
def eval(raw_dataset, vllm_predict):right = 0 # 预测正确的数量multi_label = 0 # 预测多标签的数量for data, output in zip(raw_dataset, vllm_predict):true_label = LABEL_NAMES[data['label']]output_text = output.outputs[0].textpred_label = output_text.split("label")[-1]tmp_pred = []for label in LABEL_NAMES:if label in pred_label:tmp_pred.append(label)if len(tmp_pred) > 1:multi_label += 1if " ".join(tmp_pred) == true_label:right += 1return right, multi_label

我们分别对 basic 和 reason 预测结果进行了评估。

basic 预测结果的评估 :

dataset = load_dataset('csv', data_files=data_files[0], split='train')
output = load_obj(output_dirs[0])eval(dataset, output)

输出结果:

(5845, 143)

加了reason 预测结果评估:

dataset = load_dataset('csv', data_files=data_files[1], split='train')
output = load_obj(output_dirs[1])eval(dataset, output)

输出结果:

(6293, 14)

评估结果如下:

  • basic: 直接分类准确率为 77%(5845/7600),误分类为多标签的样本有 143 个。
  • reason: 在输出原因后分类准确率提高至 83%(6293/7600),多标签误分类样本减少至 14 个。

误分类多标签: 这是单分类问题,大模型应该只输出一个类别,但是它输出了多个类别;

可以发现,让大模型输出reason,不仅分类准确率提升了5%,而且在误分类多标签的数量也有所下降。
原先误分类多标签有143条数据,使用reason后,多标签误分类的数量降低到了14条。

这些结果表明,让模型输出 reason的过程,确实能够有效提升分类准确性,还能减少误分类多个标签。

这篇关于vllm 部署GLM4模型进行 Zero-Shot 文本分类实验,让大模型给出分类原因,准确率可提高6%的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1100409

相关文章

闲置电脑也能活出第二春?鲁大师AiNAS让你动动手指就能轻松部署

对于大多数人而言,在这个“数据爆炸”的时代或多或少都遇到过存储告急的情况,这使得“存储焦虑”不再是个别现象,而将会是随着软件的不断臃肿而越来越普遍的情况。从不少手机厂商都开始将存储上限提升至1TB可以见得,我们似乎正处在互联网信息飞速增长的阶段,对于存储的需求也将会不断扩大。对于苹果用户而言,这一问题愈发严峻,毕竟512GB和1TB版本的iPhone可不是人人都消费得起的,因此成熟的外置存储方案开

流媒体平台/视频监控/安防视频汇聚EasyCVR播放暂停后视频画面黑屏是什么原因?

视频智能分析/视频监控/安防监控综合管理系统EasyCVR视频汇聚融合平台,是TSINGSEE青犀视频垂直深耕音视频流媒体技术、AI智能技术领域的杰出成果。该平台以其强大的视频处理、汇聚与融合能力,在构建全栈视频监控系统中展现出了独特的优势。视频监控管理系统EasyCVR平台内置了强大的视频解码、转码、压缩等技术,能够处理多种视频流格式,并以多种格式(RTMP、RTSP、HTTP-FLV、WebS

大模型研发全揭秘:客服工单数据标注的完整攻略

在人工智能(AI)领域,数据标注是模型训练过程中至关重要的一步。无论你是新手还是有经验的从业者,掌握数据标注的技术细节和常见问题的解决方案都能为你的AI项目增添不少价值。在电信运营商的客服系统中,工单数据是客户问题和解决方案的重要记录。通过对这些工单数据进行有效标注,不仅能够帮助提升客服自动化系统的智能化水平,还能优化客户服务流程,提高客户满意度。本文将详细介绍如何在电信运营商客服工单的背景下进行

基于人工智能的图像分类系统

目录 引言项目背景环境准备 硬件要求软件安装与配置系统设计 系统架构关键技术代码示例 数据预处理模型训练模型预测应用场景结论 1. 引言 图像分类是计算机视觉中的一个重要任务,目标是自动识别图像中的对象类别。通过卷积神经网络(CNN)等深度学习技术,我们可以构建高效的图像分类系统,广泛应用于自动驾驶、医疗影像诊断、监控分析等领域。本文将介绍如何构建一个基于人工智能的图像分类系统,包括环境

认识、理解、分类——acm之搜索

普通搜索方法有两种:1、广度优先搜索;2、深度优先搜索; 更多搜索方法: 3、双向广度优先搜索; 4、启发式搜索(包括A*算法等); 搜索通常会用到的知识点:状态压缩(位压缩,利用hash思想压缩)。

Andrej Karpathy最新采访:认知核心模型10亿参数就够了,AI会打破教育不公的僵局

夕小瑶科技说 原创  作者 | 海野 AI圈子的红人,AI大神Andrej Karpathy,曾是OpenAI联合创始人之一,特斯拉AI总监。上一次的动态是官宣创办一家名为 Eureka Labs 的人工智能+教育公司 ,宣布将长期致力于AI原生教育。 近日,Andrej Karpathy接受了No Priors(投资博客)的采访,与硅谷知名投资人 Sara Guo 和 Elad G

阿里开源语音识别SenseVoiceWindows环境部署

SenseVoice介绍 SenseVoice 专注于高精度多语言语音识别、情感辨识和音频事件检测多语言识别: 采用超过 40 万小时数据训练,支持超过 50 种语言,识别效果上优于 Whisper 模型。富文本识别:具备优秀的情感识别,能够在测试数据上达到和超过目前最佳情感识别模型的效果。支持声音事件检测能力,支持音乐、掌声、笑声、哭声、咳嗽、喷嚏等多种常见人机交互事件进行检测。高效推

【Prometheus】PromQL向量匹配实现不同标签的向量数据进行运算

✨✨ 欢迎大家来到景天科技苑✨✨ 🎈🎈 养成好习惯,先赞后看哦~🎈🎈 🏆 作者简介:景天科技苑 🏆《头衔》:大厂架构师,华为云开发者社区专家博主,阿里云开发者社区专家博主,CSDN全栈领域优质创作者,掘金优秀博主,51CTO博客专家等。 🏆《博客》:Python全栈,前后端开发,小程序开发,人工智能,js逆向,App逆向,网络系统安全,数据分析,Django,fastapi

Retrieval-based-Voice-Conversion-WebUI模型构建指南

一、模型介绍 Retrieval-based-Voice-Conversion-WebUI(简称 RVC)模型是一个基于 VITS(Variational Inference with adversarial learning for end-to-end Text-to-Speech)的简单易用的语音转换框架。 具有以下特点 简单易用:RVC 模型通过简单易用的网页界面,使得用户无需深入了

【测试】输入正确用户名和密码,点击登录没有响应的可能性原因

目录 一、前端问题 1. 界面交互问题 2. 输入数据校验问题 二、网络问题 1. 网络连接中断 2. 代理设置问题 三、后端问题 1. 服务器故障 2. 数据库问题 3. 权限问题: 四、其他问题 1. 缓存问题 2. 第三方服务问题 3. 配置问题 一、前端问题 1. 界面交互问题 登录按钮的点击事件未正确绑定,导致点击后无法触发登录操作。 页面可能存在