Qwen量化脚本run_gptq.py解析

2024-04-18 14:12
文章标签 解析 py 脚本 量化 run qwen gptq

本文主要是介绍Qwen量化脚本run_gptq.py解析,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

Qwen量化脚本run_gptq.py解析

代码路径 https://github.com/QwenLM/Qwen/
run_gptq.py路径 https://github.com/QwenLM/Qwen/blob/main/run_gptq.py

代码解析:

import argparse
import json
from typing import Dict
import loggingimport torch
import transformers
from transformers import AutoTokenizer
from transformers.trainer_pt_utils import LabelSmoother
from auto_gptq import AutoGPTQForCausalLM, BaseQuantizeConfig
IGNORE_TOKEN_ID = LabelSmoother.ignore_index#其中json文件格式如下
# [
#   {
#     "id": "identity_0",
#     "conversations": [
#       {
#         "from": "user",
#         "value": "xxxx"
#       },
#       {
#         "from": "assistant",
#         "value": "xxx"
#       }
#     ]
#   },
#   {
#     "id": "identity_1",
#     "conversations": [
#       {
#         "from": "user",
#         "value": "xxx"
#       },
#       {
#         "from": "assistant",
#         "value": "xxx"
#       }
#     ]
#   },
# ]def preprocess(sources,tokenizer: transformers.PreTrainedTokenizer,max_len: int,system_message: str = "You are a helpful assistant."
) -> Dict:"""preprocess函数接收一个包含对话数据的json列表作为输入,\n通过调用transformers库中的tokenizer对数据进行编码,\n并按照特定格式构建输入ID序列和目标ID序列.\n返回一个包含预处理数据的列表,这些数据已转换为PyTorch张量,适合于后续模型训练或推断"""#roles字典:为对话中的角色("user"和"assistant")分配特殊的前缀标签,用于区分对话双方roles = {"user": "<|im_start|>user", "assistant": "<|im_start|>assistant"}#im_start和im_end:指定tokenizer中im_start_id和im_end_id对应的整数ID。im_start = tokenizer.im_start_idim_end = tokenizer.im_end_id#nl_tokens:存储tokenizer处理换行符\n得到的输入ID序列。nl_tokens = tokenizer('\n').input_ids#_system、_user和_assistant:分别存储经过tokenizer处理后的"system"、"user"和"assistant"标签及其后的换行符对应的输入ID序列。_system = tokenizer('system').input_ids + nl_tokens_user = tokenizer('user').input_ids + nl_tokens_assistant = tokenizer('assistant').input_ids + nl_tokens# Apply prompt templates 定义空列表data,用于存放预处理后的数据样本data = []# input_ids, targets = [], []#遍历输入数据sources中的每个样本(source)for i, source in enumerate(sources):source = source["conversations"]#检查首个对话是否由用户发起(即source[0]["from"]是否为"user"),如果不是,则从源数据中移除首个对话。#过滤无效的identityif roles[source[0]["from"]] != roles["user"]:source = source[1:]#初始化空列表input_id和target,分别用于存储当前样本的输入ID序列和目标ID序列input_id, target = [], []#添加系统消息:将系统消息(包含system_message内容)转换为ID序列,添加到input_id和target中。system = [im_start] + _system + tokenizer(system_message).input_ids + [im_end] + nl_tokensinput_id += system#target中的非关键部分(如系统标签和消息内容)用IGNORE_TOKEN_ID填充。target += [im_start] + [IGNORE_TOKEN_ID] * (len(system)-3) + [im_end] + nl_tokensassert len(input_id) == len(target)#遍历源数据中的每个对话(sentence)for j, sentence in enumerate(source):# 提取角色和消息内容,并转换为ID序列role = roles[sentence["from"]]_input_id = tokenizer(role).input_ids + nl_tokens + \tokenizer(sentence["value"]).input_ids + [im_end] + nl_tokens#添加到input_id中input_id += _input_id#根据角色类型,生成对应_target的目标ID序列,_target只提取assistant的对话内容,忽略user的对话内容。if role == '<|im_start|>user':#若角色为"user",则目标ID序列仅包含开始标签和结束标签,用忽略ID填充对话内容。_target = [im_start] + [IGNORE_TOKEN_ID] * (len(_input_id)-3) + [im_end] + nl_tokens#若角色为"assistant",则目标ID序列包含开始标签、忽略ID填充(仅对角色标签)、对话内容(不包括角色标签和结束标签)、结束标签elif role == '<|im_start|>assistant':_target = [im_start] + [IGNORE_TOKEN_ID] * len(tokenizer(role).input_ids) + \_input_id[len(tokenizer(role).input_ids)+1:-2] + [im_end] + nl_tokenselse:raise NotImplementedErrortarget += _targetassert len(input_id) == len(target)#截取并转换为张量:#截取input_id和target至最大长度max_leninput_id = torch.tensor(input_id[:max_len], dtype=torch.int)target = torch.tensor(target[:max_len], dtype=torch.int)#创建一个字典,包含键input_ids(存储输入张量)和attention_mask(等于输入张量,用于指示非填充位置)。将该字典添加到data列表中data.append(dict(input_ids=input_id, attention_mask=input_id.ne(tokenizer.pad_token_id)))return dataif __name__ == "__main__":parser = argparse.ArgumentParser("Model Quantization using AutoGPTQ")parser.add_argument("--model_name_or_path", type=str, help="model path")parser.add_argument("--data_path", type=str, help="calibration data path")parser.add_argument("--out_path", type=str, help="output path of the quantized model")parser.add_argument("--max_len", type=int, default=8192, help="max length of calibration data")parser.add_argument("--bits", type=int, default=4, help="the bits of quantized model. 4 indicates int4 models.")parser.add_argument("--group-size", type=int, default=128, help="the group size of quantized model")args = parser.parse_args()quantize_config = BaseQuantizeConfig(bits=args.bits,group_size=args.group_size,damp_percent=0.01,desc_act=False,  # set to False can significantly speed up inference but the perplexity may slightly badstatic_groups=False,sym=True,true_sequential=True,model_name_or_path=None,model_file_base_name="model")#使用AutoTokenizer类从给定路径args.model_name_or_path加载预训练的tokenizertokenizer = AutoTokenizer.from_pretrained(args.model_name_or_path, trust_remote_code=True)tokenizer.pad_token_id = tokenizer.eod_id#加载json数据文件,调用process函数预处理数据,返回处理后的数据data = preprocess(json.load(open(args.data_path)), tokenizer, args.max_len)#加载预训练的模型model = AutoGPTQForCausalLM.from_pretrained(args.model_name_or_path, quantize_config, device_map="auto", trust_remote_code=True)logging.basicConfig(format="%(asctime)s %(levelname)s [%(name)s] %(message)s", level=logging.INFO, datefmt="%Y-%m-%d %H:%M:%S")#对模型进行量化,不在GPU上缓存示例数据model.quantize(data, cache_examples_on_gpu=False)#保存量化后的模型model.save_quantized(args.out_path, use_safetensors=True)#将tokenizer保存到输出路径tokenizer.save_pretrained(args.out_path)

这篇关于Qwen量化脚本run_gptq.py解析的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/915011

相关文章

nginx -t、nginx -s stop 和 nginx -s reload 命令的详细解析(结合应用场景)

《nginx-t、nginx-sstop和nginx-sreload命令的详细解析(结合应用场景)》本文解析Nginx的-t、-sstop、-sreload命令,分别用于配置语法检... 以下是关于 nginx -t、nginx -s stop 和 nginx -s reload 命令的详细解析,结合实际应

MyBatis中$与#的区别解析

《MyBatis中$与#的区别解析》文章浏览阅读314次,点赞4次,收藏6次。MyBatis使用#{}作为参数占位符时,会创建预处理语句(PreparedStatement),并将参数值作为预处理语句... 目录一、介绍二、sql注入风险实例一、介绍#(井号):MyBATis使用#{}作为参数占位符时,会

golang程序打包成脚本部署到Linux系统方式

《golang程序打包成脚本部署到Linux系统方式》Golang程序通过本地编译(设置GOOS为linux生成无后缀二进制文件),上传至Linux服务器后赋权执行,使用nohup命令实现后台运行,完... 目录本地编译golang程序上传Golang二进制文件到linux服务器总结本地编译Golang程序

PostgreSQL的扩展dict_int应用案例解析

《PostgreSQL的扩展dict_int应用案例解析》dict_int扩展为PostgreSQL提供了专业的整数文本处理能力,特别适合需要精确处理数字内容的搜索场景,本文给大家介绍PostgreS... 目录PostgreSQL的扩展dict_int一、扩展概述二、核心功能三、安装与启用四、字典配置方法

深度解析Java DTO(最新推荐)

《深度解析JavaDTO(最新推荐)》DTO(DataTransferObject)是一种用于在不同层(如Controller层、Service层)之间传输数据的对象设计模式,其核心目的是封装数据,... 目录一、什么是DTO?DTO的核心特点:二、为什么需要DTO?(对比Entity)三、实际应用场景解析

深度解析Java项目中包和包之间的联系

《深度解析Java项目中包和包之间的联系》文章浏览阅读850次,点赞13次,收藏8次。本文详细介绍了Java分层架构中的几个关键包:DTO、Controller、Service和Mapper。_jav... 目录前言一、各大包1.DTO1.1、DTO的核心用途1.2. DTO与实体类(Entity)的区别1

Java中的雪花算法Snowflake解析与实践技巧

《Java中的雪花算法Snowflake解析与实践技巧》本文解析了雪花算法的原理、Java实现及生产实践,涵盖ID结构、位运算技巧、时钟回拨处理、WorkerId分配等关键点,并探讨了百度UidGen... 目录一、雪花算法核心原理1.1 算法起源1.2 ID结构详解1.3 核心特性二、Java实现解析2.

使用Python绘制3D堆叠条形图全解析

《使用Python绘制3D堆叠条形图全解析》在数据可视化的工具箱里,3D图表总能带来眼前一亮的效果,本文就来和大家聊聊如何使用Python实现绘制3D堆叠条形图,感兴趣的小伙伴可以了解下... 目录为什么选择 3D 堆叠条形图代码实现:从数据到 3D 世界的搭建核心代码逐行解析细节优化应用场景:3D 堆叠图

深度解析Python装饰器常见用法与进阶技巧

《深度解析Python装饰器常见用法与进阶技巧》Python装饰器(Decorator)是提升代码可读性与复用性的强大工具,本文将深入解析Python装饰器的原理,常见用法,进阶技巧与最佳实践,希望可... 目录装饰器的基本原理函数装饰器的常见用法带参数的装饰器类装饰器与方法装饰器装饰器的嵌套与组合进阶技巧

解析C++11 static_assert及与Boost库的关联从入门到精通

《解析C++11static_assert及与Boost库的关联从入门到精通》static_assert是C++中强大的编译时验证工具,它能够在编译阶段拦截不符合预期的类型或值,增强代码的健壮性,通... 目录一、背景知识:传统断言方法的局限性1.1 assert宏1.2 #error指令1.3 第三方解决