Qwen量化脚本run_gptq.py解析

2024-04-18 14:12
文章标签 解析 py 脚本 量化 run qwen gptq

本文主要是介绍Qwen量化脚本run_gptq.py解析,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

Qwen量化脚本run_gptq.py解析

代码路径 https://github.com/QwenLM/Qwen/
run_gptq.py路径 https://github.com/QwenLM/Qwen/blob/main/run_gptq.py

代码解析:

import argparse
import json
from typing import Dict
import loggingimport torch
import transformers
from transformers import AutoTokenizer
from transformers.trainer_pt_utils import LabelSmoother
from auto_gptq import AutoGPTQForCausalLM, BaseQuantizeConfig
IGNORE_TOKEN_ID = LabelSmoother.ignore_index#其中json文件格式如下
# [
#   {
#     "id": "identity_0",
#     "conversations": [
#       {
#         "from": "user",
#         "value": "xxxx"
#       },
#       {
#         "from": "assistant",
#         "value": "xxx"
#       }
#     ]
#   },
#   {
#     "id": "identity_1",
#     "conversations": [
#       {
#         "from": "user",
#         "value": "xxx"
#       },
#       {
#         "from": "assistant",
#         "value": "xxx"
#       }
#     ]
#   },
# ]def preprocess(sources,tokenizer: transformers.PreTrainedTokenizer,max_len: int,system_message: str = "You are a helpful assistant."
) -> Dict:"""preprocess函数接收一个包含对话数据的json列表作为输入,\n通过调用transformers库中的tokenizer对数据进行编码,\n并按照特定格式构建输入ID序列和目标ID序列.\n返回一个包含预处理数据的列表,这些数据已转换为PyTorch张量,适合于后续模型训练或推断"""#roles字典:为对话中的角色("user"和"assistant")分配特殊的前缀标签,用于区分对话双方roles = {"user": "<|im_start|>user", "assistant": "<|im_start|>assistant"}#im_start和im_end:指定tokenizer中im_start_id和im_end_id对应的整数ID。im_start = tokenizer.im_start_idim_end = tokenizer.im_end_id#nl_tokens:存储tokenizer处理换行符\n得到的输入ID序列。nl_tokens = tokenizer('\n').input_ids#_system、_user和_assistant:分别存储经过tokenizer处理后的"system"、"user"和"assistant"标签及其后的换行符对应的输入ID序列。_system = tokenizer('system').input_ids + nl_tokens_user = tokenizer('user').input_ids + nl_tokens_assistant = tokenizer('assistant').input_ids + nl_tokens# Apply prompt templates 定义空列表data,用于存放预处理后的数据样本data = []# input_ids, targets = [], []#遍历输入数据sources中的每个样本(source)for i, source in enumerate(sources):source = source["conversations"]#检查首个对话是否由用户发起(即source[0]["from"]是否为"user"),如果不是,则从源数据中移除首个对话。#过滤无效的identityif roles[source[0]["from"]] != roles["user"]:source = source[1:]#初始化空列表input_id和target,分别用于存储当前样本的输入ID序列和目标ID序列input_id, target = [], []#添加系统消息:将系统消息(包含system_message内容)转换为ID序列,添加到input_id和target中。system = [im_start] + _system + tokenizer(system_message).input_ids + [im_end] + nl_tokensinput_id += system#target中的非关键部分(如系统标签和消息内容)用IGNORE_TOKEN_ID填充。target += [im_start] + [IGNORE_TOKEN_ID] * (len(system)-3) + [im_end] + nl_tokensassert len(input_id) == len(target)#遍历源数据中的每个对话(sentence)for j, sentence in enumerate(source):# 提取角色和消息内容,并转换为ID序列role = roles[sentence["from"]]_input_id = tokenizer(role).input_ids + nl_tokens + \tokenizer(sentence["value"]).input_ids + [im_end] + nl_tokens#添加到input_id中input_id += _input_id#根据角色类型,生成对应_target的目标ID序列,_target只提取assistant的对话内容,忽略user的对话内容。if role == '<|im_start|>user':#若角色为"user",则目标ID序列仅包含开始标签和结束标签,用忽略ID填充对话内容。_target = [im_start] + [IGNORE_TOKEN_ID] * (len(_input_id)-3) + [im_end] + nl_tokens#若角色为"assistant",则目标ID序列包含开始标签、忽略ID填充(仅对角色标签)、对话内容(不包括角色标签和结束标签)、结束标签elif role == '<|im_start|>assistant':_target = [im_start] + [IGNORE_TOKEN_ID] * len(tokenizer(role).input_ids) + \_input_id[len(tokenizer(role).input_ids)+1:-2] + [im_end] + nl_tokenselse:raise NotImplementedErrortarget += _targetassert len(input_id) == len(target)#截取并转换为张量:#截取input_id和target至最大长度max_leninput_id = torch.tensor(input_id[:max_len], dtype=torch.int)target = torch.tensor(target[:max_len], dtype=torch.int)#创建一个字典,包含键input_ids(存储输入张量)和attention_mask(等于输入张量,用于指示非填充位置)。将该字典添加到data列表中data.append(dict(input_ids=input_id, attention_mask=input_id.ne(tokenizer.pad_token_id)))return dataif __name__ == "__main__":parser = argparse.ArgumentParser("Model Quantization using AutoGPTQ")parser.add_argument("--model_name_or_path", type=str, help="model path")parser.add_argument("--data_path", type=str, help="calibration data path")parser.add_argument("--out_path", type=str, help="output path of the quantized model")parser.add_argument("--max_len", type=int, default=8192, help="max length of calibration data")parser.add_argument("--bits", type=int, default=4, help="the bits of quantized model. 4 indicates int4 models.")parser.add_argument("--group-size", type=int, default=128, help="the group size of quantized model")args = parser.parse_args()quantize_config = BaseQuantizeConfig(bits=args.bits,group_size=args.group_size,damp_percent=0.01,desc_act=False,  # set to False can significantly speed up inference but the perplexity may slightly badstatic_groups=False,sym=True,true_sequential=True,model_name_or_path=None,model_file_base_name="model")#使用AutoTokenizer类从给定路径args.model_name_or_path加载预训练的tokenizertokenizer = AutoTokenizer.from_pretrained(args.model_name_or_path, trust_remote_code=True)tokenizer.pad_token_id = tokenizer.eod_id#加载json数据文件,调用process函数预处理数据,返回处理后的数据data = preprocess(json.load(open(args.data_path)), tokenizer, args.max_len)#加载预训练的模型model = AutoGPTQForCausalLM.from_pretrained(args.model_name_or_path, quantize_config, device_map="auto", trust_remote_code=True)logging.basicConfig(format="%(asctime)s %(levelname)s [%(name)s] %(message)s", level=logging.INFO, datefmt="%Y-%m-%d %H:%M:%S")#对模型进行量化,不在GPU上缓存示例数据model.quantize(data, cache_examples_on_gpu=False)#保存量化后的模型model.save_quantized(args.out_path, use_safetensors=True)#将tokenizer保存到输出路径tokenizer.save_pretrained(args.out_path)

这篇关于Qwen量化脚本run_gptq.py解析的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/915011

相关文章

Agent开发核心技术解析以及现代Agent架构设计

《Agent开发核心技术解析以及现代Agent架构设计》在人工智能领域,Agent并非一个全新的概念,但在大模型时代,它被赋予了全新的生命力,简单来说,Agent是一个能够自主感知环境、理解任务、制定... 目录一、回归本源:到底什么是Agent?二、核心链路拆解:Agent的"大脑"与"四肢"1. 规划模

MySQL字符串转数值的方法全解析

《MySQL字符串转数值的方法全解析》在MySQL开发中,字符串与数值的转换是高频操作,本文从隐式转换原理、显式转换方法、典型场景案例、风险防控四个维度系统梳理,助您精准掌握这一核心技能,需要的朋友可... 目录一、隐式转换:自动但需警惕的&ld编程quo;双刃剑”二、显式转换:三大核心方法详解三、典型场景

SQL 注入攻击(SQL Injection)原理、利用方式与防御策略深度解析

《SQL注入攻击(SQLInjection)原理、利用方式与防御策略深度解析》本文将从SQL注入的基本原理、攻击方式、常见利用手法,到企业级防御方案进行全面讲解,以帮助开发者和安全人员更系统地理解... 目录一、前言二、SQL 注入攻击的基本概念三、SQL 注入常见类型分析1. 基于错误回显的注入(Erro

C++ 多态性实战之何时使用 virtual 和 override的问题解析

《C++多态性实战之何时使用virtual和override的问题解析》在面向对象编程中,多态是一个核心概念,很多开发者在遇到override编译错误时,不清楚是否需要将基类函数声明为virt... 目录C++ 多态性实战:何时使用 virtual 和 override?引言问题场景判断是否需要多态的三个关

Springboot主配置文件解析

《Springboot主配置文件解析》SpringBoot主配置文件application.yml支持多种核心值类型,包括字符串、数字、布尔值等,文章详细介绍了Profile环境配置和加载位置,本文... 目录Profile环境配置配置文件加载位置Springboot主配置文件 application.ym

Java中Redisson 的原理深度解析

《Java中Redisson的原理深度解析》Redisson是一个高性能的Redis客户端,它通过将Redis数据结构映射为Java对象和分布式对象,实现了在Java应用中方便地使用Redis,本文... 目录前言一、核心设计理念二、核心架构与通信层1. 基于 Netty 的异步非阻塞通信2. 编解码器三、

Java HashMap的底层实现原理深度解析

《JavaHashMap的底层实现原理深度解析》HashMap基于数组+链表+红黑树结构,通过哈希算法和扩容机制优化性能,负载因子与树化阈值平衡效率,是Java开发必备的高效数据结构,本文给大家介绍... 目录一、概述:HashMap的宏观结构二、核心数据结构解析1. 数组(桶数组)2. 链表节点(Node

Java 虚拟线程的创建与使用深度解析

《Java虚拟线程的创建与使用深度解析》虚拟线程是Java19中以预览特性形式引入,Java21起正式发布的轻量级线程,本文给大家介绍Java虚拟线程的创建与使用,感兴趣的朋友一起看看吧... 目录一、虚拟线程简介1.1 什么是虚拟线程?1.2 为什么需要虚拟线程?二、虚拟线程与平台线程对比代码对比示例:三

一文解析C#中的StringSplitOptions枚举

《一文解析C#中的StringSplitOptions枚举》StringSplitOptions是C#中的一个枚举类型,用于控制string.Split()方法分割字符串时的行为,核心作用是处理分割后... 目录C#的StringSplitOptions枚举1.StringSplitOptions枚举的常用

Python函数作用域与闭包举例深度解析

《Python函数作用域与闭包举例深度解析》Python函数的作用域规则和闭包是编程中的关键概念,它们决定了变量的访问和生命周期,:本文主要介绍Python函数作用域与闭包的相关资料,文中通过代码... 目录1. 基础作用域访问示例1:访问全局变量示例2:访问外层函数变量2. 闭包基础示例3:简单闭包示例4