BaiChuan13B-GPTQ量化详解

2024-04-19 05:44
文章标签 详解 量化 gptq baichuan13b

本文主要是介绍BaiChuan13B-GPTQ量化详解,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

知识要点:
1、按照网上搜索的一些代码,如使用auto_gptq原生库进行训练后量化,可能会正常量化,但是在线推理时会出现如找不到bin文件或者tf文件,即模型权重文件,所以和网上大部分代码不同的地方在于,需要提前保存对应模型的权重文件,如果是BaiChuan13B,那么在进行模型量化前,对其进行保存
代码如下:

def save_bin(pretrained_model_dir, quantized_model_dir):from transformers import AutoModelForCausalLMimport torchimport osoriginal_model = AutoModelForCausalLM.from_pretrained(pretrained_model_dir, trust_remote_code=True,torch_dtype=torch.float16,      # 不执行这个保存的bin文件会非常的大,大概50多Gsafetensors=True)print("保存bin文件...")model_path = os.path.join(quantized_model_dir, "pytorch_model"+".bin")torch.save(original_model.state_dict(), model_path)print("保存bin文件完成...")

量化代码,使用原生库auto_gptq进行量化:

def from_authority_autogptq(pretrained_model_dir, quantized_model_dir):from transformers import AutoTokenizer, AutoModelForCausalLMfrom auto_gptq import AutoGPTQForCausalLM, BaseQuantizeConfigimport loggingimport torchimport oslogging.basicConfig(format="%(asctime)s %(levelname)s [%(name)s] %(message)s", level=logging.INFO, datefmt="%Y-%m-%d %H:%M:%S")# 量化分词器加载tokenizer = AutoTokenizer.from_pretrained(pretrained_model_dir, use_fast=False, trust_remote_code=True)examples = [tokenizer("auto-gptq is an easy-to-use model quantization library with user-friendly apis, based on GPTQ algorithm.")]# 量化参数配置quantize_config = BaseQuantizeConfig(bits=4,             # quantize model to 4-bitgroup_size=128,     # it is recommended to set the value to 128desc_act=False,     # set to False can significantly speed up inference but the perplexity may slightly bad)# load un-quantized model, by default, the model will always be loaded into CPU memoryquantize_model = AutoGPTQForCausalLM.from_pretrained(pretrained_model_dir, quantize_config=quantize_config, trust_remote_code=True,device_map="auto",)print("开始量化模型.......")quantize_model.quantize(examples)# save model weightsprint("保存量化文件...")quantize_model.save_quantized(quantized_model_dir)print("保存量化文件完成...")print("保存tokenizer...")tokenizer.save_pretrained(quantized_model_dir)print("保存tokenizer完成...")

按照上述步骤,此时模型量化文件保存成功,接下来就是模型在线推理

def get_baichuan2_autogptq(quantized_model_dir):from transformers import AutoModelForCausalLM, AutoTokenizerfrom transformers.generation.utils import GenerationConfigimport torch# 模型地址model_id = quantized_model_dirprint("加载分词器tokenizer...")tokenizer = AutoTokenizer.from_pretrained(model_id, trust_remote_code=True,use_fast=False)'''warnings.warn(f'Input type into Linear4bit is torch.float16, but bnb_4bit_compute_type=torch.float32 (default).This will lead to slow inference or training speed'''print("加载量化model...")quantized_model_4bit = AutoModelForCausalLM.from_pretrained(# 要载入的模型名称model_id, load_in_4bit=True,# 仅使用本地模型,不通过网络下载模型local_files_only=True,# 指定模型精度torch_dtype=torch.float16,trust_remote_code=True,safetensors=True)print("加载config...")quantized_model_4bit.generation_config = GenerationConfig.from_pretrained(model_id)# 实例测试print("生成...")messages = []messages.append({"role": "user", "content":"亚历山大为何如此厉害"})response = quantized_model_4bit.chat(tokenizer, messages)print(response)return response 

最后整合代码:

'''bin 文件是保存的是原始的加载模型文件,不涉及量化操作的模型过程,不然会报错或者加载不出来!!!'''
def save_bin(pretrained_model_dir, quantized_model_dir):from transformers import AutoModelForCausalLMimport torchimport osoriginal_model = AutoModelForCausalLM.from_pretrained(pretrained_model_dir, trust_remote_code=True,torch_dtype=torch.float16,      # 不执行这个保存的bin文件会非常的大,大概50多Gsafetensors=True)print("保存bin文件...")model_path = os.path.join(quantized_model_dir, "pytorch_model"+".bin")torch.save(original_model.state_dict(), model_path)print("保存bin文件完成...")# auto_gptq原生库, 量化占用显存7-10G不等,用时23分钟,推理18G
def from_authority_autogptq(pretrained_model_dir, quantized_model_dir):from transformers import AutoTokenizer, AutoModelForCausalLMfrom auto_gptq import AutoGPTQForCausalLM, BaseQuantizeConfigimport loggingimport torchimport oslogging.basicConfig(format="%(asctime)s %(levelname)s [%(name)s] %(message)s", level=logging.INFO, datefmt="%Y-%m-%d %H:%M:%S")# 量化分词器加载tokenizer = AutoTokenizer.from_pretrained(pretrained_model_dir, use_fast=False, trust_remote_code=True)examples = [tokenizer("auto-gptq is an easy-to-use model quantization library with user-friendly apis, based on GPTQ algorithm.")]# 量化参数配置quantize_config = BaseQuantizeConfig(bits=4,             # quantize model to 4-bitgroup_size=128,     # it is recommended to set the value to 128desc_act=False,     # set to False can significantly speed up inference but the perplexity may slightly bad)# load un-quantized model, by default, the model will always be loaded into CPU memoryquantize_model = AutoGPTQForCausalLM.from_pretrained(pretrained_model_dir, quantize_config=quantize_config, trust_remote_code=True,device_map="auto",)print("开始量化模型.......")quantize_model.quantize(examples)# save model weightsprint("保存量化文件...")quantize_model.save_quantized(quantized_model_dir)print("保存量化文件完成...")print("保存tokenizer...")tokenizer.save_pretrained(quantized_model_dir)print("保存tokenizer完成...")# 加载量化后的模型方法
def get_baichuan2_autogptq(quantized_model_dir):from transformers import AutoModelForCausalLM, AutoTokenizerfrom transformers.generation.utils import GenerationConfigimport torch# 模型地址model_id = quantized_model_dirprint("加载分词器tokenizer...")tokenizer = AutoTokenizer.from_pretrained(model_id, trust_remote_code=True,use_fast=False)'''warnings.warn(f'Input type into Linear4bit is torch.float16, but bnb_4bit_compute_type=torch.float32 (default).This will lead to slow inference or training speed'''print("加载量化model...")quantized_model_4bit = AutoModelForCausalLM.from_pretrained(# 要载入的模型名称model_id, load_in_4bit=True,# 仅使用本地模型,不通过网络下载模型local_files_only=True,# 指定模型精度torch_dtype=torch.float16,trust_remote_code=True,safetensors=True)print("加载config...")quantized_model_4bit.generation_config = GenerationConfig.from_pretrained(model_id)# 实例测试print("生成...")messages = []messages.append({"role": "user", "content":"```桥架\n1、名称:机房走线架(铝合金) 2、规格:300mm*100mm 3、含支吊架制作安装 4、其它:具体详见图纸、技术规范书、图集、招标文件、招标答疑、政府相关文件、规范等其它资料,满足验收要求```\n请仔细阅读上文,并从中分析出实体列表中的各实体。请使用json字典格式回答,其中,键为各实体名称,值为从文本中提取出的内容(若没有相应实体则值为'无')。\n实体列表如下(目标实体之间通过“;”隔开): ```名称;型号;材质;类型;规格;接地方式```"})response = quantized_model_4bit.chat(tokenizer, messages)print(response)return response if __name__ == "__main__":# from_transformers_autogptq 方法量化模型# pretrained_model_dir = "/root/lk/big_model/Baichuan2-13B-Chat"# quantized_model_dir = "/root/lk/big_model/baichuan2_autogptq"# from_transformers_autogptq(pretrained_model_dir, quantized_model_dir)import datetimeprint("程序开始时间------->>>>>>", datetime.datetime.now().strftime('%Y-%m-%d %H:%M:%S'))# 地址pretrained_model_dir = "/root/lk/big_model/Baichuan2-13B-Chat"quantized_model_dir = "/root/lk/big_model/baichuan2_autogptq"# 第一步:保存原始模型的Bin文件,然后再量化(很关键)# save_bin(pretrained_model_dir, quantized_model_dir)# 第二部:执行来自autogptq原始包量化模型# from_authority_autogptq(pretrained_model_dir, quantized_model_dir)# 第三部:使用量化模型进行推理(需要添加对应文件)get_baichuan2_autogptq(quantized_model_dir)print("程序结束时间------->>>>>>", datetime.datetime.now().strftime('%Y-%m-%d %H:%M:%S'))

对应包版本:

auto-gptq==0.6.0
transformers==4.39.2
torch==2.0.1

这篇关于BaiChuan13B-GPTQ量化详解的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/916752

相关文章

Python装饰器之类装饰器详解

《Python装饰器之类装饰器详解》本文将详细介绍Python中类装饰器的概念、使用方法以及应用场景,并通过一个综合详细的例子展示如何使用类装饰器,希望对大家有所帮助,如有错误或未考虑完全的地方,望不... 目录1. 引言2. 装饰器的基本概念2.1. 函数装饰器复习2.2 类装饰器的定义和使用3. 类装饰

MySQL 中的 JSON 查询案例详解

《MySQL中的JSON查询案例详解》:本文主要介绍MySQL的JSON查询的相关知识,本文给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的朋友参考下吧... 目录mysql 的 jsON 路径格式基本结构路径组件详解特殊语法元素实际示例简单路径复杂路径简写操作符注意MySQL 的 J

Python ZIP文件操作技巧详解

《PythonZIP文件操作技巧详解》在数据处理和系统开发中,ZIP文件操作是开发者必须掌握的核心技能,Python标准库提供的zipfile模块以简洁的API和跨平台特性,成为处理ZIP文件的首选... 目录一、ZIP文件操作基础三板斧1.1 创建压缩包1.2 解压操作1.3 文件遍历与信息获取二、进阶技

一文详解Java异常处理你都了解哪些知识

《一文详解Java异常处理你都了解哪些知识》:本文主要介绍Java异常处理的相关资料,包括异常的分类、捕获和处理异常的语法、常见的异常类型以及自定义异常的实现,文中通过代码介绍的非常详细,需要的朋... 目录前言一、什么是异常二、异常的分类2.1 受检异常2.2 非受检异常三、异常处理的语法3.1 try-

Java中的@SneakyThrows注解用法详解

《Java中的@SneakyThrows注解用法详解》:本文主要介绍Java中的@SneakyThrows注解用法的相关资料,Lombok的@SneakyThrows注解简化了Java方法中的异常... 目录前言一、@SneakyThrows 简介1.1 什么是 Lombok?二、@SneakyThrows

Java中字符串转时间与时间转字符串的操作详解

《Java中字符串转时间与时间转字符串的操作详解》Java的java.time包提供了强大的日期和时间处理功能,通过DateTimeFormatter可以轻松地在日期时间对象和字符串之间进行转换,下面... 目录一、字符串转时间(一)使用预定义格式(二)自定义格式二、时间转字符串(一)使用预定义格式(二)自

Redis Pipeline(管道) 详解

《RedisPipeline(管道)详解》Pipeline管道是Redis提供的一种批量执行命令的机制,通过将多个命令一次性发送到服务器并统一接收响应,减少网络往返次数(RTT),显著提升执行效率... 目录Redis Pipeline 详解1. Pipeline 的核心概念2. 工作原理与性能提升3. 核

Python正则表达式语法及re模块中的常用函数详解

《Python正则表达式语法及re模块中的常用函数详解》这篇文章主要给大家介绍了关于Python正则表达式语法及re模块中常用函数的相关资料,正则表达式是一种强大的字符串处理工具,可以用于匹配、切分、... 目录概念、作用和步骤语法re模块中的常用函数总结 概念、作用和步骤概念: 本身也是一个字符串,其中

Nginx location匹配模式与规则详解

《Nginxlocation匹配模式与规则详解》:本文主要介绍Nginxlocation匹配模式与规则,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录一、环境二、匹配模式1. 精准模式2. 前缀模式(不继续匹配正则)3. 前缀模式(继续匹配正则)4. 正则模式(大

Android实现在线预览office文档的示例详解

《Android实现在线预览office文档的示例详解》在移动端展示在线Office文档(如Word、Excel、PPT)是一项常见需求,这篇文章为大家重点介绍了两种方案的实现方法,希望对大家有一定的... 目录一、项目概述二、相关技术知识三、实现思路3.1 方案一:WebView + Office Onl