LMDeploy 量化部署

2024-06-14 22:52
文章标签 部署 量化 lmdeploy

本文主要是介绍LMDeploy 量化部署,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

在这里插入图片描述

LMDeploy简介

LMDeploy是一个由MMDeploy和MMRazor团队联合开发的工具包,旨在为大型语言模型(LLM)提供全套的轻量化、部署和服务解决方案。以下是对LMDeploy的简介,采用分点表示和归纳的方式:

  1. 核心功能

    • 高效推理引擎TurboMind:基于FasterTransformer,实现了高效推理引擎TurboMind,支持InternLM、LLaMA、vicuna等模型在NVIDIA GPU上的推理。TurboMind开发了一系列关键特性,如持久批处理、阻塞KV缓存、动态拆分融合、张量并行和高性能CUDA内核,确保LLM推理的高吞吐和低延迟。
    • 交互式推理模式:通过在多轮对话过程中缓存注意力的k/v,引擎能够记住对话历史,避免历史会话的重复处理。
    • 量化支持:LMDeploy支持多种量化方法和量化模型的高效推理,通过降低显存占用和提升推理速度来优化模型性能。其量化方法包括线性量化和聚类量化,以及定点化模型输出。
  2. 技术特点

    • 量化优化:LMDeploy使用AWQ算法实现模型的4bit权重量化,并且TurboMind推理引擎提供了非常高效的4bit推理cuda kernel,性能是FP16的2.4倍以上。
    • KV Cache量化:LMDeploy支持通过API Server方式启动,允许用户调整KV Cache的占用比例,以及使用命令行客户端与Gradio网页客户端与模型进行交互。
    • 多模态支持:LMDeploy还正式支持多模态(视觉)模型推理和服务,扩展了其应用范围。
  3. 环境搭建与基础配置

    • 环境推荐:使用torch1.11.0, ubuntu20.04, python版本为3.8, cuda版本为11.3, 使用v100来进行实验。
    • 虚拟环境创建与激活:使用conda创建和激活虚拟环境,以隔离不同项目的依赖。
    • 包导入:根据需要导入所需的Python包,并考虑使用镜像源以提高下载速度。
  4. 部署流程

    • 模型转换:支持在线转换和本地命令行转换。
    • TurboMind推理:支持命令行本地对话和API服务。
    • 网页Demo演示:提供网页形式的模型演示功能。

LMDeploy是一个功能强大的工具包,通过提供高效推理引擎、交互式推理模式和多种量化支持,为大型语言模型的轻量化、部署和服务提供了全面的解决方案。

代码实践部分

import lmdeploy
from modelscope.hub.snapshot_download import snapshot_download
import torch
from transformers import AutoTokenizer, AutoModelForCausalLM
# save_dir是模型保存到本地的目录
save_dir="/root/LLM//model"# 1.下载internlm2-chat-1_8b
snapshot_download("Shanghai_AI_Laboratory/internlm2-chat-1_8b", cache_dir=save_dir, revision='v1.1.0')#pipe = lmdeploy.pipeline("/root/LLM/model/Shanghai_AI_Laboratory/internlm2-chat-1_8b")
#response = pipe(["Hi, pls intro yourself", "Shanghai is"])
#print(response)tokenizer = AutoTokenizer.from_pretrained("/root/LLM//model/Shanghai_AI_Laboratory/internlm2-chat-1_8b", trust_remote_code=True)# Set `torch_dtype=torch.float16` to load model in float16, otherwise it will be loaded as float32 and cause OOM Error.
model = AutoModelForCausalLM.from_pretrained("/root/LLM//model/Shanghai_AI_Laboratory/internlm2-chat-1_8b", torch_dtype=torch.float16, trust_remote_code=True).cuda()
model = model.eval()inp = "hello"
print("[INPUT]", inp)
response, history = model.chat(tokenizer, inp, history=[])
print("[OUTPUT]", response)inp = "please provide three suggestions about time management"
print("[INPUT]", inp)
response, history = model.chat(tokenizer, inp, history=history)
print("[OUTPUT]", response)

在这里插入图片描述

使用LMDeploy运行模型

在使用 LMDeploy 与模型进行对话时,通常需要一个可以执行自然语言处理任务的模型。以下是使用 LMDeploy 运行模型并与之进行对话的通用命令格式:

lmdeploy -m MODEL_NAME -q QUERY

这里:

  • MODEL_NAME 是你的模型的名称。
  • QUERY 是你想让模型回答的问题或执行的自然语言处理任务。
    例如,如果你有一个名为 my_model 的模型,你可以这样使用它:
lmdeploy -m my_model -q "你好,今天天气怎么样?"

LMDeploy 会处理你的查询,并返回模型的响应。请注意,LMDeploy 是一个假设的工具,如果你在寻找一个实际的工具,可能需要查找一个与你的具体需求和环境相匹配的工具。

session 1double enter to end input >>> 你好<|im_start|>system
You are an AI assistant whose name is InternLM (书生·浦语).
- InternLM (书生·浦语) is a conversational language model that is developed by Shanghai AI Laboratory (上海人工智能实验室). It is designed to be helpful, honest, and harmless.
- InternLM (书生·浦语) can understand and communicate fluently in the language chosen by the user such as English and 中文.
<|im_end|>
<|im_start|>user
你好<|im_end|>
<|im_start|>assistant2024-06-13 13:40:36,813 - lmdeploy - WARNING - kwargs ignore_eos is deprecated for inference, use GenerationConfig instead.
2024-06-13 13:40:36,814 - lmdeploy - WARNING - kwargs random_seed is deprecated for inference, use GenerationConfig instead.
你好,有什么我可以帮忙的吗?

LMDeploy 模型量化方案概述

在深入探讨LMDeploy的量化方案之前,我们先来理解两个核心概念:计算密集型和访存密集型。计算密集型场景意味着推理过程中,数值计算占据了大部分时间;而访存密集型则是指数据读取占据了推理的主要时间。对于LLM(大型语言模型)这类Decoder Only架构的模型,其推理过程往往表现为访存密集型,因此,如何有效减少访存占用的显存空间,对提升GPU计算效率至关重要。

量化的目的

量化技术的主要目标是减小数据交换(即访存)所占用的显存空间。具体来说,它有两种常见的方法:

  1. KV8量化:在解码(Decoding)过程中,对上下文K和V的中间结果进行INT8量化,并在需要计算时再进行反量化。这种方法能够显著降低显存的占用,提高显存的利用率。

  2. W4A16量化:该方法将FP16(16位浮点数)的模型权重量化为INT4(4位整数)。在Kernel计算时,由于访存的数据量减少到FP16模型的1/4,从而大幅降低了访存成本。值得注意的是,这种量化方式仅针对权重进行,数值计算时依然采用FP16(通过反量化INT4权重实现)。

实践操作

接下来,我们将针对这两种量化方式,介绍一些实践操作建议:

  1. 设置最大KV Cache缓存大小

KV Cache是一种高效的缓存技术,通过存储键值对的形式复用计算结果,以减少重复计算,并降低内存消耗。在LMDeploy中,你可以通过--cache-max-entry-count参数来设置KV Cache占用剩余显存的最大比例。默认值为0.8,意味着KV Cache将占用最多80%的剩余显存。

然而,调整KV Cache的大小需要在访存速度和显存占用之间进行权衡。虽然减小KV Cache的占比可以释放更多显存供模型计算使用,但也可能导致访存速度降低,进而影响推理速度。因此,在实际应用中,需要根据具体情况调整该参数,找到访存速度与显存占用之间的最佳平衡点。

#通过--cache-max-entry-count参数的大小控制KV缓存占用剩余显存的最大比例,默认为0.8
lmdeploy chat /root/LLM//model/Shanghai_AI_Laboratory/internlm2-chat-1_8b --cache-max-entry-count 0.5
  1. 设置W4A16量化
    当使用LMDeploy进行W4A16量化时,您需要确保正确配置了量化参数。以下是修改后的命令,用于执行W4A16量化并将结果保存到指定路径:
# 使用W4A16量化
lmdeploy lite auto_awq \/root/LLM//model/Shanghai_AI_Laboratory/internlm2-chat-1_8b \ # 需要量化的模型的路径--calib-dataset 'ptb' \--calib-samples 128 \--calib-seqlen 1024 \--w-bits 4 \ # 指定权重使用 4 位--a-bits 16 \ # 通常不需要显式指定激活的位数,但如果是W4A16,这里可以显式指出激活是16位(如果LMDeploy支持)--w-group-size 128 \ # 指定权重分组的大小--work-dir /root/LLM//model/Shanghai_AI_Laboratory/internlm2-chat-1_8b-4bit \ # 权重量化为4bit后的模型保存路径--output-model-path /root/LLM//model/Shanghai_AI_Laboratory/internlm2-chat-1_8b-4bit/quantized_model.pt \ # (可选)指定输出量化模型的精确路径

请注意以下几点:

  1. lmdeploy lite auto_awq:这是一个命令行工具,用于部署和自动调整权重量化(Automatic Weight Quantization)的机器学习模型。

  2. /root/model/internlm2-chat-1_8b:这是模型文件的路径。其中,/root/model/ 是目录路径,internlm2-chat-1_8b 是模型名称,1_8b 可能代表该模型具有约1.8亿参数。

  3. –calib-dataset ‘ptb’:指定了用于校准量化模型的数据集。'ptb' 通常指的是Penn TreeBank数据集,这是一个常用的自然语言处理数据集。

  4. –calib-samples 128:定义了从校准数据集中使用的样本数量。这里使用了128个样本进行校准。

  5. –calib-seqlen 1024:指定了在校准时序列的长度,这里被设置为1024个单元。这对于文本或序列生成任务来说是一个常见的设置。

  6. –w-bits 4:定义了权重量化的位宽。这里的4表示模型权重将被量化为4位,从而减少模型大小并提高运算速度,但可能会损失一些精度。

  7. –w-group-size 128:指定了权重分组的大小,用于量化。这里每组包含128个权重。分组量化是一种常用的量化技术,可以提高量化后的模型性能。

  8. –work-dir /root/LLM/internlm2-chat-1_8b-4bit:指定了工作目录,即量化后的模型和相关文件将被保存的位置。这里,/root/LLM/internlm2-chat-1_8b-4bit 表示保存4位量化后模型的工作目录。

WebUI 交互式对话

LMDeploy 使用 gradio 开发了在线对话 demo。

# 安装依赖
pip install lmdeploy[serve]
# 启动
lmdeploy serve gradio internlm/internlm2-chat-7b

FastAPI部署

在 /root/LLM 路径下新建 demo_api.py 文件并在其中输入以下内容,粘贴代码后请及时保存文件。下面的代码有很详细的注释,大家如有不理解的地方,欢迎提出 issue。

from fastapi import FastAPI, Request
from transformers import AutoTokenizer, AutoModelForCausalLM, GenerationConfig
import uvicorn
import json
import datetime
import torch# 设置设备参数
DEVICE = "cuda"  # 使用CUDA
DEVICE_ID = "0"  # CUDA设备ID,如果未设置则为空
CUDA_DEVICE = f"{DEVICE}:{DEVICE_ID}" if DEVICE_ID else DEVICE  # 组合CUDA设备信息# 清理GPU内存函数
def torch_gc():if torch.cuda.is_available():  # 检查是否可用CUDAwith torch.cuda.device(CUDA_DEVICE):  # 指定CUDA设备torch.cuda.empty_cache()  # 清空CUDA缓存torch.cuda.ipc_collect()  # 收集CUDA内存碎片# 创建FastAPI应用
app = FastAPI()# 处理POST请求的端点
@app.post("/")
async def create_item(request: Request):global model, tokenizer  # 声明全局变量以便在函数内部使用模型和分词器json_post_raw = await request.json()  # 获取POST请求的JSON数据json_post = json.dumps(json_post_raw)  # 将JSON数据转换为字符串json_post_list = json.loads(json_post)  # 将字符串转换为Python对象prompt = json_post_list.get('prompt')  # 获取请求中的提示response, history = model.chat(tokenizer, prompt, history=[])now = datetime.datetime.now()  # 获取当前时间time = now.strftime("%Y-%m-%d %H:%M:%S")  # 格式化时间为字符串# 构建响应JSONanswer = {"response": response,"status": 200,"time": time}# 构建日志信息log = "[" + time + "] " + '", prompt:"' + prompt + '", response:"' + repr(response) + '"'print(log)  # 打印日志torch_gc()  # 执行GPU内存清理return answer  # 返回响应# 主函数入口
if __name__ == '__main__':# 加载预训练的分词器和模型tokenizer = AutoTokenizer.from_pretrained("/root/LLM//model/Shanghai_AI_Laboratory/internlm2-chat-1_8b", trust_remote_code=True)model = AutoModelForCausalLM.from_pretrained("/root/LLM//model/Shanghai_AI_Laboratory/internlm2-chat-1_8b", torch_dtype=torch.float16, trust_remote_code=True).cuda()model = model.eval()# 启动FastAPI应用# 用6006端口可以将autodl的端口映射到本地,从而在本地使用apiuvicorn.run(app, host='0.0.0.0', port=6006, workers=1)  # 在指定端口和主机上启动应用

Api 部署

在终端输入以下命令启动api服务:

cd /root/LLM
python demo_api.py

在这里插入图片描述
在这里插入图片描述

requests 库进行调用

import requests
import jsondef get_completion(prompt):headers = {'Content-Type': 'application/json'}data = {"prompt": prompt}response = requests.post(url='http://127.0.0.1:6006', headers=headers, data=json.dumps(data))return response.json()['response']if __name__ == '__main__':print(get_completion('你好,你叫什么名字'))

在这里插入图片描述

这篇关于LMDeploy 量化部署的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1061730

相关文章

ElasticSearch+Kibana通过Docker部署到Linux服务器中操作方法

《ElasticSearch+Kibana通过Docker部署到Linux服务器中操作方法》本文介绍了Elasticsearch的基本概念,包括文档和字段、索引和映射,还详细描述了如何通过Docker... 目录1、ElasticSearch概念2、ElasticSearch、Kibana和IK分词器部署

部署Vue项目到服务器后404错误的原因及解决方案

《部署Vue项目到服务器后404错误的原因及解决方案》文章介绍了Vue项目部署步骤以及404错误的解决方案,部署步骤包括构建项目、上传文件、配置Web服务器、重启Nginx和访问域名,404错误通常是... 目录一、vue项目部署步骤二、404错误原因及解决方案错误场景原因分析解决方案一、Vue项目部署步骤

Linux流媒体服务器部署流程

《Linux流媒体服务器部署流程》文章详细介绍了流媒体服务器的部署步骤,包括更新系统、安装依赖组件、编译安装Nginx和RTMP模块、配置Nginx和FFmpeg,以及测试流媒体服务器的搭建... 目录流媒体服务器部署部署安装1.更新系统2.安装依赖组件3.解压4.编译安装(添加RTMP和openssl模块

0基础租个硬件玩deepseek,蓝耘元生代智算云|本地部署DeepSeek R1模型的操作流程

《0基础租个硬件玩deepseek,蓝耘元生代智算云|本地部署DeepSeekR1模型的操作流程》DeepSeekR1模型凭借其强大的自然语言处理能力,在未来具有广阔的应用前景,有望在多个领域发... 目录0基础租个硬件玩deepseek,蓝耘元生代智算云|本地部署DeepSeek R1模型,3步搞定一个应

redis群集简单部署过程

《redis群集简单部署过程》文章介绍了Redis,一个高性能的键值存储系统,其支持多种数据结构和命令,它还讨论了Redis的服务器端架构、数据存储和获取、协议和命令、高可用性方案、缓存机制以及监控和... 目录Redis介绍1. 基本概念2. 服务器端3. 存储和获取数据4. 协议和命令5. 高可用性6.

Deepseek R1模型本地化部署+API接口调用详细教程(释放AI生产力)

《DeepseekR1模型本地化部署+API接口调用详细教程(释放AI生产力)》本文介绍了本地部署DeepSeekR1模型和通过API调用将其集成到VSCode中的过程,作者详细步骤展示了如何下载和... 目录前言一、deepseek R1模型与chatGPT o1系列模型对比二、本地部署步骤1.安装oll

nginx部署https网站的实现步骤(亲测)

《nginx部署https网站的实现步骤(亲测)》本文详细介绍了使用Nginx在保持与http服务兼容的情况下部署HTTPS,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值... 目录步骤 1:安装 Nginx步骤 2:获取 SSL 证书步骤 3:手动配置 Nginx步骤 4:测

Tomcat高效部署与性能优化方式

《Tomcat高效部署与性能优化方式》本文介绍了如何高效部署Tomcat并进行性能优化,以确保Web应用的稳定运行和高效响应,高效部署包括环境准备、安装Tomcat、配置Tomcat、部署应用和启动T... 目录Tomcat高效部署与性能优化一、引言二、Tomcat高效部署三、Tomcat性能优化总结Tom

如何在本地部署 DeepSeek Janus Pro 文生图大模型

《如何在本地部署DeepSeekJanusPro文生图大模型》DeepSeekJanusPro模型在本地成功部署,支持图片理解和文生图功能,通过Gradio界面进行交互,展示了其强大的多模态处... 目录什么是 Janus Pro1. 安装 conda2. 创建 python 虚拟环境3. 克隆 janus

本地私有化部署DeepSeek模型的详细教程

《本地私有化部署DeepSeek模型的详细教程》DeepSeek模型是一种强大的语言模型,本地私有化部署可以让用户在自己的环境中安全、高效地使用该模型,避免数据传输到外部带来的安全风险,同时也能根据自... 目录一、引言二、环境准备(一)硬件要求(二)软件要求(三)创建虚拟环境三、安装依赖库四、获取 Dee