linux部署Mixtral-8x7B-Instruct实践(使用vLLM/ transformer+fastapi)

本文主要是介绍linux部署Mixtral-8x7B-Instruct实践(使用vLLM/ transformer+fastapi),希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

前提说明:

  • 这次实践用了两张A800(80G),每张卡消耗70G显存,总计140G

step1:下载模型

从huggingface(需科学上网)和modelscope两个平台下载模型
模型目录

step2:安装vLLM

之前部署大模型用transformer库+OpenAI api,会有推理速度慢,server部署起来比较复杂的缺点,vLLM是一个LLM推理和服务库,原理类似于操作系统的虚拟内存。
在这里插入图片描述
现在说怎么安装,安装很简单

pip install vLLM	

要安装3G左右的包。
#step3 使用vLLM部署Mixtral 8*7b(重点)
先丢一串命令

python -u -m vllm.entrypoints.openai.api_server --host 0.0.0.0 --model /data/models/Mixtral-8x7B-Instruct-v0.1 --tensor-parallel-size 2

别着急,一个一个解释,先说跟python命令相关的,-u指python输出不缓冲,-m告诉python运行一个库模块,--host 指定服务器监听的主机地址,--model指定要使用的模型的路径,--tensor-parallel-size使得模型的张量可以分布在两个及以上GPU上,一张80G的A800放不下Mixtral 8*7b的参数(140),指定tensor-parallel-size=2将参数拆到两块上面,一张卡70G。

  • --host 0.0.0.0 允许任何IP地址的设备都能访问这个服务
  • --port 指定服务端口,默认是8000
  • --model /data/models/Mixtral-8x7B-Instruct-v0.1 可以是模型名称或者本地路径。指定咱们使用Mixtral-8x7B-Instruct-v0.1模型,注意这里指定了模型所在路径,如果模型需要在线下载,直接指定模型名称,超大模型不建议在线下载,因为不稳定,而且代理没有那么多流量啊。
  • --tensor-parallel-size 2指定张量并行的GPU数量,Mixtral模型有32个注意力头,必须均匀的分在GPU中,所以必须是32的因数(2、4、8、16),否则会报ValueError: Total number of attention heads (32) must be divisible by tensor parallel size (3).错误

其他没有用到的参数:

  • --chat-template 聊天的模板,用户的输入+模板=最后的prompt
  • --trust-remote-code 默认为false,如果人为修改过下载后的模型的话,会报错,建议设置成True
  • --download-dir 在线下载模型权重时,指定的下载路径,默认是~/.cache
  • --worker-use-ray 是否用ray来实现分布式推理服务,在GPU>2时默认开启
  • --gpu-memory-utilizationGPU的利用率,0~1之间,默认是0.9,比如我是两张80G的卡,参数0.9,每张卡最高使用72G显存。如果显卡多,4张80G的卡,参数设置成0.5,就是每张显卡最多占40G显存,需要4张卡才能跑。感觉用不到,设置成0.5四张卡,不如0.9两张卡,还能有两张卡空闲着,除非四张卡的并行推理能提高推理速度。
    在这里插入图片描述

step4 发请求

requests库来模拟请求。model换成模型的目录

import requests
import json# 定义请求的 URL 和数据
url = "http://<IP>:8000/v1/completions"
data = {"model": "/data/models/Mixtral-8x7B-Instruct-v0.1","prompt": "请介绍一下AI的发展历史,AI的未来会如何发展?","max_tokens": 1000,"temperature": 0.2
}# 发送 POST 请求
response = requests.post(url, json=data)# 检查响应
if response.status_code == 200:print("请求成功!")print("响应内容:", response.json()['choices'][0]["text"])
else:print("请求失败,状态码:", response.status_code)

解释一下参数:

  • max-tokens:inputs_tokens+response_tokens的最大值,这里设置成1000
  • temperature:温度越低,选可能性更高的token作为response,也就是回答越精炼、准确、字数越少。反之,更有多样性、发散、字数更多。建议值是0.2~1,如果设置成0,会导致每次询问都是同样的回答。

在这里插入图片描述

总结

vLLM作为一个推理和部署库,一条命令就能部署大模型推理服务。覆盖了用transformer和openapi或者FastAPI部署服务的过程,用起来很方便。

使用Transformer+fastapi

Step1:从本地加载模型

model_id = "/data/models/Mixtral-8x7B-Instruct-v0.1"
tokenizer = AutoTokenizer.from_pretrained(model_id, padding_side='left')
model = AutoModelForCausalLM.from_pretrained(model_id, torch_dtype=torch.float16, device_map="auto")	

float16精度下只能在GPU上推理,占用显存90G在这里插入图片描述
device_map="auto"自动把模型的不同层放到三块GPU上。
Step2:构造prompt模板
参考:huggingface Mixtral-8x7B-Instruct-v0.1主页 Instruction format部分
prompt必须严格遵循下面的格式,否则模型会胡言乱语(盲猜模型训练格式就是这个)

<s> [INST] Instruction [/INST] Model answer</s> [INST] Follow-up instruction [/INST]
def add_template_to_prompt(prompt):# prompt_templated = f"<s> [INST] {prompt} [/INST] Model answer </s> [INST] Follow-up instruction [/INST]"prompt_templated = f"<s> [INST] {prompt} [/INST] </s>"return prompt_templated

Step3: fastapi

app = FastAPI()
@app.post("/v1/completions")
async def chat(argument: ModelAugument):prompt_templated = add_template_to_prompt(argument.prompt)inputs = tokenizer(text=prompt_templated, return_tensors="pt")outputs = model.generate(**inputs, max_new_tokens=argument.max_tokens)outputs_text = tokenizer.decode(outputs[0], skip_special_tokens=True)return outputs_text[outputs_text.find("[/INST]") + 7:] # truncate the prompt(as prefix)

Mixtral的又把prompt作为前缀输出了一遍,在Mistral的回答中prompt后面的才是真正的回答,所以做了个截断。举个例子:
prompt:

你好

模板化后:

<s> [INST] 你好 [/INST] </s>

Mistral回答

  [INST] 你好 [/INST] Hello! 你需要什么帮助吗?(Hello! Do you need any help?)

完整代码:

from transformers import AutoTokenizer, AutoModelForCausalLM
from fastapi import FastAPI
from pydantic import BaseModelapp = FastAPI()model_id = "/data/models/Mixtral-8x7B-Instruct-v0.1"
tokenizer = AutoTokenizer.from_pretrained(model_id, padding_side='left')
model = AutoModelForCausalLM.from_pretrained(model_id)class ModelAugument(BaseModel):prompt: strtemperature: floatmax_tokens: intdef add_template_to_prompt(prompt):# prompt_templated = f"<s> [INST] {prompt} [/INST] Model answer </s> [INST] Follow-up instruction [/INST]"prompt_templated = f"<s> [INST] {prompt} [/INST] </s>"return prompt_templated@app.post("/v1/completions")
async def chat(argument: ModelAugument):prompt_templated = add_template_to_prompt(argument.prompt)inputs = tokenizer(text=prompt_templated, return_tensors="pt")outputs = model.generate(**inputs, max_new_tokens=argument.max_tokens)outputs_text = tokenizer.decode(outputs[0], skip_special_tokens=True)# outputs_text = outputs_text[outputs_text.find("[/INST]") + 7:] # truncate the prompt(as prefix)return outputs_text

这篇关于linux部署Mixtral-8x7B-Instruct实践(使用vLLM/ transformer+fastapi)的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/828643

相关文章

Python使用FastAPI实现大文件分片上传与断点续传功能

《Python使用FastAPI实现大文件分片上传与断点续传功能》大文件直传常遇到超时、网络抖动失败、失败后只能重传的问题,分片上传+断点续传可以把大文件拆成若干小块逐个上传,并在中断后从已完成分片继... 目录一、接口设计二、服务端实现(FastAPI)2.1 运行环境2.2 目录结构建议2.3 serv

通过Docker容器部署Python环境的全流程

《通过Docker容器部署Python环境的全流程》在现代化开发流程中,Docker因其轻量化、环境隔离和跨平台一致性的特性,已成为部署Python应用的标准工具,本文将详细演示如何通过Docker容... 目录引言一、docker与python的协同优势二、核心步骤详解三、进阶配置技巧四、生产环境最佳实践

Spring Security简介、使用与最佳实践

《SpringSecurity简介、使用与最佳实践》SpringSecurity是一个能够为基于Spring的企业应用系统提供声明式的安全访问控制解决方案的安全框架,本文给大家介绍SpringSec... 目录一、如何理解 Spring Security?—— 核心思想二、如何在 Java 项目中使用?——

Nginx部署HTTP/3的实现步骤

《Nginx部署HTTP/3的实现步骤》本文介绍了在Nginx中部署HTTP/3的详细步骤,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学... 目录前提条件第一步:安装必要的依赖库第二步:获取并构建 BoringSSL第三步:获取 Nginx

springboot中使用okhttp3的小结

《springboot中使用okhttp3的小结》OkHttp3是一个JavaHTTP客户端,可以处理各种请求类型,比如GET、POST、PUT等,并且支持高效的HTTP连接池、请求和响应缓存、以及异... 在 Spring Boot 项目中使用 OkHttp3 进行 HTTP 请求是一个高效且流行的方式。

防止Linux rm命令误操作的多场景防护方案与实践

《防止Linuxrm命令误操作的多场景防护方案与实践》在Linux系统中,rm命令是删除文件和目录的高效工具,但一旦误操作,如执行rm-rf/或rm-rf/*,极易导致系统数据灾难,本文针对不同场景... 目录引言理解 rm 命令及误操作风险rm 命令基础常见误操作案例防护方案使用 rm编程 别名及安全删除

Linux下MySQL数据库定时备份脚本与Crontab配置教学

《Linux下MySQL数据库定时备份脚本与Crontab配置教学》在生产环境中,数据库是核心资产之一,定期备份数据库可以有效防止意外数据丢失,本文将分享一份MySQL定时备份脚本,并讲解如何通过cr... 目录备份脚本详解脚本功能说明授权与可执行权限使用 Crontab 定时执行编辑 Crontab添加定

Java使用Javassist动态生成HelloWorld类

《Java使用Javassist动态生成HelloWorld类》Javassist是一个非常强大的字节码操作和定义库,它允许开发者在运行时创建新的类或者修改现有的类,本文将简单介绍如何使用Javass... 目录1. Javassist简介2. 环境准备3. 动态生成HelloWorld类3.1 创建CtC

使用Python批量将.ncm格式的音频文件转换为.mp3格式的实战详解

《使用Python批量将.ncm格式的音频文件转换为.mp3格式的实战详解》本文详细介绍了如何使用Python通过ncmdump工具批量将.ncm音频转换为.mp3的步骤,包括安装、配置ffmpeg环... 目录1. 前言2. 安装 ncmdump3. 实现 .ncm 转 .mp34. 执行过程5. 执行结

Java使用jar命令配置服务器端口的完整指南

《Java使用jar命令配置服务器端口的完整指南》本文将详细介绍如何使用java-jar命令启动应用,并重点讲解如何配置服务器端口,同时提供一个实用的Web工具来简化这一过程,希望对大家有所帮助... 目录1. Java Jar文件简介1.1 什么是Jar文件1.2 创建可执行Jar文件2. 使用java