本文主要是介绍使用 vllm 运行 Llama3-8b-Instruct,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
使用 vllm 运行 Llama3-8b-Instruct
- 0. 引言
- 1. 安装 vllm
- 2. 运行 Llama3-8b-Instruct
0. 引言
此文章主要介绍使用 vllm 运行 Llama3-8b。
1. 安装 vllm
创建虚拟环境,
conda create -n myvllm python=3.11 -y
conda activate myvllm
安装 Ray 和 Vllm,
pip install ray vllm
安装 flash-attention,
git clone https://github.com/Dao-AILab/flash-attention; cd flash-attention
pip install flash-attn --no-build-isolation
2. 运行 Llama3-8b-Instruct
eval "$(conda shell.bash hook)"
conda activate myvllm
CUDA_VISIBLE_DEVICES=0
python -m vllm.entrypoints.openai.api_server --trust-remote-code --served-model-name gpt-4 --model meta-llama/Meta-Llama-3-8B-Instruct --gpu-memory-utilization 0.9 --tensor-parallel-size 1 --port 8000
完结!
这篇关于使用 vllm 运行 Llama3-8b-Instruct的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!