本文主要是介绍使用 nginx 提高 LLM API rps,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
最近使用 lmdeploy 部署大模型,但是 lmdeploy 自身没有提供多节点的部署方式,尝试使用 nginx + lmdeploy 可以把 rps 提高到 60rps(Yi-34B 16张A100)。记录下配置过程。
nginx conf 文件
lmdeploy 一共部署了三个节点,node1,node2,本机
worker_processes 1;events { worker_connections 1024;
}http {upstream backend {server node2ip:8081;server node1ip:8082;server 0.0.0.0:23336;}server {listen 23333;location /v1/chat/completions {proxy_pass http://backend$request_body;}}
}
nginx 启动
启动
sudo nginx -c /path/tp/nginx.conf
停止
sudo nginx -s stop
重新加载
sudo nginx -s reload
查看启动是否正常
sudo nginx -t
简单又高效,很丝滑。
这篇关于使用 nginx 提高 LLM API rps的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!