本文主要是介绍GLM-4-9B VLLM 推理使用;openai接口调用、requests调用,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
参考:
https://huggingface.co/THUDM/glm-4-9b-chat
直接运行vllm后端服务:
from transformers import AutoTokenizer
from vllm import LLM, SamplingParams# GLM-4-9B-Chat-1M
# max_model_len, tp_size
这篇关于GLM-4-9B VLLM 推理使用;openai接口调用、requests调用的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!