togetherai专题

LLM推理部署（六）：TogetherAI推出世界上LLM最快推理引擎，性能超过vLLM和TGI三倍

LLM能有多快？答案在于LLM推理的最新突破。 TogetherAI声称，他们在CUDA上构建了世界上最快的LLM推理引擎，该引擎运行在NVIDIA Tensor Core GPU上。Together推理引擎可以支持100多个开源大模型，比如Llama-2，并在Llama-2–70B-Chat上每秒生成117个tokens，在Llama2–13B-Chat中每秒生成171个toke