airllm专题

LLM推理部署(五):AirLLM使用4G显存即可在70B大模型上进行推理

众所周知,大模型的训练和推理需要大量的GPU资源,70B参数的大模型需要130G的GPU显存来存储,需要两个A100(显存为100G)。 ​      在推理过程中,整个输入序列也需要加载到内存中进行复杂的“注意力”计算,这种注意力机制的内存需求与输入长度成二次方关系。 一、分层推理(Layer-wise Inference)        分层推理是计算机科学中分而治