首页
Python
Java
前端
数据库
Linux
Chatgpt专题
开发者工具箱
airllm专题
LLM推理部署(五):AirLLM使用4G显存即可在70B大模型上进行推理
众所周知,大模型的训练和推理需要大量的GPU资源,70B参数的大模型需要130G的GPU显存来存储,需要两个A100(显存为100G)。 在推理过程中,整个输入序列也需要加载到内存中进行复杂的“注意力”计算,这种注意力机制的内存需求与输入长度成二次方关系。 一、分层推理(Layer-wise Inference) 分层推理是计算机科学中分而治
阅读更多...