foldgpt专题

LLM 模型压缩之三: FoldGPT

0. 资源链接论文: FoldGPT: Simple and Effective Large Language Model Compression Scheme 项目: to be released. 1. 背景动机现有的大语言模型推理存在以下问题： LLM 模型因为有大量的参数，以及 next token 的预测方式，导致 LLM 模型推理慢，计算消耗大。模型压缩，量化和