spqr专题

SpQR~

将330亿参数大模型「塞进」单个消费级GPU，加速15%、性能不减论文地址：https://arxiv.org/pdf/2306.03078.pdf 项目地址：https://github.com/Vahe1994/SpQR 预训练大语言模型（LLM）在特定任务上的性能不断提高，随之而来的是，假如 prompt 指令得当，其可以更好的泛化到更多任务，很多人将这一现象归功于训练数据和参数

SpQR: A Sparse-Quantized Representation for Near-Lossless LLM Weight Compression翻译

摘要大型语言模型（LLM）预训练的最新进展获得了具有令人印象深刻能力的高质量LLM。通过量化将这种LLM压缩至每个参数3-4位，从而可以适配内存有限的设备，例如笔记本电脑和手机，从而实现个性化使用。但是，将每个参数的量化至3-4位通常会导致中度到高度的准确率损失，尤其是对于1-10B参数范围内的较小模型，而这些非常适合边缘部署。为了解决这个准确性问题，我们介绍了一种Sparse-Quantiz