spqr专题

SpQR~

将330亿参数大模型「塞进」单个消费级GPU,加速15%、性能不减 论文地址:https://arxiv.org/pdf/2306.03078.pdf 项目地址:https://github.com/Vahe1994/SpQR 预训练大语言模型(LLM)在特定任务上的性能不断提高,随之而来的是,假如 prompt 指令得当,其可以更好的泛化到更多任务,很多人将这一现象归功于训练数据和参数

SpQR: A Sparse-Quantized Representation for Near-Lossless LLM Weight Compression翻译

摘要 大型语言模型(LLM)预训练的最新进展获得了具有令人印象深刻能力的高质量LLM。通过量化将这种LLM压缩至每个参数3-4位,从而可以适配内存有限的设备,例如笔记本电脑和手机,从而实现个性化使用。但是,将每个参数的量化至3-4位通常会导致中度到高度的准确率损失,尤其是对于1-10B参数范围内的较小模型,而这些非常适合边缘部署。为了解决这个准确性问题,我们介绍了一种Sparse-Quantiz