quantized专题

[论文笔记]QLoRA: Efficient Finetuning of Quantized LLMs

引言今天带来LoRA的量化版论文笔记——QLoRA: Efficient Finetuning of Quantized LLMs 为了简单，下文中以翻译的口吻记录，比如替换"作者"为"我们"。我们提出了QLoRA，一种高效的微调方法，它在减少内存使用的同时，能够在单个48GB GPU上对65B参数的模型进行微调，同时保持16位微调任务的完整性能。QLoRA通过一个冻结的4位量化预

LUT-GEMM: Quantized Matrix Multiplication based on LUTs for Efficient Inference in Large-Scale Gener

文章目录 abstractintroduction背景量化二值量化BCQ LUT-GEMM二值量化扩展Group-wise 𝛼分配基于LUT的量化矩阵乘法LUT-GEMM内存占用实验Simple Comparisons with Various KernelsComparison with FP16 Tensor ParallelismExploration of Compressio

SpQR: A Sparse-Quantized Representation for Near-Lossless LLM Weight Compression翻译

摘要大型语言模型（LLM）预训练的最新进展获得了具有令人印象深刻能力的高质量LLM。通过量化将这种LLM压缩至每个参数3-4位，从而可以适配内存有限的设备，例如笔记本电脑和手机，从而实现个性化使用。但是，将每个参数的量化至3-4位通常会导致中度到高度的准确率损失，尤其是对于1-10B参数范围内的较小模型，而这些非常适合边缘部署。为了解决这个准确性问题，我们介绍了一种Sparse-Quantiz