fp8专题

大模型量化技术原理：FP8

近年来，随着Transformer、MOE架构的提出，使得深度学习模型轻松突破上万亿规模参数，从而导致模型变得越来越大，因此，我们需要一些大模型压缩技术来降低模型部署的成本，并提升模型的推理性能。模型压缩主要分为如下几类：剪枝（Pruning）知识蒸馏（Knowledge Distillation）量化Quantization）本系列将针对一些常见大模型量化方案（GPTQ、LLM.int

vllm 使用FP8运行模型

简介 vLLM 支持使用硬件加速在 GPU 上进行 FP8（8 位浮点）计算，例如 Nvidia H100 和 AMD MI300x。目前，仅支持 Hopper 和 Ada Lovelace GPU。使用 FP8 对模型进行量化可以将模型内存需求减少 2 倍，并在对准确性影响极小的情况下将吞吐量提高最多 1.6 倍。 FP8 类型有两种不同的表示形式，每种形式在不同场景中都有用： E4M3：

StableDiffusion Web UI开启FP8，极大节约显存

升级了Pytorch后，StableDiffusion最新版本就可以有使用FP8的基础了，因此把秋叶的LINUX包也升级到了最新的版本。升级Pytorch参考我的升级记录： ComfyUI SDWebUI升级pytorch随记-CSDN博客然后下一步就是如何开启FP8了。与ComfyUI不同，SDWebUI不是通过启动参数来开启，而是在配置界面找到这个位置：记得点保存生效。