在 HuggingFace 上下载模型时,经常会看到模型的名称会带有fp16、GPTQ,GGML等字样,对不熟悉模型量化的同学来说,这些字样可能会让人摸不着头脑,我开始也是一头雾水,后来通过查阅资料,总算有了一些了解,本文将介绍一些常见的模型量化格式,因为我也不是机器学习专家,所以本文只是对这些格式进行简单的介绍,如果有错误的地方,欢迎指正。 What 量化 量化在 AI 模型中,特别是在深度
1、大模型LLM 在线量化 参考:https://www.cnblogs.com/bruceleely/p/17348782.html trust_remote_code=True 一般都需要加上,不然会报错(Tokenizer class QWenTokenizer does not exist or is not currently imported) ##8bitmodel = Au