本文主要是介绍fastllm在CPU上推理ChatGLM3-6b,即使使用CPU依然推理速度很快,就来看这篇文章,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
介绍:
GitHub - ztxz16/fastllm: 纯c++的全平台llm加速库,支持python调用,chatglm-6B级模型单卡可达10000+token / s,支持glm, llama, moss基座,手机端流畅运行纯c++的全平台llm加速库,支持python调用,chatglm-6B级模型单卡可达10000+token / s,支持glm, llama, moss基座,手机端流畅运行 - ztxz16/fastllmhttps://github.com/ztxz16/fastllm/
fastllm是纯c++实现,无第三方依赖的高性能大模型推理库
6~7B级模型在安卓端上也可以流畅运行
功能概述
这篇关于fastllm在CPU上推理ChatGLM3-6b,即使使用CPU依然推理速度很快,就来看这篇文章的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!