本文主要是介绍第三十篇-Ollama-TeslaP40-Ollama-Qwen2-57B等速度,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
系列文章
第二十四篇-Ollama-在线安装
第二十五篇-Ollama-离线安装
第二十六篇-Ollama-监听本地IP与端口
第二十七篇-Ollama-加载本地模型文件
第二十八篇-Ollama-TeslaP40-Ollama-8B-Qwen1.5-32B等速度
第三十篇-Ollama-TeslaP40-Ollama-Qwen2-57B等速度
环境
系统:CentOS-7
CPU: 14C28T
内存:32G
显卡:Tesla P40 24G
驱动: 515
CUDA: 11.7
cuDNN: 8.9.2.26
Ollama:v0.1.32
查看版本
ollama --version
升级ollama
sudo curl -L https://ollama.com/download/ollama-linux-amd64 -o /usr/bin/ollama
sudo chmod +x /usr/bin/ollama
重新加载
systemctl restart ollama
查看新版
ollama --version
本地方式加载qwen2-57B
下载模型
https://hf-mirror.com/legraphista/Qwen2-57B-A14B-Instruct-GGUF
Qwen2-57B-A14B-Instruct.Q4_K_S.gguf
配置文件
qwen2-57b.mf
FROM /models/Qwen2-57B-A14B-Instruct-GGUF/Qwen2-57B-A14B-Instruct.Q4_K_S.ggufTEMPLATE """{{ if .System }}<|im_start|>system
{{ .System }}<|im_end|>{{ end }}<|im_start|>user
{{ .Prompt }}<|im_end|>
<|im_start|>assistant
"""
PARAMETER stop "<|im_start|>"
PARAMETER stop "<|im_end|>"
创建模型
ollama create qwen2-57b -f qwen2-57b.mf
大概2-3分钟
使用模型
ollama run qwen2-57b:latest --verbose
性能数据
total duration: 56.124164153s
load duration: 1.766272ms
prompt eval count: 24 token(s)
prompt eval duration: 1.373102s
prompt eval rate: 17.48 tokens/s
eval count: 401 token(s)
eval duration: 54.607755s
eval rate: 7.34 tokens/s
| N/A 39C P0 56W / 250W | 21638MiB / 23040MiB | 18% Default |
这篇关于第三十篇-Ollama-TeslaP40-Ollama-Qwen2-57B等速度的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!