第三十篇-Ollama-TeslaP40-Ollama-Qwen2-57B等速度

2024-06-11 08:52

本文主要是介绍第三十篇-Ollama-TeslaP40-Ollama-Qwen2-57B等速度,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

系列文章

第二十四篇-Ollama-在线安装
第二十五篇-Ollama-离线安装
第二十六篇-Ollama-监听本地IP与端口
第二十七篇-Ollama-加载本地模型文件
第二十八篇-Ollama-TeslaP40-Ollama-8B-Qwen1.5-32B等速度
第三十篇-Ollama-TeslaP40-Ollama-Qwen2-57B等速度

环境

系统:CentOS-7
CPU: 14C28T
内存:32G
显卡:Tesla P40 24G
驱动: 515
CUDA: 11.7
cuDNN: 8.9.2.26
Ollama:v0.1.32

查看版本

ollama --version

升级ollama

sudo curl -L https://ollama.com/download/ollama-linux-amd64 -o /usr/bin/ollama
sudo chmod +x /usr/bin/ollama

重新加载

systemctl restart ollama

查看新版

ollama --version

本地方式加载qwen2-57B

下载模型

https://hf-mirror.com/legraphista/Qwen2-57B-A14B-Instruct-GGUF
Qwen2-57B-A14B-Instruct.Q4_K_S.gguf

配置文件

qwen2-57b.mf

FROM /models/Qwen2-57B-A14B-Instruct-GGUF/Qwen2-57B-A14B-Instruct.Q4_K_S.ggufTEMPLATE """{{ if .System }}<|im_start|>system
{{ .System }}<|im_end|>{{ end }}<|im_start|>user
{{ .Prompt }}<|im_end|>
<|im_start|>assistant
"""
PARAMETER stop "<|im_start|>"
PARAMETER stop "<|im_end|>"

创建模型

ollama create qwen2-57b -f qwen2-57b.mf

大概2-3分钟

使用模型

ollama run qwen2-57b:latest --verbose

性能数据

total duration:       56.124164153s
load duration:        1.766272ms
prompt eval count:    24 token(s)
prompt eval duration: 1.373102s
prompt eval rate:     17.48 tokens/s
eval count:           401 token(s)
eval duration:        54.607755s
eval rate:            7.34 tokens/s
| N/A   39C    P0              56W / 250W |  21638MiB / 23040MiB |     18%      Default |

这篇关于第三十篇-Ollama-TeslaP40-Ollama-Qwen2-57B等速度的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1050706

相关文章

LLM系列 | 38:解读阿里开源语音多模态模型Qwen2-Audio

引言 模型概述 模型架构 训练方法 性能评估 实战演示 总结 引言 金山挂月窥禅径,沙鸟听经恋法门。 小伙伴们好,我是微信公众号《小窗幽记机器学习》的小编:卖铁观音的小男孩,今天这篇小作文主要是介绍阿里巴巴的语音多模态大模型Qwen2-Audio。近日,阿里巴巴Qwen团队发布了最新的大规模音频-语言模型Qwen2-Audio及其技术报告。该模型在音频理解和多模态交互

使用WebP解决网站加载速度问题,这些细节你需要了解

说到网页的图片格式,大家最常想到的可能是JPEG、PNG,毕竟这些老牌格式陪伴我们这么多年。然而,近几年,有一个格式悄悄崭露头角,那就是WebP。很多人可能听说过,但到底它好在哪?你的网站或者项目是不是也应该用WebP呢?别着急,今天咱们就来好好聊聊WebP这个图片格式的前世今生,以及它值不值得你花时间去用。 为什么会有WebP? 你有没有遇到过这样的情况?网页加载特别慢,尤其是那

关于一次速度优化的往事

来自:hfghfghfg, 时间:2003-11-13 16:32, ID:2292221你最初的代码 Button1 34540毫秒 5638毫秒  Button2 我的代码 这个不是重点,重点是这个  来自:hfghfghfg, 时间:2003-11-13 16:54, ID:22923085528毫秒 不会吧,我是赛杨1.1G  128M内存  w2000, delphi6  128M

ACM比赛中如何加速c++的输入输出?如何使cin速度与scanf速度相当?什么是最快的输入输出方法?

在竞赛中,遇到大数据时,往往读文件成了程序运行速度的瓶颈,需要更快的读取方式。相信几乎所有的C++学习者都在cin机器缓慢的速度上栽过跟头,于是从此以后发誓不用cin读数据。还有人说Pascal的read语句的速度是C/C++中scanf比不上的,C++选手只能干着急。难道C++真的低Pascal一等吗?答案是不言而喻的。一个进阶的方法是把数据一下子读进来,然后再转化字符串,这种方法传说中

Ollama Qwen2 支持 Function Calling

默认 Ollama 中的 Qwen2 模型不支持 Function Calling,使用默认 Qwen2,Ollama 会报错。本文将根据官方模板对 ChatTemplate 进行改进,使得Qwen2 支持 Tools,支持函数调用。 Ollama 会检查对话模板中是否存在 Tools,如果不存在就会报错,下面的代码是 Ollama 解析模板的代码。 Ollama 3.1 是支持 Tools

探索Mem0:下一代人工智能与机器学习内存管理基础设施(二)Mem0+Ollama 部署运行

探索Mem0:下一代人工智能与机器学习内存管理基础设施(二) Mem 0(发音为“mem-zero”)通过智能记忆层增强AI助手和代理,实现个性化的AI交互。Mem 0会记住用户偏好,适应个人需求,并随着时间的推移不断改进,使其成为客户支持聊天机器人,AI助手和自治系统的理想选择。 安装说明 通过pip安装Mem0包: pip install mem0ai 基本用法 Mem 0需

Ollama—87.4k star 的开源大模型服务框架!!

这一年来,AI 发展的越来越快,大模型使用的门槛也越来越低,每个人都可以在自己的本地运行大模型。今天再给大家介绍一个最厉害的开源大模型服务框架——ollama。 项目介绍 Ollama 是一个开源的大语言模型(LLM)服务工具,它允许用户在本地环境快速实验、管理和部署大型语言模型。它支持多种流行的开源大型语言模型,如 Llama 3.1、Phi 3、Mistral、Gemma 2 等,并且可以

最新版ollama与openwebui更新:内置千问2和llama3.1大模型

随着人工智能技术的快速发展,ollama和openwebui这两个项目也迎来了重要的更新。此次更新不仅包含了性能上的改进,还新增了千问2和llama3.1两个强大的大模型。本文将详细介绍这次更新的具体内容,并提供详细的下载安装教程及使用建议。 一、ollama与openwebui更新概述 更新内容 ollama:ollama是一个开源项目,主要用于构建和训练大规模语言模型。最新版的ollam

提高Flash builder编译速度 (转)

提高Flash builder编译速度   2013-04-08 03:14:42|  分类: flash |  标签: |举报 |字号大中小 订阅 我们在开发过程中随着项目的不断壮大,经常会碰到编译速度过慢,IDE崩溃等令人头痛的问题,这里我总结了一下网上别人的经验,对FB进行了3点优化,效果明显  1、把 Build Auto 改成 手动 Build  2

mongodb document使用的数据结构中存在List结构导致查询速度异常缓慢

最近使用的mongodb 数据库,项目中查询某个列表异常缓慢,甚至造成cpu突然上升,后经过排查,发现  ,因为文档中存在List结构的数据,所以造成查询异常缓慢,以后使用mongodb数据库的项目,慎用list结构,一部小心就是一个大坑