内网环境使用Docker部署Qwen2模型

本文主要是介绍内网环境使用Docker部署Qwen2模型，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

背景介绍

在我参与的一个国企项目中，我们基于大语言模型开发了一些应用，但是甲方公司所有的资源环境都是纯内网。更为有趣的是，甲方公司已自主搭建并运行着一套百度机器学习平台（BML），客户要求所有的大模型部署必须依托于现有的BML平台进行，而非独立构建全新的基础设施，资源申请也相当严苛。面对这一系列限定条件，我们只能试着利用Docker容器技术进行大语言模型的部署。

前期准备

1、首先，内网环境部署docker：

这部分内容不再赘述，可参考之前写的教程。

https://zyn1994.blog.csdn.net/article/details/109516191

2、其次，使用一台具备网络环境的设备，拉取ollama的基础镜像：

docker pull ollama/ollama:latest
# 如果拉取不到，可使用下面这个
docker pull dhub.kubesre.xyz/ollama/ollama:latest

3、下载Qwen2的GGUF模型，这里为了演示方便就下载0.5B的模型了。

下载地址：https://huggingface.co/Qwen/Qwen2-0.5B-Instruct-GGUF或者https://modelscope.cn/models/qwen/Qwen2-0.5B-Instruct-GGUF

4、编写Modelfile文件：

# 注意GGUF模型文件的地址要与Dockerfile中保持一致
FROM /tmp/qwen2-0_5b-instruct-q4_0.gguf
TEMPLATE "{{ if .System }}<|im_start|>system
{{ .System }}<|im_end|>
{{ end }}{{ if .Prompt }}<|im_start|>user
{{ .Prompt }}<|im_end|>
{{ end }}<|im_start|>assistant
{{ .Response }}<|im_end|>
"
PARAMETER stop <|im_start|>
PARAMETER stop <|im_end|>

最终得到GGUF模型文件和Modelfile文件。

-rw-r--r--. 1 root root       290 Jun 21 14:00 Modelfile
-rw-r--r--. 1 root root 352969408 Jun 21 13:44 qwen2-0_5b-instruct-q4_0.gguf

构建镜像

1、将先前拉取的基础镜像导入内网设备，然后编写Dockerfile文件：

FROM ollama:latest
EXPOSE 11434ADD Modelfile /tmp/Modelfile
ADD qwen2-0_5b-instruct-q4_0.gguf /tmp/qwen2-0_5b-instruct-q4_0.ggufENTRYPOINT ["sh","-c","/bin/ollama serve"]

2、构建docker镜像，执行docker build -t ollama_qwen2-0_5b:1.0 -f Dockerfile .：

(base) [root@localhost docker-qwen2]# docker build -t ollama_qwen2-0_5b:1.0 -f Dockerfile .
[+] Building 1.7s (8/8) FINISHED                                                                                                                                                docker:default=> [internal] load .dockerignore                                                                                                                                                         0.4s=> => transferring context: 2B                                                                                                                                                           0.0s=> [internal] load build definition from Dockerfile                                                                                                                                      0.5s=> => transferring dockerfile: 303B                                                                                                                                                      0.0s=> [internal] load metadata for docker.io/library/ollama:latest                                                                                                                          0.0s=> [1/3] FROM docker.io/library/ollama:latest                                                                                                                                            0.0s=> [internal] load build context                                                                                                                                                         0.1s=> => transferring context: 201B                                                                                                                                                         0.0s=> CACHED [2/3] ADD Modelfile /tmp/Modelfile                                                                                                                                             0.0s=> CACHED [3/3] ADD qwen2-0_5b-instruct-q4_0.gguf /tmp/qwen2-0_5b-instruct-q4_0.gguf