大模型能力对外提供服务

2024-06-21 12:36

本文主要是介绍大模型能力对外提供服务,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

我们在上一篇介绍了如何在本地部署大模型。大模型有了,下一步,很自然的就会想到怎么让模型对外提供服务。毕竟只有用户使用了产品、解决了问题,产品才有价值。

文章目录

  • 1、编程方式和大模型交互
  • 2、使用FastAPI开发大模型web端
    • 2.1、数据实体
    • 2.2、服务层
    • 2.3、控制层
    • 2.4、启动类
    • 2.5、测试类
  • 3、java开发中间层
  • 4、参考资料

1、编程方式和大模型交互

这里直接参考了hugging face上的代码示例。
可以自己先验证一下下面的示例代码在你机器上是否可用。

from transformers import AutoTokenizer, AutoModel
tokenizer = AutoTokenizer.from_pretrained("模型路径", trust_remote_code=True)
model = AutoModel.from_pretrained("模型路径", trust_remote_code=True).half().cuda()
model = model.eval()
response, history = model.chat(tokenizer, "你好", history=[])
print(response)

2、使用FastAPI开发大模型web端

示例代码如果跑通了,下面其实就是搭建大模型web端,将能力暴露出去。这里我们使用FastAPI,一个Python的web端高性能框架来搭建web端。
先看一下web端的代码层级

project_name/
│
├── controller/
│   ├── chat_controller.py       # web控制器
│
├── services/                    # 服务层目录
│   ├── chat_service.py          # 聊天服务相关实现
│
├── schemas/                     
│   ├── chat_schema.py           # 数据实体.类似java中的entity
│
├── tests/                
│   ├── test_chat_controller.py  # 测试web控制器脚本

2.1、数据实体

数据实体就是chat_schema.py文件

#pydantic可以理解成java的validation数据校验组件
from pydantic import BaseModel, Field
from typing import Optional, List#类只要继承了BaseModel,就相当于拥有了数据校验的能力。
#类似于validation校验框架的@NotEmpty、@NotBlank注解,如果写过java,应该了解这个
class Message(BaseModel):role: strcontent: strclass ChatMessage(BaseModel):prompt: str    max_tokens: int    temperature: float    top_p: float = Field(default=1.0)

2.2、服务层

服务层,就是java中的service层,主要就是和大模型进行交互。
在这里是chat_service.py文件

import datetime
import model_manager
from schemas.chat_schema import ChatMessage
class ChatService:def post_message(self, message: ChatMessage):model = model_manager.ModelManager.get_model()tokenizer = model_manager.ModelManager.get_tokenizer()#我们这里使用的是chat方法,chat方法是一次性输出推理结果,这个方法的弊端是如果推理时间长,用户要等很久,体验不好。除了chat方法,还可以使用stream_chat方法,类似于一个字一个字往外输出的效果,避免用户长时间等待response = model.chat( tokenizer,            message.prompt,            history=[],max_length=message.max_tokens,top_p=message.top_p,temperature=message.temperature)# 获取当前时间now = datetime.datetime.now()# 格式化时间为字符串time = now.strftime("%Y-%m-%d %H:%M:%S")answer = {            "response": response,            "status": 200,            "time": time        }log = "[" + time + "] " + '", prompt:"' + message.prompt + '", response:"' + repr(response) + '"'print(log)return answerdef get_messages(self):return {"message": "get message"}

2.3、控制层

这里就引入了fastapi框架

from fastapi import APIRouterfrom schemas.chat_schema import ChatMessage
from services.chat_service import ChatService#定义一个API转发器。作用:对API进行路由
chat_router = APIRouter()
#这个就类似于spring框架的@Autowired注解,在controller中注入了一个chat_service服务
chat_service = ChatService()#发布一个post方法
@chat_router.post("/new/message/")
def post_message(message: ChatMessage):print("进入post方法")return chat_service.post_message(message)#发布一个get方法
@chat_router.get("/get/messages/")
def get_messages():return chat_service.get_messages()

2.4、启动类

#uvicorn用来发布web服务。类似于tomcat服务器
import uvicorn
from fastapi import FastAPI
from controller.chat_controller import chat_router as chat_routerapp = FastAPI()
#对请求进行路由,将前缀为/chat的请求路由到chat_router服务
app.include_router(chat_router, prefix="/chat", tags=["chat"])#类似于java中的main方法
if __name__ == "__main__":#启动web服务uvicorn.run(app, host="0.0.0.0", port=6006, log_level="info", workers=1)

2.5、测试类

import json
import requestsurl1 = "http://127.0.0.1:6006/chat/new/message/"
data = {"history":[{"role":"user","content":"北京今天的天气怎么样"}],"prompt":"只回答温度和风力","max_tokens":12000,"temperature":0.5
}response1 = requests.post(url1, data=json.dumps(data))
print(response1.text)url2 = "http://127.0.0.1:6006/chat/get/messages/"
response2 = requests.get(url2)
print(response2.text)

3、java开发中间层

java中间层的作用是:调用大模型web端,获取推理结果,展示给用户。

为什么需要有这样一个java中间层呢?其他语言写这个中间层可以吗?
我们现在做的只是一个demo版本,真正上线使用的话,要考虑很多东西。比如:限流、熔断、降级等等。保护大模型服务
在web方面,java发展了20多年的时间,有非常厚的沉淀和非常好的生态,所以用java开发web比较合适,用其他语言来写这个中间层也可以,但是没有java语言好,这是利用了java语言的长处。

调用大模型获取推理结果,我们可以考虑以下两种方式
一次性获取推理结果
引入Hutool

    <dependency><groupId>cn.hutool</groupId><artifactId>hutool-all</artifactId><version>5.6.5</version></dependency>
@PostMapping(value = "/sendMessageHutool")public void sendMessageHutool(@RequestBody ChatRequest request, HttpServletResponse response) {try {log.info("参数为:{}",JSONObject.toJSONString(request));String channelResponse = HttpRequest.post(URL).body(JSONObject.toJSONString(request)).execute().body();log.info("channelResponse的值:{}",channelResponse);} catch (Exception e) {log.error("流式调用异常", e);}}

流式获取推理结果
使用okhttp3。okhttp3提供了流式获取大模型结果的API。依赖如下:

//引入okttp3的依赖
<dependency><groupId>com.squareup.okhttp3</groupId><artifactId>okhttp-sse</artifactId><version>5.0.0-alpha.14</version></dependency>
//引入kotlin依赖
<dependency><groupId>org.jetbrains.kotlin</groupId><artifactId>kotlin-stdlib</artifactId><version>2.0.0</version></dependency>

极客时间的专栏课上提供了demo示例,大家可以根据这个思路试一试


@ApiOperation(value = "流式发送对话消息")
@PostMapping(value = "sendMessage")
public void sendMessage(@RequestBody ChatRequest request, HttpServletResponse response) {try {JSONObject body = new JSONObject();body.put("model", request.getModel());body.put("stream", true);JSONArray messages = new JSONArray();JSONObject query = new JSONObject();query.put("role", "user");query.put("content", request.getQuery());messages.add(query);body.put("messages", messages);EsListener eventSourceListener = new EsListener(request, response);RequestBody formBody = RequestBody.create(body, MediaType.parse("application/json"));Request.Builder requestBuilder = new Request.Builder();Request request2 = requestBuilder.url(URL).post(formBody).build();EventSource.Factory factory = EventSources.createFactory(OkHttpUtil.getInstance());factory.newEventSource(request2, eventSourceListener);eventSourceListener.getCountDownLatch().await();} catch (Exception e) {log.error("流式调用异常", e);}
}//EsListener继承了EventSourceListener类,重写了其中的onEvent方法,onEvent不断地接收大模型的推理结果,写回到前端
@Override
public void onEvent(EventSource eventSource, String id, String type, String data) {try {output.append(data);if ("finish".equals(type)) {}if ("error".equals(type)) {}// 开始处理data,此处只展示基本操作// 开发过程中具体逻辑可自行扩展if (response != null) {response.getWriter().write(data);response.getWriter().flush();}} catch (Exception e) {log.error("事件处理异常", e);}
}

4、参考资料

1、极客时间<AI大模型实战高手课>
2、fastapi官网。https://fastapi.tiangolo.com/zh/tutorial/first-steps/
3、hugging face。https://huggingface.co/THUDM/chatglm3-6b

这篇关于大模型能力对外提供服务的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1081239

相关文章

Java的IO模型、Netty原理解析

《Java的IO模型、Netty原理解析》Java的I/O是以流的方式进行数据输入输出的,Java的类库涉及很多领域的IO内容:标准的输入输出,文件的操作、网络上的数据传输流、字符串流、对象流等,这篇... 目录1.什么是IO2.同步与异步、阻塞与非阻塞3.三种IO模型BIO(blocking I/O)NI

基于Flask框架添加多个AI模型的API并进行交互

《基于Flask框架添加多个AI模型的API并进行交互》:本文主要介绍如何基于Flask框架开发AI模型API管理系统,允许用户添加、删除不同AI模型的API密钥,感兴趣的可以了解下... 目录1. 概述2. 后端代码说明2.1 依赖库导入2.2 应用初始化2.3 API 存储字典2.4 路由函数2.5 应

Linux上设置Ollama服务配置(常用环境变量)

《Linux上设置Ollama服务配置(常用环境变量)》本文主要介绍了Linux上设置Ollama服务配置(常用环境变量),Ollama提供了多种环境变量供配置,如调试模式、模型目录等,下面就来介绍一... 目录在 linux 上设置环境变量配置 OllamPOgxSRJfa手动安装安装特定版本查看日志在

SpringCloud之LoadBalancer负载均衡服务调用过程

《SpringCloud之LoadBalancer负载均衡服务调用过程》:本文主要介绍SpringCloud之LoadBalancer负载均衡服务调用过程,具有很好的参考价值,希望对大家有所帮助,... 目录前言一、LoadBalancer是什么?二、使用步骤1、启动consul2、客户端加入依赖3、以服务

Nginx配置系统服务&设置环境变量方式

《Nginx配置系统服务&设置环境变量方式》本文介绍了如何将Nginx配置为系统服务并设置环境变量,以便更方便地对Nginx进行操作,通过配置系统服务,可以使用系统命令来启动、停止或重新加载Nginx... 目录1.Nginx操作问题2.配置系统服android务3.设置环境变量总结1.Nginx操作问题

C#集成DeepSeek模型实现AI私有化的流程步骤(本地部署与API调用教程)

《C#集成DeepSeek模型实现AI私有化的流程步骤(本地部署与API调用教程)》本文主要介绍了C#集成DeepSeek模型实现AI私有化的方法,包括搭建基础环境,如安装Ollama和下载DeepS... 目录前言搭建基础环境1、安装 Ollama2、下载 DeepSeek R1 模型客户端 ChatBo

SpringBoot快速接入OpenAI大模型的方法(JDK8)

《SpringBoot快速接入OpenAI大模型的方法(JDK8)》本文介绍了如何使用AI4J快速接入OpenAI大模型,并展示了如何实现流式与非流式的输出,以及对函数调用的使用,AI4J支持JDK8... 目录使用AI4J快速接入OpenAI大模型介绍AI4J-github快速使用创建SpringBoot

springboot的调度服务与异步服务使用详解

《springboot的调度服务与异步服务使用详解》本文主要介绍了Java的ScheduledExecutorService接口和SpringBoot中如何使用调度线程池,包括核心参数、创建方式、自定... 目录1.调度服务1.1.JDK之ScheduledExecutorService1.2.spring

Android 悬浮窗开发示例((动态权限请求 | 前台服务和通知 | 悬浮窗创建 )

《Android悬浮窗开发示例((动态权限请求|前台服务和通知|悬浮窗创建)》本文介绍了Android悬浮窗的实现效果,包括动态权限请求、前台服务和通知的使用,悬浮窗权限需要动态申请并引导... 目录一、悬浮窗 动态权限请求1、动态请求权限2、悬浮窗权限说明3、检查动态权限4、申请动态权限5、权限设置完毕后

0基础租个硬件玩deepseek,蓝耘元生代智算云|本地部署DeepSeek R1模型的操作流程

《0基础租个硬件玩deepseek,蓝耘元生代智算云|本地部署DeepSeekR1模型的操作流程》DeepSeekR1模型凭借其强大的自然语言处理能力,在未来具有广阔的应用前景,有望在多个领域发... 目录0基础租个硬件玩deepseek,蓝耘元生代智算云|本地部署DeepSeek R1模型,3步搞定一个应