在AutoDL上部署Yi-34B大模型

2024-05-31 15:44
文章标签 部署 模型 yi autodl 34b

本文主要是介绍在AutoDL上部署Yi-34B大模型,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

在AutoDL上部署Yi-34B大模型


Yi介绍

  • Yi 系列模型是 01.AI 从零训练的下一代开源大语言模型。
  • Yi 系列模型是一个双语语言模型,在 3T 多语言语料库上训练而成,是全球最强大的大语言模型之一。Yi 系列模型在语言认知、常识推理、阅读理解等方面表现优异。
    • Yi-34B-Chat 模型在 AlpacaEval Leaderboard 排名第二,仅次于 GPT-4 Turbo,超过了 GPT-4、Mixtral 和 Claude 等大语言模型(数据截止至 2024 年 1 月)
    • Yi-34B 模型在 Hugging Face Open LLM Leaderboard(预训练)与 C-Eval 基准测试中荣登榜首,在中文和英文语言能力方面均超过了其它开源模型,例如,Falcon-180B、Llama-70B 和 Claude(数据截止至 2023 年 11 月)。

部署步骤

硬件要求

部署 Yi 系列模型之前,确保硬件满足以下要求。

模型最低显存推荐GPU示例
Yi-6B-Chat15 GBRTX 3090 RTX 4090 A10 A30
Yi-6B-Chat-4bits4 GBRTX 3060 RTX 4060
Yi-6B-Chat-8bits8 GBRTX 3070 RTX 4060
Yi-34B-Chat72 GB4 x RTX 4090 A800 (80GB)
Yi-34B-Chat-4bits20 GBRTX 3090 RTX 4090 A10 A30 A100 (40GB)
Yi-34B-Chat-8bits38 GB2 x RTX 3090 2 x RTX 4090 A800 (40GB)

运行实例

image-20240228103634489

  • 进入终端
    • image-20240228103723138image-20240228103741512
  • 安装 modelscope
pip install -i https://pypi.tuna.tsinghua.edu.cn/simple modelscope
  • 进入ipython终端
    • ipython

下载模型

from modelscope.hub.snapshot_download import snapshot_download
model_dir = snapshot_download('01ai/Yi-34B-Chat-4bits', cache_dir='autodl-tmp', revision='master', ignore_file_pattern='.bin')

从modelscope上下载Yi-34B-Chat-4bits模型,存放目录为autodl-tmp

版本是master,去除后缀为.bin的文件,这里只需要下载safetensors后缀的模型

image-20240228110450280

安装 vllm

vLLM是伯克利大学LMSYS组织开源的大语言模型高速推理框架,旨在极大地提升实时场景下的语言模型服务的吞吐与内存使用效率。vLLM是一个快速且易于使用的库,用于 LLM 推理和服务,可以和HuggingFace 无缝集成。vLLM利用了全新的注意力算法「PagedAttention」,有效地管理注意力键和值。

pip install -i https://pypi.tuna.tsinghua.edu.cn/simple vllm
  • 开启 openai 兼容的服务
python -m vllm.entrypoints.openai.api_server \--model /root/autodl-tmp/01ai/Yi-34B-Chat-4bits \--served-model-name 01ai/Yi-34B-Chat-4bits \--trust-remote-code \--max-model-len 2048 -q awq 

– model : 指定模型的位置

– served-model-name : 指定模型的名称

– trust-remote-code : 接收它执行的代码

– max-model-len : 接收的上下文大小

-q awq : 量化方式为awq

  • 查看资源占用
nvidia-smi

image-20240228114659417

显示占用的23G显存

  • 测试服务
curl http://localhost:8000/v1/completions \
-H "Content-Type: application/json" \
-d '{"model": "01ai/Yi-34B-Chat-4bits","prompt": "San Francisco is a","max_tokens": 7,"temperature": 0
}'

执行 benchmark 测试

  • 关闭之前的API Server服务

  • 开启AutoDL的学术加速

    • source /etc/network_turbo
  • 下载vllm 源码

    • git clone https://github.com/vllm-project/vllm
    • cd vllm/benchmarks
  • 测试

    • python benchmark_throughput.py \--backend vllm \--input-len 128 --output-len 512 \--model /root/autodl-tmp/01ai/Yi-34B-Chat-4bits \-q awq --num-prompts 100 --seed 1100 \--trust-remote-code \--max-model-len 2048
      

gradio 的 chat 组件

  • 安装openai
pip install openai -U
  • 安装gradio
pip install gradio==3.41
  • 创建一个python脚本 chat.py
from openai import OpenAI
import gradio as gr# Set OpenAI's API key and API base to use vLLM's API server.
openai_api_key = "EMPTY"
openai_api_base = "http://localhost:8000/v1"# 创建一个 OpenAI 客户端,用于与 API 服务器进行交互
client = OpenAI(api_key=openai_api_key,base_url=openai_api_base,
)def predict(message, history):# 将聊天历史转换为 OpenAI 格式history_openai_format = [{"role": "system", "content": "你是个靠谱的 AI 助手,尽量详细的解答用户的提问。"}]for human, assistant in history:history_openai_format.append({"role": "user", "content": human })history_openai_format.append({"role": "assistant", "content":assistant})history_openai_format.append({"role": "user", "content": message})# 创建一个聊天完成请求,并将其发送到 API 服务器stream = client.chat.completions.create(model='01ai/Yi-34B-Chat-4bits',   # 使用的模型名称messages= history_openai_format,  # 聊天历史temperature=0.8,                  # 控制生成文本的随机性stream=True,                      # 是否以流的形式接收响应extra_body={'repetition_penalty': 1, 'stop_token_ids': [7]})# 从响应流中读取并返回生成的文本partial_message = ""for chunk in stream:partial_message += (chunk.choices[0].delta.content or "")yield partial_message# 创建一个聊天界面,并启动它,share=True 让 gradio 为我们提供一个 debug 用的域名
gr.ChatInterface(predict).queue().launch(share=True)
  • 开启一个新的终端执行命令: python chat.py

稍等它在终端给我们生成一个 xxxx.gradio.live 的域名,访问这个域名就可以进行测试了。

  • 如果gradio无法生成可分享的外部连接

image-20240228120522790

  • 解决办法 :

    • 1.下载此文件:https://cdn-media.huggingface.co/frpc-gradio-0.2/frpc_linux_amd64
      如果auto服务器下载不到,可以手动上传
      2.将下载的文件重命名为:frpc_linux_amd64_v0.2
      mv frpc_linux_amd64 frpc_linux_amd64_v0.2
      3.将文件移动到以下位置/root/miniconda3/lib/python3.8/site-packages/gradio
      cp frpc_linux_amd64_v0.2 /root/miniconda3/lib/python3.8/site-packages/gradio
      4.给予执行权限
      chmod +x /root/miniconda3/lib/python3.8/site-packages/gradio/frpc_linux_amd64_v0.2
      

image-20240228121358881

效果

  • 3090 运行起来之后,问题问到第二个之后就会OOM,显存几乎全部占满

image-20240228121902280

这篇关于在AutoDL上部署Yi-34B大模型的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1018348

相关文章

闲置电脑也能活出第二春?鲁大师AiNAS让你动动手指就能轻松部署

对于大多数人而言,在这个“数据爆炸”的时代或多或少都遇到过存储告急的情况,这使得“存储焦虑”不再是个别现象,而将会是随着软件的不断臃肿而越来越普遍的情况。从不少手机厂商都开始将存储上限提升至1TB可以见得,我们似乎正处在互联网信息飞速增长的阶段,对于存储的需求也将会不断扩大。对于苹果用户而言,这一问题愈发严峻,毕竟512GB和1TB版本的iPhone可不是人人都消费得起的,因此成熟的外置存储方案开

大模型研发全揭秘:客服工单数据标注的完整攻略

在人工智能(AI)领域,数据标注是模型训练过程中至关重要的一步。无论你是新手还是有经验的从业者,掌握数据标注的技术细节和常见问题的解决方案都能为你的AI项目增添不少价值。在电信运营商的客服系统中,工单数据是客户问题和解决方案的重要记录。通过对这些工单数据进行有效标注,不仅能够帮助提升客服自动化系统的智能化水平,还能优化客户服务流程,提高客户满意度。本文将详细介绍如何在电信运营商客服工单的背景下进行

Andrej Karpathy最新采访:认知核心模型10亿参数就够了,AI会打破教育不公的僵局

夕小瑶科技说 原创  作者 | 海野 AI圈子的红人,AI大神Andrej Karpathy,曾是OpenAI联合创始人之一,特斯拉AI总监。上一次的动态是官宣创办一家名为 Eureka Labs 的人工智能+教育公司 ,宣布将长期致力于AI原生教育。 近日,Andrej Karpathy接受了No Priors(投资博客)的采访,与硅谷知名投资人 Sara Guo 和 Elad G

阿里开源语音识别SenseVoiceWindows环境部署

SenseVoice介绍 SenseVoice 专注于高精度多语言语音识别、情感辨识和音频事件检测多语言识别: 采用超过 40 万小时数据训练,支持超过 50 种语言,识别效果上优于 Whisper 模型。富文本识别:具备优秀的情感识别,能够在测试数据上达到和超过目前最佳情感识别模型的效果。支持声音事件检测能力,支持音乐、掌声、笑声、哭声、咳嗽、喷嚏等多种常见人机交互事件进行检测。高效推

Retrieval-based-Voice-Conversion-WebUI模型构建指南

一、模型介绍 Retrieval-based-Voice-Conversion-WebUI(简称 RVC)模型是一个基于 VITS(Variational Inference with adversarial learning for end-to-end Text-to-Speech)的简单易用的语音转换框架。 具有以下特点 简单易用:RVC 模型通过简单易用的网页界面,使得用户无需深入了

透彻!驯服大型语言模型(LLMs)的五种方法,及具体方法选择思路

引言 随着时间的发展,大型语言模型不再停留在演示阶段而是逐步面向生产系统的应用,随着人们期望的不断增加,目标也发生了巨大的变化。在短短的几个月的时间里,人们对大模型的认识已经从对其zero-shot能力感到惊讶,转变为考虑改进模型质量、提高模型可用性。 「大语言模型(LLMs)其实就是利用高容量的模型架构(例如Transformer)对海量的、多种多样的数据分布进行建模得到,它包含了大量的先验

图神经网络模型介绍(1)

我们将图神经网络分为基于谱域的模型和基于空域的模型,并按照发展顺序详解每个类别中的重要模型。 1.1基于谱域的图神经网络         谱域上的图卷积在图学习迈向深度学习的发展历程中起到了关键的作用。本节主要介绍三个具有代表性的谱域图神经网络:谱图卷积网络、切比雪夫网络和图卷积网络。 (1)谱图卷积网络 卷积定理:函数卷积的傅里叶变换是函数傅里叶变换的乘积,即F{f*g}

秋招最新大模型算法面试,熬夜都要肝完它

💥大家在面试大模型LLM这个板块的时候,不知道面试完会不会复盘、总结,做笔记的习惯,这份大模型算法岗面试八股笔记也帮助不少人拿到过offer ✨对于面试大模型算法工程师会有一定的帮助,都附有完整答案,熬夜也要看完,祝大家一臂之力 这份《大模型算法工程师面试题》已经上传CSDN,还有完整版的大模型 AI 学习资料,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

【生成模型系列(初级)】嵌入(Embedding)方程——自然语言处理的数学灵魂【通俗理解】

【通俗理解】嵌入(Embedding)方程——自然语言处理的数学灵魂 关键词提炼 #嵌入方程 #自然语言处理 #词向量 #机器学习 #神经网络 #向量空间模型 #Siri #Google翻译 #AlexNet 第一节:嵌入方程的类比与核心概念【尽可能通俗】 嵌入方程可以被看作是自然语言处理中的“翻译机”,它将文本中的单词或短语转换成计算机能够理解的数学形式,即向量。 正如翻译机将一种语言

AI Toolkit + H100 GPU,一小时内微调最新热门文生图模型 FLUX

上个月,FLUX 席卷了互联网,这并非没有原因。他们声称优于 DALLE 3、Ideogram 和 Stable Diffusion 3 等模型,而这一点已被证明是有依据的。随着越来越多的流行图像生成工具(如 Stable Diffusion Web UI Forge 和 ComyUI)开始支持这些模型,FLUX 在 Stable Diffusion 领域的扩展将会持续下去。 自 FLU