本文主要是介绍大模型部署手记(4)MOSS+Jetson AGX Orin,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
1.简介
组织机构:复旦大学
代码仓:GitHub - OpenLMLab/MOSS: An open-source tool-augmented conversational language model from Fudan University
模型:fnlp/moss-moon-003-sft-int4
下载:https://huggingface.co/fnlp/moss-moon-003-sft-int4
硬件环境:Jetson AGX Orin
根据:
所以显然只能选择int4量化了。
2.代码和模型下载
登录Orin:
cd /home1/zhanghui
git clone https://github.com/OpenLMLab/MOSS.git
量化int4的模型地址:https://huggingface.co/fnlp/moss-moon-003-sft-int4
打开链接下载:
下载完毕后,将其移动到 /home1/zhanghui/MOSS/fnlp/moss-moon-003-sft-int4 目录下:
3.安装依赖
conda create --name moss python=3.8
conda activate moss
cd MOSS
修改requirements.txt:
cd ..
pip install ./torch-1.13.0a0+d0d6b1f2.nv22.10-cp38-cp38-linux_aarch64.whl
cd MOSS
pip install -r requirements.txt
没装成功,注释掉 triton,再来:
源码安装triton
cd /home1/zhanghui
git clone https://github.com/openai/triton
cd triton
pip install ninja cmake wheel
pip install -e python
4.部署验证
运行命令行DEMO:
cd /home1/zhanghui
cd MOSS
python moss_cli_demo.py
程序死机了。(桌面不能动了,但是终端还可以操作)
系统不间断弹出以下画面:
pip install jittor
参考:https://zhuanlan.zhihu.com/p/610563590
pip install cupy-cuda11x -f http://pip.cupy.dev/aarch64
python moss_cli_demo.py --model_name fnlp/moss-moon-003-sft-int4 --gpu GPU
好像MOSS回答问题不像《流浪地球2》那么快,但是GPU却烧得厉害:
第二个问题等了几分钟都没动静。
MOSS,你到底能做什么呢?
等了好久,它终于回答了:
然而,后面一个问题,它又在耐心思考了。。。
MOSS,你是他吗?
又等了好久。。。
再来:
又等了好久:
所以MOSS它还是有能力的,只是现在有可能只是550W。
(全文完,谢谢阅读)
这篇关于大模型部署手记(4)MOSS+Jetson AGX Orin的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!