用TensorRT-LLM跑通BLOOM模型

本文主要是介绍用TensorRT-LLM跑通BLOOM模型，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

零、参考资料

NVIDIA官方
Github链接

一、构建 TensorRT-LLM的docker镜像

git lfs install
git clone  https://github.com/NVIDIA/TensorRT-LLM.git
cd TensorRT-LLM
git submodule update --init --recursive
make -C docker release_build
make -C docker release_run LOCAL_USER=1

二、在docker镜像中配置并跑Bloom模型

1、配置python环境

pip install -r examples/bloom/requirements.txt
git lfs install

2、从 HuggingFace 下载模型权重

cd examples/bloom
rm -rf ./bloom/560M
mkdir -p ./bloom/560M && git clone https://huggingface.co/bigscience/bloom-560m ./bloom/560M

3、将Hugging Face提供的BLOOM模型格式转换成TensorRT格式

# Single GPU on BLOOM 560M
python convert_checkpoint.py --model_dir ./bloom/560M/ \--dtype float16 \--output_dir ./bloom/560M/trt_ckpt/fp16/1-gpu/
# May need to add trtllm-build to PATH, export PATH=/usr/local/bin:$PATH
trtllm-build --checkpoint_dir ./bloom/560M/trt_ckpt/fp16/1-gpu/ \--gemm_plugin float16 \--gpt_attention_plugin float16 \--output_dir ./bloom/560M/trt_engines/fp16/1-gpu/

4、对 CNN Daily 数据集中的文章进行摘要

python ../summarize.py --test_trt_llm \--hf_model_dir ./bloom/560M/ \--data_type fp16 \--engine_dir ./bloom/560M/trt_engines/fp16/1-gpu/

这篇关于用TensorRT-LLM跑通BLOOM模型的文章就介绍到这儿，希望我们推荐的文章对编程师们有所帮助！

用TensorRT-LLM跑通BLOOM模型

零、参考资料

一、构建 TensorRT-LLM的docker镜像

二、在docker镜像中配置并跑Bloom模型

1、配置python环境

2、从 HuggingFace 下载模型权重

3、将Hugging Face提供的BLOOM模型格式转换成TensorRT格式

4、对 CNN Daily 数据集中的文章进行摘要

相关文章

详解如何使用Python从零开始构建文本统计模型

SpringBoot整合Sa-Token实现RBAC权限模型的过程解析

使用Python自动化生成PPT并结合LLM生成内容的代码解析

Spring Security基于数据库的ABAC属性权限模型实战开发教程

Java的IO模型、Netty原理解析

基于Flask框架添加多个AI模型的API并进行交互

C#集成DeepSeek模型实现AI私有化的流程步骤(本地部署与API调用教程)

SpringBoot快速接入OpenAI大模型的方法(JDK8)

0基础租个硬件玩deepseek,蓝耘元生代智算云|本地部署DeepSeek R1模型的操作流程

Deepseek R1模型本地化部署+API接口调用详细教程(释放AI生产力)