监控篇之利用dcgm-exporter监控GPU指标并集成grafana大盘

本文主要是介绍监控篇之利用dcgm-exporter监控GPU指标并集成grafana大盘，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

一、应用场景

当环境中包含GPU节点时，需要了解GPU应用使用节点GPU资源的情况，例如GPU利用率、显存使用量、GPU运行的温度、GPU的功率等。
在获取GPU监控指标后，用户可根据应用的GPU指标配置弹性伸缩策略，或者根据GPU指标设置告警规则。
下文是基于开源Prometheus和DCGM Exporter实现丰富的GPU观测场景

二、采集GPU监控指标

部署dcgm-exporter组件进行GPU指标的采集，同时以9400端口对外暴露GPU指标。
该文利用docker进行gpu监控部署

docker pull nvcr.io/nvidia/k8s/dcgm-exporter:3.0.4-3.0.0-ubuntu20.04

1. 安装 NVIDIA Container Toolkit

确定您的 Linux 发行版和版本：

distribution=$(. /etc/os-release;echo $ID$VERSION_ID)

添加 NVIDIA Container Toolkit 的 GPG 密钥：

curl -s -L https://nvidia.github.io/nvidia-container-toolkit/gpgkey | sudo apt-key add -

添加 NVIDIA Container Toolkit 的 APT 软件源：

curl -s -L https://nvidia.github.io/nvidia-container-toolkit/ubuntu${distribution}/nvidia-container-toolkit.list | sudo tee /etc/apt/sources.list.d/nvidia-container-toolkit.list

更新您的 yum软件包列表并安装 NVIDIA Container Toolkit：

yum update
yum install -y libseccomp
yum install -y nvidia-container-toolkit

安装完成之后执行如下验证是否安装成功：

rpm -qa | grep nvidia

2. 启动dcgm-exporter容器

运行带有 GPU 支持的容器：

sudo docker run -d --gpus all -p 9400:9400 --restart=always nvcr.io/nvidia/k8s/dcgm-exporter:3.0.4-3.0.0-ubuntu20.04

3. 测试dcgm-exporter的metrics指标

调用dcgm-exporter接口，验证采集的应用GPU信息。
例如：IP地址为：192.168.0.10

curl 192.168.0.10:9400/metrics

4. 集成prometheus

修改监控内容

sudo vim /etc/prometheus/prometheus.yml

添加以下代码

  - job_name: 'gpu_metrics'static_configs:- targets: ['gpu_exporter_host:9400']

格式如下
在这里插入图片描述
重启prometheus

systemctl restart prometheus

5.集成 grafana大盘

登录Grafana页面查看GPU信息
如您安装了Grafana，您可通过导入NVIDIA DCGM Exporter Dashboard来展示gpu的相关指标信息。
关于在Grafana导入Dashboard的方法，请参见Manage dashboards。
在这里插入图片描述

这篇关于监控篇之利用dcgm-exporter监控GPU指标并集成grafana大盘的文章就介绍到这儿，希望我们推荐的文章对编程师们有所帮助！

监控篇之利用dcgm-exporter监控GPU指标并集成grafana大盘

一、应用场景

二、采集GPU监控指标

1. 安装 NVIDIA Container Toolkit

2. 启动dcgm-exporter容器

3. 测试dcgm-exporter的metrics指标

4. 集成prometheus

5.集成 grafana大盘

相关文章

springboot简单集成Security配置的教程

springboot集成Deepseek4j的项目实践

Spring Boot 集成 Quartz 使用Cron 表达式实现定时任务

Spring AI集成DeepSeek三步搞定Java智能应用的详细过程

Spring AI集成DeepSeek实现流式输出的操作方法

SpringBoot集成图片验证码框架easy-captcha的详细过程

C#集成DeepSeek模型实现AI私有化的流程步骤(本地部署与API调用教程)

JAVA集成本地部署的DeepSeek的图文教程

Docker部署Jenkins持续集成(CI)工具的实现

Qt 中集成mqtt协议的使用方法