dcgm专题

监控篇之利用dcgm-exporter监控GPU指标并集成grafana大盘

一、应用场景 当环境中包含GPU节点时,需要了解GPU应用使用节点GPU资源的情况,例如GPU利用率、显存使用量、GPU运行的温度、GPU的功率等。 在获取GPU监控指标后,用户可根据应用的GPU指标配置弹性伸缩策略,或者根据GPU指标设置告警规则。 下文是基于开源Prometheus和DCGM Exporter实现丰富的GPU观测场景 二、采集GPU监控指标 部署dcgm-exporter

DCGM-Exporter 安装 显卡监控 Prometheus

DCGM-Exporter 安装 显卡监控 1.使用docker方式2.查看显卡参数3.Prometheus配置文件修改4.grafana仪表板导入 1.使用docker方式 安装显卡驱动nvidia-smi可以查看安装Nvidia Docker docker run -d --gpus all --rm -p 9400:9400 nvidia/dcgm-exporter:2.