1. 概述

mx-exporter是用于在集群环境中收集沐曦通用GPU设备指标数据的工具。集群监控系统Prometheus可以通过HTTP从运行于每个节点的mx-exporter拉取设备指标数据。 可视化工具Grafana将收集的GPU设备指标转化成易于理解的图表。

本文将介绍如何在Kubernetes集群中部署Prometheus,Grafana,mx-exporter来监控GPU设备。

mx-exporter指标及标签具体说明请参见《沐曦通用GPU mx-exporter使用手册》

1.1. 适用产品

本文档适用于沐曦MXC500 系列产品:曦云® C500、C500X、C550、C550‑PL、C588,曦思® N260,曦索® X206;以及MXC600 系列产品:曦云® C600,曦思® N300,曦索® X301、X302。