曦云系列通用GPU mx-exporter Kubernetes集群监控部署手册
1. 概述
2. 环境信息及新建Namespace
2.1. 环境信息
2.2. 导入mx-exporter镜像
2.3. 在Kubernetes中新建Namespace
3. mx-exporter部署
3.1. Helm方式部署
3.2. YAML方式部署
4. Prometheus部署
5. Grafana部署
6. GPU性能指标展示
6.1. 接入Prometheus数据
6.2. 添加监控模板
6.3. 添加新的指标到监控面板
6.4. 修改指标收集范围
6.5. sGPU监控
7. 告警规则
7.1. Prometheus UI告警展示
7.2. Grafana告警展示
8. 兼容性
8.1. MXMACA-C500-K8s-0.8.2
9. 常见问题
9.1. pod不是Running状态
9.2. 导入配置文件后Grafana无数据显示
9.3. mx-exporter正常运行,
exported_pod
标签无内容
9.4. 如果集群使用的是Prometheus-operator,可以通过servicemonitor将mx-exporter注册到Prometheus的抓取列表中
曦云系列通用GPU mx-exporter Kubernetes集群监控部署手册
索引
索引