曦云系列通用计算GPU mx-exporter Kubernetes集群监控部署手册
1. 概述
2. 环境信息及新建Namespace
2.1. 环境信息
2.2. 导入mx-exporter镜像
2.3. 在Kubernetes中新建Namespace
3. mx-exporter部署
3.1. Helm方式部署
3.2. YAML方式部署
4. Prometheus部署
5. Grafana部署
6. GPU性能指标展示
6.1. 接入Prometheus数据
6.2. 添加监控模板
6.3. 添加新的指标到监控面板
6.4. 修改指标收集范围
6.5. sGPU监控
7. 告警规则
7.1. Prometheus UI告警展示
7.2. Grafana告警展示
8. 兼容性
8.1. MXMACA-C500-K8s-0.8.2
9. 常见问题
9.1. pod不是Running状态
9.2. 导入配置文件后Grafana无数据显示
曦云系列通用计算GPU mx-exporter Kubernetes集群监控部署手册
目录
下一页
目录
1. 概述
2. 环境信息及新建Namespace
2.1. 环境信息
2.2. 导入mx-exporter镜像
2.3. 在Kubernetes中新建Namespace
3. mx-exporter部署
3.1. Helm方式部署
3.2. YAML方式部署
4. Prometheus部署
5. Grafana部署
6. GPU性能指标展示
6.1. 接入Prometheus数据
6.2. 添加监控模板
6.3. 添加新的指标到监控面板
6.4. 修改指标收集范围
6.5. sGPU监控
7. 告警规则
7.1. Prometheus UI告警展示
7.2. Grafana告警展示
8. 兼容性
8.1. MXMACA-C500-K8s-0.8.2
9. 常见问题
9.1. pod不是Running状态
9.2. 导入配置文件后Grafana无数据显示