曦云系列通用计算GPU mx-exporter Kubernetes集群监控部署手册

目录

  • 1. 概述
  • 2. 环境信息及新建Namespace
    • 2.1. 环境信息
    • 2.2. 导入mx-exporter镜像
    • 2.3. 在Kubernetes中新建Namespace
  • 3. mx-exporter部署
    • 3.1. Helm方式部署
    • 3.2. YAML方式部署
  • 4. Prometheus部署
  • 5. Grafana部署
  • 6. GPU性能指标展示
    • 6.1. 接入Prometheus数据
    • 6.2. 添加监控模板
    • 6.3. 添加新的指标到监控面板
    • 6.4. 修改指标收集范围
    • 6.5. sGPU监控
  • 7. 告警规则
    • 7.1. Prometheus UI告警展示
    • 7.2. Grafana告警展示
  • 8. 兼容性
    • 8.1. MXMACA-C500-K8s-0.8.2
  • 9. 常见问题
    • 9.1. pod不是Running状态
    • 9.2. 导入配置文件后Grafana无数据显示
曦云系列通用计算GPU mx-exporter Kubernetes集群监控部署手册
  • 文档—沐曦开发者
下一页

文档—沐曦开发者

目录

  • 1. 概述
  • 2. 环境信息及新建Namespace
    • 2.1. 环境信息
    • 2.2. 导入mx-exporter镜像
    • 2.3. 在Kubernetes中新建Namespace
  • 3. mx-exporter部署
    • 3.1. Helm方式部署
    • 3.2. YAML方式部署
  • 4. Prometheus部署
  • 5. Grafana部署
  • 6. GPU性能指标展示
    • 6.1. 接入Prometheus数据
    • 6.2. 添加监控模板
    • 6.3. 添加新的指标到监控面板
    • 6.4. 修改指标收集范围
    • 6.5. sGPU监控
  • 7. 告警规则
    • 7.1. Prometheus UI告警展示
    • 7.2. Grafana告警展示
  • 8. 兼容性
    • 8.1. MXMACA-C500-K8s-0.8.2
  • 9. 常见问题
    • 9.1. pod不是Running状态
    • 9.2. 导入配置文件后Grafana无数据显示
下一页

© 版权所有 2025 沐曦集成电路(上海)股份有限公司。保留所有权利。