曦云系列通用GPU mx-exporter Kubernetes集群监控部署手册
  • 1. 概述
  • 2. 环境信息及新建Namespace
    • 2.1. 环境信息
    • 2.2. 导入mx-exporter镜像
    • 2.3. 在Kubernetes中新建Namespace
  • 3. mx-exporter部署
    • 3.1. Helm方式部署
    • 3.2. YAML方式部署
  • 4. Prometheus部署
  • 5. Grafana部署
  • 6. GPU性能指标展示
    • 6.1. 接入Prometheus数据
    • 6.2. 添加监控模板
    • 6.3. 添加新的指标到监控面板
    • 6.4. 修改指标收集范围
    • 6.5. sGPU监控
  • 7. 告警规则
    • 7.1. Prometheus UI告警展示
    • 7.2. Grafana告警展示
  • 8. 兼容性
    • 8.1. MXMACA-C500-K8s-0.8.2
  • 9. 常见问题
    • 9.1. pod不是Running状态
    • 9.2. 导入配置文件后Grafana无数据显示
    • 9.3. mx-exporter正常运行, exported_pod 标签无内容
    • 9.4. 如果集群使用的是Prometheus-operator,可以通过servicemonitor将mx-exporter注册到Prometheus的抓取列表中
曦云系列通用GPU mx-exporter Kubernetes集群监控部署手册
  • 搜索


© 版权所有 2025 沐曦集成电路(上海)股份有限公司。保留所有权利。