9. 常见问题

9.1. pod不是Running状态

  • 可用 kubctl describe pod <pod_name> -n metax-monitor 查看pod详细信息。

  • 可用 kubectl logs <pod_name> -n metax-monitor 查看container log信息。

9.2. 导入配置文件后Grafana无数据显示

  1. 首先需要确认mx-exporter有没有收集到数据,可用 kubectl logs <mx-exporter-pod_name> -n metax-monitor 查看log中有无异常。

  2. 确认mx-exporter/mx-exporter/deployment/prometheus/config-map.yaml中mx-exporter的 job_name: "metax-mx-exporter"

  3. 浏览器输入<k8s_master_ip>:<prometheus_service_port>prometheus_service_port默认为30000。 登录Prometheus UI,在搜索框中输入已知指标,如gpu_usage,点击Execute按钮查看exporter中数据是否已经导入Prometheus中,或者点击Execute按钮左边的open metrics explorer查询已知指标是否存在。

  4. 再次确认Grafana指标展示界面中选择的 server<hostname>device 选择有效值,如 0