9. 常见问题
9.1. pod不是Running状态
可用
kubctl describe pod <pod_name> -n metax-monitor查看pod详细信息。可用
kubectl logs <pod_name> -n metax-monitor查看container log信息。
9.2. 导入配置文件后Grafana无数据显示
首先需要确认mx-exporter有没有收集到数据,可用
kubectl logs <mx-exporter-pod_name> -n metax-monitor查看log中有无异常。确认mx-exporter/mx-exporter/deployment/prometheus/config-map.yaml中mx-exporter的
job_name: "metax-mx-exporter"。浏览器输入<k8s_master_ip>:<prometheus_service_port>,prometheus_service_port默认为30000。 登录Prometheus UI,在搜索框中输入已知指标,如gpu_usage,点击Execute按钮查看exporter中数据是否已经导入Prometheus中,或者点击Execute按钮左边的open metrics explorer查询已知指标是否存在。
再次确认Grafana指标展示界面中选择的 server 为
<hostname>, device 选择有效值,如0。