6. GPU性能指标展示

6.1. 接入Prometheus数据

操作步骤

  1. 在Grafana中点击 Home 选择 Connections > Data sources,如图 6.1 所示。

    ../_images/SelectDataSource1.png

    图 6.1 Grafana选择数据源

  2. 默认已添加Prometheus,若未添加可点击右上角Add new data source,选择添加Prometheus。之后点击 prometheus 进行配置,如图 6.2 所示。

    ../_images/AddPromInGrafana.png

    图 6.2 Grafana添加数据源

  3. 配置URL为http://<k8s_master_ip>:<prometheus_service_port>,其中prometheus_service_port默认为30000。 点击底部Save & test测试Prometheus连通性,提示添加数据库成功,如图 6.3 所示。

    ../_images/AddUrlInGrafana.png

    图 6.3 Grafana配置数据源URL

6.2. 添加监控模板

操作步骤

  1. 点击Dashboards图标,点击New,选择Import,如图 6.4 所示。

    ../_images/GrafanaImportJson.png

    图 6.4 Grafana选择导入Json

  2. 点击Upload dashboard JSON file,上传mx-exporter/deployment/grafana-dashboard/MetaX-GPU-C500.json文件,如图 6.5 所示。

    ../_images/SelectJson.png

    图 6.5 Grafana选择监控模板

  3. 数据源选prometheus,点击Import,如图 6.6 所示。

    ../_images/SelectPromDS.png

    图 6.6 Grafana导入模板选择数据源

  4. Dashboard中 server 选择 <hostname>device 选择一个有效值,如 GPU0 ,可查看服务器GPU0基本指标信息。点击右上角时间下拉框,可选择展示特定时间段的信息,如图 6.7 所示。

    ../_images/GpuMetricsGraph.png

    图 6.7 Grafana数据指标展示

6.3. 添加新的指标到监控面板

操作步骤

  1. 查看 mx-exporter/config/default-counters.csv 中的指标信息,根据实际情况在Grafana中添加想要监控的指标,如 pcie_peed

    有些指标仅为某些特定板卡型号中有,请注意筛选。 如图 6.8 所示,第一列加“#”的内容为注释行,如果不想收集某些指标,可用“#”将其注释掉。 指标标签为可用于过滤指标信息的标签,指标描述及指标标签均可编辑(标签不可更改顺序及增删),编辑后在Grafana中也需做相应更改。

    ../_images/DefaultConfigFile.png

    图 6.8 default-counters中的指标说明

  2. 点击 Add 图标,下拉框中选择 Visualization ,如图 6.9 所示。

    ../_images/EditGrafanaJson.png

    图 6.9 Grafana添加一个新指标图

  3. 点击数据源选择 prometheus ,在 Query 中搜索指标名称及筛选的Label,点击Run queries查看是否有数据显示,如展示符合预期,编辑右边的指标名称(Title)及描述(Description),点击Apply,如图 6.10 所示。

    ../_images/EditNewMetric.png

    图 6.10 Grafana编辑新建的指标信息

  4. (可选)点击面板右侧 edit 图标,选择 Edit ,可再次编辑面板信息,如图 6.11 所示。

    ../_images/EditMericAgain.png

    图 6.11 Grafana再次编辑指标信息

  5. 添加完所需指标后,可点击 save 保存该面板,如图 6.12 所示。

    新添加的指标面板在最上面,可根据需要将光标移动到指标名,当出现可移动图标时拖拽该指标移动位置。

    ../_images/SaveNewDashboard.png

    图 6.12 保存新面板

  6. Details 中描述新增或者修改的内容,点击 Save ,如图 6.13 所示。

    ../_images/DashboardChangeDesc.png

    图 6.13 描述变更内容

  7. 点击面板中的 share 图标,选择 Export > Save to file 将当前视图保存为新的JSON文件,如图 6.14 所示。

    ../_images/ExportDashboard.png

    图 6.14 导出视图为JSON文件

6.4. 修改指标收集范围

若当前默认指标收集范围需要变更,可通过以下方法修改指标后再部署。

  • Helm 部署增加指标

    修改mx-exporter/deployment/mx-exporter/helm/mx-exporter/templates/metrics-configmap.yaml, 去掉指标前的 “#” 以启用指标收集;在指标前加 “#” 将不会收集该指标数据。

  • YAML 部署增加指标

    修改mx-exporter/deployment/mx-exporter/mx-exporter-daemonset.yamlmx-exporter-metrics-config-map 中的指标内容,去掉指标前的 “#” 以启用指标收集;在指标前加 “#” 将不会收集该指标数据。

6.5. sGPU监控

为了监控集群中sGPU(sliced GPU)的使用,需要在部署前完成以下操作。

  1. 去掉sGPU相关指标前的 “#” 启用sGPU指标收集,具体操作参见 6.4 修改指标收集范围

  2. 将主机设备进行切分,具体操作参见《曦云系列® 通用计算GPU mx-smi使用手册》中 “sGPU切分选项”章节。

  3. 部署后,mx-exporter可正常获取sGPU指标,参见 6.2 添加监控模板 操作,导入名为mx-exporter/deployment/grafana-dashboard/MetaX-sGPU.json的监控模板。

  4. 在Grafana中左上角选择相应的hostname,GPU设备,sGPU设备,可查看当前sGPU指标,如图 6.15 所示:

    ../_images/SgpuMetric.png

    图 6.15 查看当前sGPU指标