2. 安装及使用方法

2.1. 安装与卸载

2.1.1. 安装

从MXMACA 2.27.0版本起,MXMACA SDK包安装过程中会默认安装mx-diagease工具。安装完成后,mx-diagease放置在 /opt/maca/bin/ 目录下,并会在 /usr/bin 目录下创建软链接。

2.1.2. 卸载

MXMACA SDK卸载后,mx-diagease工具会自动卸载。MXMACA SDK的卸载参见《曦云®系列通用计算GPU快速上手指南》中“卸载MXMACA编程环境”章节。

2.2. 使用参数说明

无参数时,则立即对所有板卡执行诊断。

2.2.1. mx-diagease参数说明

表 2.1 mx-diagease参数说明

参数

描述

-i <deviceId>,

--index <deviceId>

对指定板卡进行诊断或监控。如果没有指定,默认诊断或监控全部板卡。ID是从0开始的自然数,可以通过 mx-diagease -L 获取板卡的ID信息。可指定一个或多个ID,多个ID用 , 分隔,如 0,1,50-20-4,6all 等。

--set-loglevel <[0, 4]>

设置mx-diagease日志级别。0:关闭日志打印;1:error;2:warn;3:info(默认值);4:debug。

-m, --monitor

进入监控模式,可持续监控板卡各指标状态,实时打印异常信息,Ctrl+C退出后汇总监测结果。

-q, --quiet

在诊断模式时若指定该参数,则不打印输出。默认打印输出当前诊断项等信息。

-t <time>,

--time <time>

在监控模式下指定监控时长,支持传入格式为 [seconds][hh:mm:ss]

例如:

持续监控100秒: sudo mx-diagease -m -t 100

持续监控1小时22分35秒: sudo mx-diagease -m -t 01:22:35

-r <program>,

--run <program>

在监控模式下指定拉起某个程序并开始监控。

例如:

拉起GPU压力测试并进行监控: sudo mx-diagease -m -r "/opt/maca/bin/mxvs stress --xcore"

-g, --generate-template

生成默认的指标配置文件供诊断功能使用。

-c, --configfile

在使用诊断功能时,可指定json格式的指标配置文件来检测设备。

--check

检查PCIe及MetaXLink速率,带宽及smp状态,传入 bdfid 可检查指定设备信息。

-L, --list

列出所有设备。

2.3. 日志文件

mx-diagease运行时的日志文件默认保存在运行目录 mxdiag-log/mxdiag_<date>.log 下。其中 <date> 表示程序启动时的时间。同一日期的日志不清除不覆盖,会追加。