曦云系列通用GPU MX-DCM使用手册
1. 概述
1.1. 功能特点
1.2. 目标用户
2. 安装与运行
2.1. 用户须知
2.1.1. 支持的平台
2.1.2. 系统模块
2.2. 安装
2.2.1. 安装mx-dcmi
2.2.2. 安装mx-dcmd
2.3. 运行
2.3.1. mx-dcmd直接运行
2.3.2. mx-dcmd容器内运行
2.3.2.1. 示例1
2.3.2.2. 示例2
2.3.3. mx-dcmi使用
2.3.3.1. 使用帮助
2.4. 配置文件
2.5. 日志文件
3. MX-DCM功能
3.1. 设备查询
3.1.1. 使用帮助
3.1.2. 查看设备列表
3.1.3. 查看指定设备的属性信息
3.2. 设备分组
3.2.1. 使用帮助
3.2.2. 创建设备组
3.2.3. 添加设备到设备组
3.2.4. 从设备组移除设备
3.2.5. 查看设备组列表
3.2.6. 查看设备组详细信息
3.2.7. 删除设备组
3.3. 指标分组
3.3.1. 使用帮助
3.3.2. 创建指标组
3.3.3. 删除指标组
3.3.4. 查看指标组信息
3.3.5. 查看指标组列表
3.3.6. 查看所有可用指标
3.4. 状态监控
3.4.1. 使用帮助
3.4.2. 开启设备监控
3.4.3. 开启设备组监控
3.4.4. 停止监控
3.5. 任务进程数据收集
3.5.1. 使用帮助
3.5.2. 启动后台收集任务
3.5.3. 显示所有后台收集任务
3.5.4. 停止后台收集任务
3.5.5. 显示指定后台任务数据
3.5.6. 删除后台收集任务
3.6. 设备健康状态监控
3.6.1. 使用帮助
3.6.2. 检查设备健康状态
3.6.3. 启用监控项
3.6.4. 禁用所有监控项
3.6.5. 清除告警
3.7. 设备自检
3.7.1. 使用帮助
3.7.2. 自检项目
3.7.2.1. 自检项目说明
3.7.2.2. 自检项目诊断时间
3.7.3. 执行自检
3.7.3.1. 默认基准自检
3.7.3.2. 用户自定义基准自检
3.7.4. 自检示例
3.7.4.1. Level 1自检
3.7.4.2. RESTful API方式自检
3.7.4.3. 指定模块自检
3.7.4.4. 查询自检执行状态和结果
3.7.4.5. 指定设备进行自检
3.7.4.6. 显示json格式的自检结果
3.8. 拓扑查询
3.8.1. 使用帮助
3.8.2. 查看设备拓扑信息
3.9. 网卡诊断
3.9.1. 使用帮助
3.9.2. 查询网卡信息
3.9.3. 自检项目
3.9.3.1. 自检项目说明
3.9.3.2. 基准配置文件
3.9.4. 自检示例
3.9.4.1. Level 1自检
3.9.4.2. 显示json格式的自检结果
3.9.5. 单机RDMA性能测试
3.9.5.1. 基本命令格式
3.9.5.2. 示例1:读取数据带宽测试
3.9.5.3. 示例2:写入数据带宽测试(RESTful API)
3.9.5.4. 示例3:读取数据延时测试(GPUDirect)
3.9.6. 单机RDMA压力测试
3.9.6.1. 基本命令格式
3.9.6.2. 示例1:读取数据带宽压力测试
3.9.6.3. 示例2:读取数据带宽压力测试(GPUDirect)
3.9.7. 跨机RDMA压力测试
3.9.7.1. 基本命令格式
3.9.7.2. 示例1:跨机写入数据带宽压力测试
3.9.7.3. 示例2:跨机写入数据带宽压力测试(GPUDirect)
3.10. MCCL诊断
3.10.1. 使用帮助
3.10.2. 配置文件
3.10.3. MCCL测试基本命令
3.10.3.1. 启动MCCL测试
3.10.3.2. 查询测试任务状态
3.10.3.3. 查看测试结果
3.10.3.4. 终止测试任务
3.10.3.5. 删除测试任务
4. 附录
4.1. 术语/缩略语
曦云系列通用GPU MX-DCM使用手册
搜索
请启用 JavaScript 以便使用搜索功能