曦云系列通用GPU MX-DCM使用手册
  • 1. 概述
    • 1.1. 功能特点
    • 1.2. 目标用户
  • 2. 安装与运行
    • 2.1. 用户须知
      • 2.1.1. 支持的平台
      • 2.1.2. 系统模块
    • 2.2. 安装
      • 2.2.1. 安装mx-dcmi
      • 2.2.2. 安装mx-dcmd
    • 2.3. 运行
      • 2.3.1. mx-dcmd直接运行
      • 2.3.2. mx-dcmd容器内运行
        • 2.3.2.1. 示例1
        • 2.3.2.2. 示例2
      • 2.3.3. mx-dcmi使用
        • 2.3.3.1. 使用帮助
    • 2.4. 配置文件
    • 2.5. 日志文件
  • 3. MX-DCM功能
    • 3.1. 设备查询
      • 3.1.1. 使用帮助
      • 3.1.2. 查看设备列表
      • 3.1.3. 查看指定设备的属性信息
    • 3.2. 设备分组
      • 3.2.1. 使用帮助
      • 3.2.2. 创建设备组
      • 3.2.3. 添加设备到设备组
      • 3.2.4. 从设备组移除设备
      • 3.2.5. 查看设备组列表
      • 3.2.6. 查看设备组详细信息
      • 3.2.7. 删除设备组
    • 3.3. 指标分组
      • 3.3.1. 使用帮助
      • 3.3.2. 创建指标组
      • 3.3.3. 删除指标组
      • 3.3.4. 查看指标组信息
      • 3.3.5. 查看指标组列表
      • 3.3.6. 查看所有可用指标
    • 3.4. 状态监控
      • 3.4.1. 使用帮助
      • 3.4.2. 开启设备监控
      • 3.4.3. 开启设备组监控
      • 3.4.4. 停止监控
    • 3.5. 任务进程数据收集
      • 3.5.1. 使用帮助
      • 3.5.2. 启动后台收集任务
      • 3.5.3. 显示所有后台收集任务
      • 3.5.4. 停止后台收集任务
      • 3.5.5. 显示指定后台任务数据
      • 3.5.6. 删除后台收集任务
    • 3.6. 设备健康状态监控
      • 3.6.1. 使用帮助
      • 3.6.2. 检查设备健康状态
      • 3.6.3. 启用监控项
      • 3.6.4. 禁用所有监控项
      • 3.6.5. 清除告警
    • 3.7. 设备自检
      • 3.7.1. 使用帮助
      • 3.7.2. 自检项目
        • 3.7.2.1. 自检项目说明
        • 3.7.2.2. 自检项目诊断时间
      • 3.7.3. 执行自检
        • 3.7.3.1. 默认基准自检
        • 3.7.3.2. 用户自定义基准自检
      • 3.7.4. 自检示例
        • 3.7.4.1. Level 1自检
        • 3.7.4.2. RESTful API方式自检
        • 3.7.4.3. 指定模块自检
        • 3.7.4.4. 查询自检执行状态和结果
        • 3.7.4.5. 指定设备进行自检
        • 3.7.4.6. 显示json格式的自检结果
    • 3.8. 拓扑查询
      • 3.8.1. 使用帮助
      • 3.8.2. 查看设备拓扑信息
    • 3.9. 网卡诊断
      • 3.9.1. 使用帮助
      • 3.9.2. 查询网卡信息
      • 3.9.3. 自检项目
        • 3.9.3.1. 自检项目说明
        • 3.9.3.2. 基准配置文件
      • 3.9.4. 自检示例
        • 3.9.4.1. Level 1自检
        • 3.9.4.2. 显示json格式的自检结果
      • 3.9.5. 单机RDMA性能测试
        • 3.9.5.1. 基本命令格式
        • 3.9.5.2. 示例1:读取数据带宽测试
        • 3.9.5.3. 示例2:写入数据带宽测试(RESTful API)
        • 3.9.5.4. 示例3:读取数据延时测试(GPUDirect)
      • 3.9.6. 单机RDMA压力测试
        • 3.9.6.1. 基本命令格式
        • 3.9.6.2. 示例1:读取数据带宽压力测试
        • 3.9.6.3. 示例2:读取数据带宽压力测试(GPUDirect)
      • 3.9.7. 跨机RDMA压力测试
        • 3.9.7.1. 基本命令格式
        • 3.9.7.2. 示例1:跨机写入数据带宽压力测试
        • 3.9.7.3. 示例2:跨机写入数据带宽压力测试(GPUDirect)
    • 3.10. MCCL诊断
      • 3.10.1. 使用帮助
      • 3.10.2. 配置文件
      • 3.10.3. MCCL测试基本命令
        • 3.10.3.1. 启动MCCL测试
        • 3.10.3.2. 查询测试任务状态
        • 3.10.3.3. 查看测试结果
        • 3.10.3.4. 终止测试任务
        • 3.10.3.5. 删除测试任务
  • 4. 附录
    • 4.1. 术语/缩略语
曦云系列通用GPU MX-DCM使用手册
  • 搜索


© 版权所有 2025 沐曦集成电路(上海)股份有限公司。保留所有权利。