1. 概述

本文档主要介绍沐曦数据中心管理工具(MetaX Data Center Manager,MX-DCM),指导用户如何安装和使用该工具对部署在数据中心的沐曦GPU进行监控和管理。

沐曦数据中心管理工具提供了对部署在集群和数据中心环境中的沐曦GPU进行管理的功能。MX-DCM概览如图 1.1 所示。

../_images/MxDCMOverview.png

图 1.1 MX-DCM概览

对于部署沐曦GPU的主机,MX-DCM主要提供了以下功能:

  • 设备分组管理

  • 设备行为监控

  • 设备数据采集

  • 设备配置管理

  • 设备状态检查以及诊断

  • 设备自检

  • 网络诊断

MX-DCM向用户提供以下访问接口:

  • MX-DCM的命令行工具(mx-dcmi)

  • 调用RESTful API

  • 集成了MX-DCM C API库(mxdcml)的第三方管理工具

备注

MX-DCM不支持设备软切分(SGPU)后的信息查询及操作。

1.1. 功能特点

  • 设备快速诊断

    MX-DCM提供了各种级别的设备诊断功能。

  • 任务级别的统计

    通过使用MX-DCM,用户可以收集分析任务级别的GPU使用情况。

  • GPU分组管理

    在数据中心环境中,一般一台主机会安装多张GPU,一个任务可能跑在多台主机上。为GPU分组的功能,将使用户的操作更便捷。

  • GPU管理策略

    使用沐曦的设备可以方便地识别定位问题。管理策略的设置,可以帮助设备自动从故障中恢复,隔离有问题的硬件,从而保证高可靠性,并简化设备管理工作。

1.2. 目标用户

MX-DCM主要面向以下用户:

  • 需要管理GPU设备的数据中心运维人员

  • 需要使用mxdcml的软件开发人员

  • 需要深入了解GPU行为的技术人员以及现场应用工程师