6. 虚拟化SRIOV硬切分场景

6.1. 基本原理

在GPU卡开启SRIOV硬件切分虚拟化之后,一张GPU卡会虚拟出多个vGPU卡。当需要对GPU卡进行Warm Reset复位时,需要在host上通过mx-smi命令对GPU卡进行Warm Reset复位。

但在对GPU卡进行Warm Reset卡复位操作前,必须停止该GPU卡虚拟的所有vGPU卡上的业务。

6.2. 操作步骤

  1. 在host上执行mx-smi命令查看GPU卡node ID,并确认该GPU卡虚拟出来的vGPU卡信息。

    mx-smi -L
    
  2. 停止该GPU卡虚拟的所有vGPU卡上的业务。在使用vGPU卡的环境中执行mx-smi命令,查看Process列表是否有业务进程还在vGPU卡上运行,若还有业务进程在运行,请退出相关业务进程。

    mx-smi
    

    备注

    如果是vGPU透传虚拟机的使用场景,需要在虚拟机中vGPU业务停止之后,对虚拟机进行关机操作。

  3. 执行以下命令,在host上通过mx-smi工具对GPU卡执行Warm Reset操作:

    mx-smi -r -i <node ID>
    

    备注

    • 执行Warm Reset操作的node ID为GPU物理卡编号,不是vGPU虚拟卡编号。

    • 如果执行Warm Reset命令后console显示了错误信息,或者该命令无法结束,请重启主机。

  4. 等待大约90秒钟后查看GPU卡是否复位成功,在host上执行以下命令查看GPU卡及其vGPU卡是否恢复,同时确认dmesg没有错误日志。

    mx-smi -L
    

    备注

    • 执行Warm Reset命令后的90秒等待时间内,不要对GPU再下发任何其他操作,等检查到GPU复位完成后再进行操作。

    • 如果Warm Reset完成后,通过mx-smi命令查看的GPU及其vGPU卡不正常,或者dmesg有错误日志,请冷重启主机。

  5. 用户继续在vGPU卡上执行业务。