6. 虚拟化SRIOV硬切分场景

6.1. 基本原理

在GPU卡开启SRIOV硬件切分虚拟化之后,一张GPU卡会虚拟出多个VF卡。当需要对GPU卡进行Warm Reset复位时,需要在host上通过mx-smi命令对GPU卡进行Warm Reset复位。

但在对GPU卡进行Warm Reset卡复位操作前,必须停止该GPU卡虚拟的所有VF卡上的业务。

6.2. 操作步骤

  1. 在host上执行mx-smi命令查看GPU卡node ID,并确认该GPU卡虚拟出来的VF卡信息。

    mx-smi -L
    
  2. 停止该GPU卡虚拟的所有VF卡上的业务。在使用VF卡的环境中执行mx-smi命令,查看Process列表是否有业务进程还在VF卡上运行,若还有业务进程在运行,请退出相关业务进程。

    mx-smi
    

    备注

    如果是VF透传虚拟机的使用场景,需要在虚拟机中VF业务停止之后,对虚拟机进行关机操作。

  3. 执行以下命令,在host上通过mx-smi工具对GPU卡执行Warm Reset操作:

    mx-smi -r -i <node ID>
    

    备注

    • 执行Warm Reset操作的node ID为GPU物理卡编号,不是VF虚拟卡编号。

    • 如果执行Warm Reset命令后console显示了错误信息,或者该命令无法结束,请重启主机。

  4. 等待大约90秒钟后查看GPU卡是否复位成功,在host上执行以下命令查看GPU卡及其VF卡是否恢复,同时确认dmesg没有错误日志。

    mx-smi -L
    

    备注

    • 执行Warm Reset命令后的90秒等待时间内,不要对GPU再下发任何其他操作,等检查到GPU复位完成后再进行操作。

    • 如果Warm Reset完成后,通过mx-smi命令查看的GPU及其VF卡不正常,或者dmesg有错误日志,请冷重启主机。

  5. 用户继续在VF卡上执行业务。