6. 虚拟化SRIOV硬切分场景
6.1. 基本原理
在GPU卡开启SRIOV硬件切分虚拟化之后,一张GPU卡会虚拟出多个vGPU卡。当需要对GPU卡进行Warm Reset复位时,需要在host上通过mx-smi命令对GPU卡进行Warm Reset复位。
但在对GPU卡进行Warm Reset卡复位操作前,必须停止该GPU卡虚拟的所有vGPU卡上的业务。
6.2. 操作步骤
在host上执行mx-smi命令查看GPU卡node ID,并确认该GPU卡虚拟出来的vGPU卡信息。
mx-smi -L停止该GPU卡虚拟的所有vGPU卡上的业务。在使用vGPU卡的环境中执行mx-smi命令,查看Process列表是否有业务进程还在vGPU卡上运行,若还有业务进程在运行,请退出相关业务进程。
mx-smi
备注
如果是vGPU透传虚拟机的使用场景,需要在虚拟机中vGPU业务停止之后,对虚拟机进行关机操作。
执行以下命令,在host上通过mx-smi工具对GPU卡执行Warm Reset操作:
mx-smi -r -i <node ID>
备注
执行Warm Reset操作的node ID为GPU物理卡编号,不是vGPU虚拟卡编号。
如果执行Warm Reset命令后console显示了错误信息,或者该命令无法结束,请重启主机。
等待大约90秒钟后查看GPU卡是否复位成功,在host上执行以下命令查看GPU卡及其vGPU卡是否恢复,同时确认dmesg没有错误日志。
mx-smi -L备注
执行Warm Reset命令后的90秒等待时间内,不要对GPU再下发任何其他操作,等检查到GPU复位完成后再进行操作。
如果Warm Reset完成后,通过mx-smi命令查看的GPU及其vGPU卡不正常,或者dmesg有错误日志,请冷重启主机。
用户继续在vGPU卡上执行业务。