1. 概述
本文档描述了如何通过Warm Reset复位GPU卡来恢复业务。
1.1. 应用场景
当服务器上的一张或者多张GPU卡出现不可通过软件恢复的问题,且服务器主机及操作系统没有明显异常的情况下,可以尝试使用Warm Reset复位出现问题的GPU卡来恢复业务,以此避免重启服务器主机,节省运维时间和人力成本。
一般情况下,Warm Reset适用以下场景:
非显存坏页的不可自动纠正的RAS错误
VBIOS更新后立即生效
GPU卡之间MetaXLink出现异常,比如连接断开或降速等
其它未知问题引起的GPU卡异常,hang机或不响应等
备注
由于Warm Reset依赖GPU的部分软硬件功能,并且和服务器、操作系统以及出现问题时的上下文都紧密相关,无法保证在所有实际场景下都能操作成功并解决问题,建议Warm Reset后对所有GPU卡都进行基本的测试后再运行业务。如果Warm Reset后有异常,请立即冷重启服务器。