1. 概述

本文档描述了如何通过Warm Reset复位GPU卡来恢复业务。

1.1. 应用场景

当服务器上的一张或者多张GPU卡出现不可通过软件恢复的问题,且服务器主机及操作系统没有明显异常的情况下,可以尝试使用Warm Reset复位出现问题的GPU卡来恢复业务,以此避免重启服务器主机,节省运维时间和人力成本。

一般情况下,Warm Reset适用以下场景:

  • 非显存坏页的不可自动纠正的RAS错误

  • VBIOS更新后立即生效

  • GPU卡之间MetaXLink出现异常,比如连接断开或降速等

  • 其它未知问题引起的GPU卡异常,hang机或不响应等

备注

由于Warm Reset依赖GPU的部分软硬件功能,并且和服务器、操作系统以及出现问题时的上下文都紧密相关,无法保证在所有实际场景下都能操作成功并解决问题,建议Warm Reset后对所有GPU卡都进行基本的测试后再运行业务。如果Warm Reset后有异常,请立即冷重启服务器。