1. 概述

本文档旨在针对曦云® 系列GPU软硬件异常提供诊断流程和常规诊断方案,为系统管理员、开发测试人员和现场应用工程师尽快恢复系统提供帮助。

1.1. 使用说明

本文档通过总结多个不同文档及调试GPU系统问题的最佳实践,提供了一个通用诊断流程用于分析GPU服务器上的常见问题,但不保证涵盖全部场景。 技术人员通过使用此流程应能完成调试过程的第一步,并独立尝试恢复系统或收集有用的数据做进一步分析。