1. 概述
本文档旨在针对沐曦通用GPU软硬件异常提供诊断流程和常规诊断方案,为系统管理员、开发测试人员和现场应用工程师尽快恢复系统提供帮助。
1.1. 使用说明
本文档通过总结多个不同文档及调试GPU系统问题的最佳实践,提供了一个通用诊断流程用于分析GPU服务器上的常见问题,但不保证涵盖全部场景。 技术人员通过使用此流程应能完成调试过程的第一步,并独立尝试恢复系统或收集有用的数据做进一步分析。
1.2. 适用产品
本文档适用于沐曦MXC500系列产品:曦云® C500、C500X、C550、C550-PL、C588,曦思® N260,曦索® X206;以及MXC600系列产品:曦云® C600,曦思® N300,曦索® X301、X302。