1. 概述

本文档旨在针对曦云^® 系列GPU软硬件异常提供诊断流程和常规诊断方案，为系统管理员、开发测试人员和现场应用工程师尽快恢复系统提供帮助。

1.1. 使用说明

本文档通过总结多个不同文档及调试GPU系统问题的最佳实践，提供了一个通用诊断流程用于分析GPU服务器上的常见问题，但不保证涵盖全部场景。技术人员通过使用此流程应能完成调试过程的第一步，并独立尝试恢复系统或收集有用的数据做进一步分析。

在开始处理GPU异常事件前，尝试记录以下信息：

收集以上信息对启动调试过程非常重要，因为这些信息对后续问题分析提供有力的背景支撑。通过记录这些信息可以将其与其他事件相关联，从而更好地了解系统的整体行为和健康状况。

在收集数据提交GPU问题时，应该包含以下内容：

EID错误日志查看和对应的修复建议，参见《曦云系列通用计算GPU EID手册》。

参见《曦云系列通用计算GPU MXMACA异构程序异常诊断手册》（联系沐曦技术支持工程师获取）。

mx-diagease的详细使用说明，参见《曦云系列通用计算GPU mx-diagease诊断工具使用手册》中“诊断模式”章节。

调查程序性能问题时，可以在程序运行过程中执行mx-diagease的监控命令，来诊断Firmware的功耗管理是否有问题。详情参见《曦云系列通用计算GPU mx-diagease诊断工具使用手册》中“监控模式”章节。

mx-diagease -m -t <time>

当mx-diagease发现一个问题时，可能会提供修复建议，用户应首先尝试解决该问题。

mx-report收集当前环境上所有日志，会在当前路径下生成 HOSTNAME_TIMESTAMP 格式的文件夹：

sudo mx-report

若仅需收集接下来一段时间内的日志：

sudo mx-report -c

可使用 Ctrl+C 结束收集。

打包日志成 .zip：

sudo mx-report -p $LOG_PATH