4. EID错误列表
下表展示了EID 错误类型、可能原因、影响及修复建议,供用户参考。
EID |
可能原因 |
影响 |
修复建议 |
|---|---|---|---|
0x1101 |
EEPROM数据校验出错 |
固件中存储的参数可能出错 |
联系售后维修 |
0x1102 |
寄存器访问违反安全策略限制 |
软件的寄存器操作未成功 |
检查软件中是否有对寄存器的越权访问 |
0x1103 |
主flash损坏,从备用flash启动 |
无直接影响,固件会自动修复 |
不需要修复 |
0x1104 |
board自检异常,或初始化失败 |
业务无法运行 |
检查使用的VBIOS是否正确 |
0x1105 |
芯片硬件配置信息校验出错 |
业务无法运行 |
检查使用的VBIOS是否正确 |
0x1106 |
VR芯片固件版本校验出错 |
芯片性能可能受影响 |
尝试更新VR固件 |
0x1107 |
PHY固件SRAM数据校验出错 |
PCIe链路可能会出现异常 |
联系售后维修 |
0x1108 |
光模块被拔出,或光链路异常 |
光口通信可能出现异常 |
检查光口物理连接 |
0x1109 |
slave die flash损坏,尝试修复 |
无直接影响,固件会自动修复 |
不需要修复 |
0x110a |
MetaXLink链路发生异常 |
MetaXLink 通信可能会出现异常 |
检查MetaXLink物理连接 |
0x2101 |
|
业务发生异常 |
查看错误信息中 需要用户程序进一步定位是否使用了错误的虚拟地址或者申请内存使用了错误的rwx权限 |
0x2102 |
error_type xxx:表示触发了哪种类型的XCORE shader error
|
发生异常进程结束 |
|
0x2103 |
GPU内部资源释放失败 |
应用程序结束过慢或者卡住 |
尝试warmreset或重启服务器进行恢复,仍无法解决报bug给硬件厂商 |
0x2104 |
HBM显存出现坏页 |
坏页隔离失败会发生异常结束进程 |
|
0x2105 |
在GPU内核驱动加载或者卸载过程中,用户正在尝试通过SMI接口访问GPU相关资源 |
SMI信息获取失败 |
在GPU内核驱动加载或卸载完成后,再执行GPU业务操作 |
0x2106 |
导致这个问题的原因比较复杂,需要结合软硬件环境综合判断 |
KMD与SMP通讯失败导致驱动加载失败或者SMI获取信息失败 |
联系硬件厂商解决 |
0x2107 |
PCIe bar空间不够 |
设备枚举异常,驱动无法加载 |
|
0x2108 |
UMD申请内存使用的VA有重叠,KMD会检测每个进程各GPU VA到PA的entry映射是否与其他entry有重复(包括部分重复),一旦检测到GPU VA到PA存在多重映射,KMD 日志就会记录冲突地址,标记当前映射失败,并返回错误码 |
业务执行失败 |
联系硬件厂商解决 |
0x2109 |
GPU应用程序使用了过多的HBM显存或者GPU SDK存在内存管理相关问题 |
业务执行失败 |
|
0x210A |
GPU应用程序使用了过多的系统内存或者GPU SDK存在内存管理相关问题 |
业务执行失败 |
|
0x210B |
GPU触发INT中断和CPU处理中断的过程是异步的,当GPU触发INT中断消息的速度超过CPU处理中断的速度,会出现GPU驱动的中断FIFO队列溢出问题 |
出现丢中断,影响业务执行 |
确认CPU是不是运行在最高频率,通过 如果还有问题,请联系硬件厂商。 |
0x210C |
GPU卡PCIe通讯链路不稳定或者服务器PCIe相关配置不对 |
业务异常或者不可靠 |
链路不稳定可以尝试重新插拔GPU卡或者更换PCIe板卡。 需要联系硬件厂商和服务器厂家分析PCIe AER产生的原因。如果是偶尔发生这种情况,可以尝试warm reset或重启服务器进行恢复。 |
0x210D |
前面执行业务异常导致GPU通讯断开或者硬件问题导致 |
GPU设备无法访问 |
硬件问题可以尝试更换PCIe slot或者GPU卡进行测试。 需要联系硬件厂商和服务器厂家分析PCIe通讯断开产生的原因。如果是偶尔发生这种情况,可以尝试warm reset或重启服务器进行恢复。 |
0x210E |
IP发生Fatal error或者uncorrectable error |
发生异常业务退出 |
可能是IP发生了Fatal Error或者Uncorrectable Error,可以先尝试warmreset或重启服务器进行恢复。如果还是会重现这个错误,则需要换卡进行测试。 需要联系硬件厂商分析造成syncflood的IP发生错误的原因。 |
0x210F |
硬件发生RAS异常 |
发生异常业务退出 |
可能是硬件问题,可以先尝试warm reset或者重启服务器进行恢复。如果还是会重现这个错误,可以尝试更换GPU卡进行测试。 需要联系硬件厂商分析RAS ERROR产生的原因。 |
0x2201 |
GPU内部资源释放失败 |
应用程序结束过慢或者卡住 |
GPU内部任务调度失败,报bug给硬件厂商,然后尝试warm reset或重启服务器进行恢复 |
0x2202 |
一般是软件传参非法或者条件不满足导致 |
业务发生异常 |
该问题需要结合实际环境配置和报错信息综合判断原因 |
0x2301 |
服务器MMIO空间不够 |
驱动加载失败 |
确认服务器BIOS是否有MMIO空间相关配置选项,如果有,建议将MMIO空间配置到最大 |
0x2302 |
GPU驱动与SMP通讯失败 |
驱动加载失败或者SMI获取信息失败 |
|
0x2303 |
GPU卡的VBIOS固件版本与当前GPU驱动不兼容 |
业务无法使用GPU设备 |
可以尝试升级与GPU驱动兼容的VBIOS版本 |
0x2304 |
GPU卡不支持SRIOV虚拟化 |
驱动加载失败 |
GPU卡不支持SRIOV功能,使用 |
0x2305 |
服务器BIOS是否开启SRIOV相关配置且MMIO空间不够或者GPU VBIOS版本与服务器不匹配 |
驱动加载失败 |
|
0x2306 |
服务器BIOS未开启SRIOV相关配置 |
驱动加载失败 |
|
0x2307 |
GPU硬件或者VBIOS固件问题 |
FLR复位失败 |
用mx-report工具收集VBIOS运行日志,并报告给硬件厂商 |
0x2308 |
可能之前业务执行异常导致GPU通讯断开或者硬件问题 |
GPU设备无法访问 |
|
0x2309 |
|
业务发生异常 |
使用非法VA或者越界访问,用户定位代码是否非法使用地址,其他原因报bug给硬件厂商处理 |
0x3101 |
Fwe错误 |
用户进程因GPU致命异常退出 |
参见EID(0x2102)的描述 |
0x3102 |
核函数指令的编码或操作数有误,GPU硬件检测到非法指令 |
|
|
0x3103 |
核函数访问内存的偏移量小于0,越界或数据未按要求对齐 |
EID打印的核函数所属软件模块定位分析:review核函数代码,可借助MXMACA SDK的trap工具和打印详情辅助分析,也可以到沐曦开发者社区寻求更多帮助 |
|
0x3104 |
核函数使用的VA地址有误 |
||
0x3105 |
寄存器访问越界,例如在只分配16个STREG时访问第17个STREG触发 |
||
0x3106 |
硬件极小概率的电磁干扰引起的,瞬间就会恢复 |
检修设备周围的电磁环境 |
|
0x3108 |
核函数执行时间超过了 |
EID打印的核函数所属软件模块定位分析:review核函数代码,可借助MXMACA SDK的trap工具和打印详情辅助分析,也可以到沐曦开发者社区寻求更多帮助 |
|
0x3111 |
核函数存在除零操作(divide 0) |
GPU因Numeric异常短暂停止服务,相关信息收集完毕后,用户程序继续执行。 说明:这部分EID仅在开启Numeric异常( |
EID打印的核函数所属软件模块定位分析:review核函数代码,可借助MXMACA SDK的trap工具和打印详情辅助分析,也可以到沐曦开发者社区寻求更多帮助 必要时使用精度和Loss异常分析与排查手段,包括但不限于:
|
0x3112 |
核函数存在数据上溢 (data overflow) |
||
0x3113 |
核函数存在数据下溢 (data underflow) |
||
0x3114 |
核函数存在无效操作(invalid operation,如NaN/Not a Number,未定义或不可表示的值) |
||
0x3115 |
核函数输入了非规约数 (input denormal) |
||
0x3116 |
核函数数据出现了精度损失(Inexact) |
此EID仅在开启Numeric异常( |
|
0x3211 |
|
用户进程可能Hang,可能需运维干预 |
根据EID打印的Hang详情日志文件定位分析 |
0x3212 |
|
||
0x3213 |
|
用户进程可能Hang,可能需要运维干预 |
必要时通过设置环境变量 |