4. 附录

4.1. 故障码

故障码

说明

处理建议

0x001

板卡BIOS故障

更换板卡

0x200

Hotspot温度获取失败

检查散热是否正常

0x800

VDDCORE电压获取失败

尝试下电再上电恢复

0x1000

VDDCORE电压过低严重告警

尝试下电再上电恢复

0x2000

VDDCORE电压过高严重告警

尝试下电再上电恢复

0x8000

VDDSOC电压获取失败

尝试下电再上电恢复

0x10000

VDDSOC电压过高严重告警

尝试下电再上电恢复

0x20000

VDDSOC电压过低严重告警

尝试下电再上电恢复

0x80000

RAS异常

读取RAS Flag,Error message,Error address,MC interrupt status,Error misc,尝试下电再上电恢复

4.2. BMC风扇调速目标说明

建议BMC风扇调速目标如下:

  1. 建议Hotspot的目标设定为80℃,即GPU工作时Hotspot的温度不超过80℃;

  2. 建议Board Temperature的目标设定为70℃,即GPU工作时Board Temperature不超过70℃。

4.3. 术语/缩略语

术语/缩略语

全称

描述

ASCII

American Standard Code for Information Interchange

美国信息交换标准代码,是基于拉丁字母的一套电脑编码系统

BMC

Baseboard Management Controller

基板管理控制器

HEX

Hexadecimal

十六进制

I2C

Inter-Integrated Circuit

I2C总线,两线式串行总线

LSB

Least Significant Bit

最低有效位,指的是一个二进制数字中的第0位(即最低位)

MCU

Microcontroller Unit

微控制单元

PCIe

Peripheral Component Interconnect Express

一种高速串行计算机扩展总线标准

PEC

Packet Error Code

包错误代码

PCBA

Printed Circuit Board Assembly

PCB空板经过SMT贴片加工或DIP插件的成品电路板

RAS

Reliability,Availability,Serviceability

SMBus

System Management Bus

系统管理总线