4. 已知问题和使用限制

模块

问题和限制说明

MXMACA软件栈

多程序长时间并行执行,有概率会出现程序执行无响应问题

Flash Attention C++接口有优化,使用Flash Attention C++接口的应用需要继承新的接口,对2.23.0.x及以前版本不兼容

某些主板不支持atomic访问的部分功能

mx C/C++程序不支持在Ubuntu18.04系统编译运行

C550 OAM上部分算子需要设置 MCCL_PCIE_BUFFER_MODE=1 规避性能回退问题

特定case在ARM会遇到长时间执行无法结束的问题

flash_attn特殊场景下有hang的现象

UMD Perf Metrics kernel launch某些case会有一定性能下降

mcFftXt接口暂未支持,请使用非Xt的接口替代

Ubuntu24.04使用GCC 13版本对某些测试有一定兼容性问题

TORCH_ALLOW_TF32_CUBLAS_OVERRIDE 变量在host和容器里默认值不同,个别算子在不同环境测试会出现精度/性能差异

模型推理和训练

在开启mxmaca graph的时候抓取torch profile会造成系统异常,需要配置如下环境变量规避该问题: MCPTI_ENABLED=ONMACA_GRAPH_LAUNCH_MODE=1

Pytorch训练centernet_R18和Retinanet模型时,存在amp精度loss为NaN的情况

Pytorch训练多VF场景下偶发hang

Pytorch训练学习率策略,推荐使用 --auto-scale-lr 自适应学习率

GPU占用率低时受到其他硬件因素影响较大,在不同机器测试时易出现性能波动

Pytorch个别模型对CPU资源敏感易出现性能波动现象

Pytorch ssd模型多卡训练偶发loss为NaN

Pytorch Deeplabv3模型FP32精度单卡训练时,需要设置新的环境变量以避免loss为NaN

对于LLM.PPL,不建议开启ACS,因为开启ACS可能会导致性能下降。如果必须开启ACS,需要关闭通信库PCIe复用功能,环境变量是 export MCCL_PCIE_BUFFER_MODE=0

通讯库性能优化使用了更多显存,特殊情况下,可能导致显存不足

VPU

SDK解码路数过多会有异常

SDK解码AVS2可能会有异常

编码性能可能不达标

MCJPEG解码暂不支持444、422、gray、411、440格式jpeg文件

FFmpeg黑白视频解码可能有花屏

多FFmpeg进程解码使用3Dcopy方式可能会出现进程卡死或者掉卡

开启虚拟化多于1VF情形下,编码相关功能不可用

mx-smi

个别机型执行warm reset会引发异常

MetaXLink

MetaXLink卡间互联后不支持透传单卡到虚拟机中使用,否则,可能会发生不可预期的行为

虚拟化

虚拟机透传GPU或VF,只支持虚拟机启动前设置透传GPU或VF

/etc/mvgvm_config 文件默认权限为0,如需要修改此文件,需要将文件权限改为0644

不支持 mx-smi --vfflr 操作

mx-report

Debian10、Alinux3、KeyrachOS5.8系统使用mx-report时会提示 get kmd log failed,实际不影响log收集

mxvs

sGPU开启后,mxvs ops在burst策略下不符合算力分配原则,fixed策略下设置1-2%的算力不符合算力分配原则

VF

划分VF时,有极小概率偶发出现不影响功能的dmesg error报错( PROTOCOL_STATE_RESPONSE_TIMEOUT 2 ),该报错不影响划分VF,功能可以正常使用