4. 已知问题和使用限制
模块 |
问题和限制说明 |
|---|---|
MXMACA软件栈 |
多程序长时间并行执行,有概率会出现程序执行无响应问题 |
Flash Attention C++接口有优化,使用Flash Attention C++接口的应用需要继承新的接口,对2.23.0.x及以前版本不兼容 |
|
某些主板不支持atomic访问的部分功能 |
|
mx C/C++程序不支持在Ubuntu18.04系统编译运行 |
|
C550 OAM上部分算子需要设置 |
|
特定case在ARM会遇到长时间执行无法结束的问题 |
|
flash_attn特殊场景下有hang的现象 |
|
UMD Perf Metrics kernel launch某些case会有一定性能下降 |
|
mcFftXt接口暂未支持,请使用非Xt的接口替代 |
|
Ubuntu24.04使用GCC 13版本对某些测试有一定兼容性问题 |
|
|
|
在一些特殊场景下可以设置 |
|
Geqrf某些case会有一定性能下降 |
|
|
|
ACL 某些特定算子性能有小幅下降 |
|
Sample simpleIPC在特定平台执行有问题 |
|
模型推理和训练 |
在开启mxmaca graph的时候抓取torch profile会造成系统异常,需要配置如下环境变量规避该问题: |
Pytorch训练centernet_R18和Retinanet模型时,存在amp精度loss为NaN的情况 |
|
Pytorch训练多VF场景下偶发hang |
|
Pytorch训练学习率策略,推荐使用 |
|
GPU占用率低时受到其他硬件因素影响较大,在不同机器测试时易出现性能波动 |
|
Pytorch个别模型对CPU资源敏感易出现性能波动现象 |
|
Pytorch ssd模型多卡训练偶发loss为NaN |
|
Pytorch Deeplabv3模型FP32精度单卡训练时,需要设置新的环境变量以避免loss为NaN |
|
对于LLM.PPL,不建议开启ACS,因为开启ACS可能会导致性能下降。如果必须开启ACS,需要关闭通信库PCIe复用功能,环境变量是 |
|
通讯库性能优化使用了更多显存,特殊情况下,可能导致显存不足 |
|
VPU |
SDK解码路数过多会有异常 |
SDK解码AVS2可能会有异常 |
|
编码性能可能不达标 |
|
MCJPEG解码暂不支持444、422、gray、411、440格式jpeg文件 |
|
FFmpeg黑白视频解码可能有花屏 |
|
开启虚拟化多于1VF情形下,编码相关功能不可用 |
|
mx-smi |
个别机型执行warm reset会引发异常,count-ecc在某些场景抓取不到异常 |
MetaXLink |
MetaXLink卡间互联后不支持透传单卡到虚拟机中使用,否则,可能会发生不可预期的行为 |
虚拟化 |
虚拟机透传GPU或VF,只支持虚拟机启动前设置透传GPU或VF |
/etc/mvgvm_config 文件默认权限为0,如需要修改此文件,需要将文件权限改为0644 |
|
开启VF后做warm reset操作,部分服务器会遇到dmesg报错提示,实际操作成功 |
|
mx-report |
Debian10、Alinux3、KeyrachOS5.8系统使用mx-report时会提示 |
mcTracer |
采集多进程任务;采集完毕后会关闭当前终端的回显功能(看不到输入,回车不换行), |
mxvs |
sGPU开启后,mxvs ops在burst策略下不符合算力分配原则,fixed策略下设置1-2%的算力不符合算力分配原则 |
VF |
划分VF时,有极小概率偶发出现不影响功能的dmesg error报错( |