3. 已知问题和使用限制

模块

问题和限制说明

Paddle-maca

个别模型偶现训练报错

个别模型存在loss为NaN及loss不收敛问题

vLLM

部分模型的个别测试,性能有稍微下降

曦云C550 OAM平台的个别测试,性能低于曦云C500平台

多机部分模型测试过程中,如果遇到异常,可增加环境变量 MACA_GRAPH_LAUNCH_MODE=0,默认不配置

部分模型精度数据有波动

DeepSeek-V2-236B、DeepSeek-V3-BF16_W8A8、DeepSeek-V3-BF16、模型获取性能数据时, 需要增加环境变量 MACA_PRIORITY_QUEUE_POLICY=0x4A1

modelzoo.llm.ppl

baichuan2-13B tps在八卡环境上需要加临时环境变量,四卡环境正常

ColossalAI

如果出现OOM:

  1. 在物理机上执行 sudo modprobe -r metax && sudo modprobe metax xcore_page_size=9

  2. 在运行命令前执行 export MALLOC_THRESHOLD=99

BitsAndBytes

部分矩阵性能较低

个别矩阵性能不稳定

modelzoo.cnn.training

GPU占用率低时受到其他硬件因素影响较大,在不同机器测试时易出现性能波动

个别对CPU资源敏感的模型,容易出现性能波动

Pytorch训练多VF场景下偶发hang

Pytorch训练学习率策略,推荐使用 --auto-scale-lr 自适应学习率

部分模型在不同 torch 版本性能存在差异

个别模型多卡对单卡性能提升的线性度不足

CenterNet模型FP32精度训练时,设置特定环境变量时可能导致精度问题

centernet_R18和Retinanet模型训练时,存在amp精度loss为NaN的情况

ssd模型多卡训练偶发loss为NaN

Deeplabv3模型FP32精度单卡训练时,需要设置新的环境变量以避免loss为NaN

TF32精度训练时,设置 MCDNN_NOT_CVT_TF32_ROUND=ON 部分模型性能可能有提升

部分模型性能有轻微下降

TensorFlow2

keras部分模型训练性能、精度偏低

keras部分模型训练性能、精度不稳定

facenet模型训练性能偏低

facenet模型在Arm环境中训练存在依赖安装异常的情况

keras升级到2.13后优化还未完成,训练性能有下降

modelzoo.llm.transformers

部分模型个别测试,性能有下降

OAM550平台个别测试,对比C500平台,性能稍微下降

XTuner

双机mixtral-8*7b训练偶现显存不足异常退出,配置可以改为 zero3_offload,但性能会有所下降

如需解决 XTuner 源码安装相关问题,请联系技术支持工程师获取详细协助

Megatron-LM

多机模型运行遇到 Gloo connectFullMesh failed 时,需要增加以下2个环境变量:

export MCCL_SOCKET_IFNAME = 多机模型训练使用IP对应的ifname

export GLOO_SOCKET_IFNAME = 多机模型训练使用IP对应的ifname

说明:此问题属于PyTorch原生问题https://pytorch.org/docs/stable/distributed.html#common-environment-variables

C588 megatron所有模型需增删改如下环境变量:

export GPUS_PER_NODE = 16

export MACA_VISIBLE_DEVICES = 0,1,2,3,6,5,4,7,10,9,8,11,14,15,12,13

C588 不支持SDMA, qwen3_32b_16gpu模型需去掉 pretrain 脚本中的 --use-sdma-grad-comm 参数

C588 llama3_70b_32gpu需用2机16gpu运行模型,不支持4机

VeRL

对于5.13以下的内核版本,无root权限的普通用户, TTM对xtt有不超过系统内存1/2的限制。

可通过 /sys/devices/virtual/drm/ttm/memory_accounting/kernel/available_memory 接口调整限制值。

受此限制,无root权限的普通用户使用超过1/2的系统内存时,使用smi工具查询gpu usage可能会显示N/A

LMDeploy

不支持LMDeploy的兼容适配

SGLang

部分DeepSeek模型部分切分方式较上个版本性能有下降

部分模型C550性能低于C500

Qwen3-Coder-480B-A35B-Instruct-W8A8模型需要添加环境变量 export ENABLE_MCTLASS_FUSED_MOE=0 使用

部分模型偶现启动失败或日志异常,可尝试调低 mem-frac 使用

Arm环境多机模型启动失败

如果在Arm或海光CPU上遇到性能下降较多,可以尝试使用环境变量 export MACA_MEMCPY_MODE=0 进行一定提升

Deepspeed

550上Qwen2.5-VL-7B SFT训练性能偏低,可以尝试使用环境变量 export PYTORCH_CONFIG_STREAM_POOLS=16,16,16 提升性能

Internlm

环境内MXMACA版本为2.29.0.x时需要设置 export MACA_MPS_MODE=1