3. 已知问题和使用限制

模块	问题和限制说明
Paddle	个别模型偶现训练报错
Paddle	个别模型存在loss为NaN及loss不收敛问题
Paddle-metax	曦云C550 OAM平台的个别测试，对比曦云C500平台，性能超出正常范围
vLLM-metax	部分模型的个别测试，性能有稍微下降
	特定平台上个别测试性能有浮动
	DeepSeek-V3-BF16、DeepSeek-V3-BF16_W8A8模型测试异常
	对于GLM4.5V_W8A8模型，精度测试过程中，可能有异常
	InternVL3-78B模型 `--distributed-executor-backend` 设置 `mp`
	多卡模型 `--gpu-memory-utilization` 设置 `0.9`，多机模型 `--gpu-memory-utilization` 设置 `0.85`，默认是 `0.95`
	GLM-4.6、Qwen3-235B-A22B、ERNIE-4.5-300B-A47B-PT模型需要将 `-tp 8 -pp 2` 设置成 `-tp 16`
	ERNIE-4.5-VL-28B-A3B-Thinking模型测试时，需要下载decord库，内网环境测试还需要下载字体库
modelzoo.llm.ppl	baichuan2-13B tps在八卡环境上需要加临时环境变量，四卡环境正常
ColossalAI	如果出现OOM：在物理机上执行 `sudo modprobe -r metax && sudo modprobe metax xcore_page_size=9` 在运行命令前执行 `export MALLOC_THRESHOLD=99`
BitsAndBytes	部分矩阵性能较低
BitsAndBytes	个别矩阵性能不稳定
modelzoo.cnn.training	GPU占用率低时受到其他硬件因素影响较大，在不同机器测试时易出现性能波动
	个别对CPU资源敏感的模型，容易出现性能波动
	Pytorch训练多VF场景下偶发hang
	Pytorch训练学习率策略，推荐使用 `--auto-scale-lr` 自适应学习率
	部分模型在不同 torch 版本性能存在差异
	个别模型多卡对单卡性能提升的线性度不足
	CenterNet模型FP32精度训练时，设置特定环境变量时可能导致精度问题
	centernet_R18和Retinanet模型训练时，存在amp精度loss为NaN的情况
	ssd模型多卡训练偶发loss为NaN
	Deeplabv3模型FP32精度单卡训练时，需要设置新的环境变量以避免loss为NaN
	TF32精度训练时，设置 `MCDNN_NOT_CVT_TF32_ROUND=ON` 部分模型性能可能有提升
	部分模型性能有轻微下降
TensorFlow2	keras部分模型训练性能、精度偏低
	keras部分模型训练性能、精度不稳定
	facenet模型训练性能偏低
	facenet模型在Arm环境中训练存在依赖安装异常的情况
	keras升级到2.13后优化还未完成，训练性能有下降
modelzoo.llm.transformers	部分模型个别测试，性能有下降
modelzoo.llm.transformers	OAM550平台个别测试，对比C500平台，性能稍微下降
XTuner	双机mixtral-8*7b训练偶现显存不足异常退出，配置可以改为 `zero3_offload`，但性能会有所下降
XTuner	如需解决 XTuner 源码安装相关问题，请联系技术支持工程师获取详细协助
Megatron-LM	多机模型运行遇到 `Gloo connectFullMesh failed` 时，需要增加以下2个环境变量： `export MCCL_SOCKET_IFNAME` = 多机模型训练使用IP对应的ifname `export GLOO_SOCKET_IFNAME` = 多机模型训练使用IP对应的ifname 说明：此问题属于PyTorch原生问题https://pytorch.org/docs/stable/distributed.html#common-environment-variables
	特定平台 megatron所有模型需增删改如下环境变量: `export GPUS_PER_NODE = 16` `export MACA_VISIBLE_DEVICES = 0,1,2,3,6,5,4,7,10,9,8,11,14,15,12,13`
	特定平台不支持SDMA，qwen3_32b_16gpu模型需去掉 pretrain 脚本中的 `--use-sdma-grad-comm` 参数
	特定平台llama3_70b_32gpu需用2机16gpu运行模型，不支持4机
VeRL	对于5.13以下的内核版本，无root权限的普通用户， TTM对xtt有不超过系统内存1/2的限制。可通过 `/sys/devices/virtual/drm/ttm/memory_accounting/kernel/available_memory` 接口调整限制值。受此限制，无root权限的普通用户使用超过1/2的系统内存时，使用smi工具查询gpu usage可能会显示N/A
VeRL	VeRL 所有模型不支持在C588平台运行
LMDeploy	不支持LMDeploy的兼容适配
SGLang	部分模型部分切分方式较上个版本性能有下降，可尝试添加 `--disable-shared-experts-fusion` 参数进行一定提升
	部分模型部分切分方式使用期间或出现server hang，可尝试重新启动
	部分模型部分切分方式C588性能不及预期
	部分模型或由于通信限制C550性能会低于C500
	部分模型偶现启动失败或日志异常，可尝试重新启动或调低 `mem-frac` 使用
	Kimi-K2 W8A8模型在C588平台可尝试使用PP4TP8切分
	Arm环境多机模型启动失败
	如果在Arm或海光CPU上遇到性能下降较多，可以尝试使用环境变量 `export MACA_MEMCPY_MODE=0` 进行一定提升
Deepspeed	550上Qwen2.5-VL-7B SFT训练性能偏低，可以尝试使用环境变量 `export PYTORCH_CONFIG_STREAM_POOLS=16,16,16` 提升性能
Deepspeed	QwQ-32B/Qwen2-72B/Qwen2.5-VL-32B lora训练需要先做操作 `insmod meatx.ko pri_mem_sz=5`
Internlm	环境内MXMACA版本为2.29.0.x时需要设置 `export MACA_MPS_MODE=1`
modelzoo.cnn.inference	部分模型性能偏低
mcoplib	topk算子异常，影响范围极小
mmcv	ARM环境image转换：ycbcr2rgb、ycbcr2bgr、tensor2imgs与预期结果不一致
mmcv	ARM环境convex_giou atu报错
triton-inference-server	运行vllm.py需安装oplib，并配置 `LANG=en_US.UTF-8`， `LC_ALL=en_US.UTF-8`
ms-swift	多机模型运行时，需要根据实际环境修改 `GLOO_SOCKET_IFNAME` 和 `MCCL_IB_HCA` 这2个环境变量