3. 已知问题和使用限制
模块 |
问题和限制说明 |
|---|---|
Paddle |
个别模型偶现训练报错 |
个别模型存在loss为NaN及loss不收敛问题 |
|
Paddle-metax |
曦云C550 OAM平台的个别测试,对比曦云C500平台,性能超出正常范围 |
vLLM-metax |
部分模型的个别测试,性能有稍微下降 |
曦云C550 OAM平台的个别测试,性能低于曦云C500平台 |
|
特定平台上个别测试性能有浮动 |
|
个别模型精度有浮动 |
|
InternVL3-78B模型 |
|
多卡模型 |
|
GLM-4.6、Qwen3-235B-A22B、ERNIE-4.5-300B-A47B-PT模型需要将 |
|
modelzoo.llm.ppl |
baichuan2-13B tps在八卡环境上需要加临时环境变量,四卡环境正常 |
ColossalAI |
如果出现OOM:
|
BitsAndBytes |
部分矩阵性能较低 |
个别矩阵性能不稳定 |
|
modelzoo.cnn.training |
GPU占用率低时受到其他硬件因素影响较大,在不同机器测试时易出现性能波动 |
个别对CPU资源敏感的模型,容易出现性能波动 |
|
Pytorch训练多VF场景下偶发hang |
|
Pytorch训练学习率策略,推荐使用 |
|
部分模型在不同 torch 版本性能存在差异 |
|
个别模型多卡对单卡性能提升的线性度不足 |
|
CenterNet模型FP32精度训练时,设置特定环境变量时可能导致精度问题 |
|
centernet_R18和Retinanet模型训练时,存在amp精度loss为NaN的情况 |
|
ssd模型多卡训练偶发loss为NaN |
|
Deeplabv3模型FP32精度单卡训练时,需要设置新的环境变量以避免loss为NaN |
|
TF32精度训练时,设置 |
|
部分模型性能有轻微下降 |
|
TensorFlow2 |
keras部分模型训练性能、精度偏低 |
keras部分模型训练性能、精度不稳定 |
|
facenet模型训练性能偏低 |
|
facenet模型在Arm环境中训练存在依赖安装异常的情况 |
|
keras升级到2.13后优化还未完成,训练性能有下降 |
|
modelzoo.llm.transformers |
部分模型个别测试,性能有下降 |
OAM550平台个别测试,对比C500平台,性能稍微下降 |
|
XTuner |
双机mixtral-8*7b训练偶现显存不足异常退出,配置可以改为 |
如需解决 XTuner 源码安装相关问题,请联系技术支持工程师获取详细协助 |
|
Megatron-LM |
多机模型运行遇到
说明:此问题属于PyTorch原生问题https://pytorch.org/docs/stable/distributed.html#common-environment-variables |
特定平台 megatron所有模型需增删改如下环境变量:
|
|
特定平台不支持SDMA,qwen3_32b_16gpu模型需去掉 pretrain 脚本中的 |
|
特定平台llama3_70b_32gpu需用2机16gpu运行模型,不支持4机 |
|
VeRL |
对于5.13以下的内核版本,无root权限的普通用户, TTM对xtt有不超过系统内存1/2的限制。 可通过 受此限制,无root权限的普通用户使用超过1/2的系统内存时,使用smi工具查询gpu usage可能会显示N/A |
LMDeploy |
不支持LMDeploy的兼容适配 |
SGLang |
部分模型部分切分方式较上个版本性能有下降,可尝试添加 |
部分模型部分切分方式使用期间或出现server hang,可尝试重新启动 |
|
部分模型部分切分方式C588性能不及预期 |
|
部分模型或由于通信限制C550性能会低于C500 |
|
部分模型偶现启动失败或日志异常,可尝试重新启动或调低 |
|
Arm环境多机模型启动失败 |
|
如果在Arm或海光CPU上遇到性能下降较多,可以尝试使用环境变量 |
|
Deepspeed |
550上Qwen2.5-VL-7B SFT训练性能偏低,可以尝试使用环境变量 |
QwQ-32B/Qwen2-72B/Qwen2.5-VL-32B lora训练需要先做操作 |
|
Internlm |
环境内MXMACA版本为2.29.0.x时需要设置 |
modelzoo.cnn.inference |
部分模型性能偏低 |
mcoplib |
topk算子异常,影响范围极小 |
mmcv |
ARM环境image转换:ycbcr2rgb、ycbcr2bgr、tensor2imgs与预期结果不一致 |
ARM环境convex_giou atu报错 |
|
triton-inference-server |
运行vllm.py需安装oplib,并配置 |