3. 已知问题和使用限制

模块

问题和限制说明

vllm-metax

多卡模型需设置环境变量 MACA_SIGNAL_WAIT_MODE=2

DeepSeek-R1-Distill-Llama-70B在非OAM平台上大并发数性能测试会报错

SGLang

部分模型部分切分偶现hang

个别机型测试会掉卡

部分模型偶现启动失败,可尝试重新启动

需要使用特定SDK和Pytorch,请参考沐曦开发者社区配套推荐或联系技术支持工程师获取详细信息

TensorFlow2

keras部分模型训练性能、精度偏低

keras部分模型训练性能、精度不稳定

facenet模型在Arm环境中训练存在依赖安装异常的情况

keras升级到2.13后优化还未完成,训练性能有下降

facenet存在Loss为NaN的情况

modelzoo.cnn.training

部分新增模型偶现loss:nan现象

paddle

部分模型训练性能偏低

paddle-metax

部分模型训练性能偏低

modelzoo.llm.diffusers

部分模型推理性能偏低

modelzoo.cnn.inference

部分模型推理性能、精度偏低

mmcv

test_chamfer_distance_npu_dynamic_shape_shape0-dtype0-cuda 偶现报错