3. 已知问题和使用限制

模块

问题和限制说明

vllm-metax

不支持模型FP16测试

N300不支持GLM-5-W8A8、DeepSeek-R1-W8A8、Kimi-K2.5等大尺寸模型测试

lm_eval 如果遇到大模型超时错误,增加timeout=10800

部分模型精度有波动

GLM-5-W8A8模型测试时,需要更新transformers版本5.3.0

SGLang

部分模型部分切分偶现hang

个别机型测试会掉卡

部分模型偶现启动失败,可尝试重新启动

需要使用特定Pytorch,请参考沐曦开发者社区配套推荐或联系技术支持工程师获取详细信息

个别模型在部分机型测试会报错

个别模型个别切分精度存在问题

个别模型个别配置会有OOM现象

TensorFlow2

keras部分模型训练性能、精度偏低

keras部分模型训练性能、精度不稳定

facenet模型在Arm环境中训练存在依赖安装异常的情况

keras升级到2.13后优化还未完成,训练性能有下降

facenet存在Loss为NaN的情况

modelzoo.cnn.training

部分新增模型偶现loss:nan现象

paddle

部分模型训练性能偏低

paddle-metax

部分模型训练性能偏低

mmcv

test_chamfer_distance_npu_dynamic_shape_shape0-dtype0-cuda 偶现报错