3. 已知问题和使用限制
模块 |
问题和限制说明 |
|---|---|
vllm-metax |
不支持模型FP16测试 |
N300不支持GLM-5-W8A8、DeepSeek-R1-W8A8、Kimi-K2.5等大尺寸模型测试 |
|
lm_eval 如果遇到大模型超时错误,增加timeout=10800 |
|
部分模型精度有波动 |
|
GLM-5-W8A8模型测试时,需要更新transformers版本5.3.0 |
|
SGLang |
部分模型部分切分偶现hang |
个别机型测试会掉卡 |
|
部分模型偶现启动失败,可尝试重新启动 |
|
需要使用特定Pytorch,请参考沐曦开发者社区配套推荐或联系技术支持工程师获取详细信息 |
|
个别模型在部分机型测试会报错 |
|
个别模型个别切分精度存在问题 |
|
个别模型个别配置会有OOM现象 |
|
TensorFlow2 |
keras部分模型训练性能、精度偏低 keras部分模型训练性能、精度不稳定 facenet模型在Arm环境中训练存在依赖安装异常的情况 keras升级到2.13后优化还未完成,训练性能有下降 facenet存在Loss为NaN的情况 |
modelzoo.cnn.training |
部分新增模型偶现loss:nan现象 |
paddle |
部分模型训练性能偏低 |
paddle-metax |
部分模型训练性能偏低 |
mmcv |
test_chamfer_distance_npu_dynamic_shape_shape0-dtype0-cuda 偶现报错 |