本人使用鲲鹏920新型号CPU+一张曦云C500 NPU,运行siglip模型。对于同一张图片,在裸机上使用纯CPU上推理时延约1037ms,但是使用NPU推理时延约2837ms,在容器(maca-torch2.4-py310-mc3.3.0.4-kylinv10-arm64)内使用NPU推理时延约2616ms;但使用英伟达4090推理时延约310ms。使用NPU推理的性能弱于使用CPU推理,这性能明显不正常,请问该如何排查和解决?其中驱动版本是3.5.3.11,sdk版本是3.5.3.17,cu-bridge用的是master分支代码。