使用cr.metax-tech.com/public-ai-release/maca/vllm-metax:0.17.0-maca.ai3.5.3.307-torch2.8-py312-ubuntu22.04-amd64镜像运行Qwen3.5-9B模型,性能测试只有2token/s,相同配置在C500上能跑出60token/s现在搞不清问题出在哪