镜像:vllm0.15.0_transformer5.2.0_py310
我们在 C500 上跑 MiMo-V2-Flash-W8A8(modelscope上沐曦上传的权重),在走 unified_attention 算子时触发 We only support head_dim 64 for S extra。
以下是启动脚本
vllm serve /mnt/model \
--host 0.0.0.0 \
--port 8080 \
--served-model-name mimo_v2_flash \
--tensor-parallel-size 8 \
--max-model-len 8192 \
--trust-remote-code \
--enforce-eager \
--gpu-memory-utilization 0.90