• Members 5 posts
    2026年4月14日 14:00

    镜像:vllm0.15.0_transformer5.2.0_py310
    我们在 C500 上跑 MiMo-V2-Flash-W8A8(modelscope上沐曦上传的权重),在走 unified_attention 算子时触发 We only support head_dim 64 for S extra。
    以下是启动脚本
    vllm serve /mnt/model \
    --host 0.0.0.0 \
    --port 8080 \
    --served-model-name mimo_v2_flash \
    --tensor-parallel-size 8 \
    --max-model-len 8192 \
    --trust-remote-code \
    --enforce-eager \
    --gpu-memory-utilization 0.90

  • Members 384 posts
    2026年4月14日 14:04

    尊敬的开发者您好,请使用sglang镜像进行推理

  • arrow_forward

    Thread has been moved from 产品&运维.

  • Members 3 posts
    2026年4月15日 11:52

    我也遇到了

    ai给我分析的原因

    根本原因:MiMo-V2-Flash 的 head_dim=192,在 MXC500 上 vLLM 的所有 attention backend 都有兼容性问题:
    flash_attn kernel 硬编码只支持 head_dim=64
    triton kernel shared memory 超硬件限制
    可能的出路:
    找 Metax 要一个适配 head_dim=192 的 flash_attn kernel — 这是最靠谱的,需要他们重新编译
    等 vLLM Metax 后端更新 — 适配更大 head_dim
    换用支持 MiMo 的 SGLang Metax 版本 — 如果有的话

    核心矛盾

    MiMo-V2-Flash: head_dim=192 + attention_sink
            ↕
    MXC500: 64KB shared memory per SM + flash_attn 只支持 head_dim=64
    

    vLLM Metax 后端的所有 attention backend 均无法同时满足:
    1. head_dim=192 的模型需求
    2. MXC500 硬件的 shared memory 限制
    3. attention_sink 特性支持

    期望的解决方案

    1. 更新 Metax flash_attn kernel:支持 head_dim=192(或至少支持 128/192/256 等常见维度)
    2. 优化 Triton kernel:减少 shared memory 使用量,适配 64KB 限制
    3. 提供 SGLang Metax 版本:SGLang 可能有不同的 attention 实现路径
    4. 提供 MiMo 专用的 attention kernel:类似已有的 DeepSeek MLA 专用 kernel
  • arrow_forward

    Thread has been moved from 解决中.