我也遇到了
ai给我分析的原因
根本原因:MiMo-V2-Flash 的 head_dim=192,在 MXC500 上 vLLM 的所有 attention backend 都有兼容性问题:
flash_attn kernel 硬编码只支持 head_dim=64
triton kernel shared memory 超硬件限制
可能的出路:
找 Metax 要一个适配 head_dim=192 的 flash_attn kernel — 这是最靠谱的,需要他们重新编译
等 vLLM Metax 后端更新 — 适配更大 head_dim
换用支持 MiMo 的 SGLang Metax 版本 — 如果有的话
核心矛盾
MiMo-V2-Flash: head_dim=192 + attention_sink
↕
MXC500: 64KB shared memory per SM + flash_attn 只支持 head_dim=64
vLLM Metax 后端的所有 attention backend 均无法同时满足:
1. head_dim=192 的模型需求
2. MXC500 硬件的 shared memory 限制
3. attention_sink 特性支持
期望的解决方案
- 更新 Metax flash_attn kernel:支持
head_dim=192(或至少支持 128/192/256 等常见维度) - 优化 Triton kernel:减少 shared memory 使用量,适配 64KB 限制
- 提供 SGLang Metax 版本:SGLang 可能有不同的 attention 实现路径
- 提供 MiMo 专用的 attention kernel:类似已有的 DeepSeek MLA 专用 kernel