vLLM-metax 是否考虑支持 mxfp4量化？

Members 4 posts

2025年12月22日 09:43 2025年12月22日 09:43

在 v0.10.2 的官方 release notes 写了：新增 “MXFP4 for MoE models” 的量化支持
MetaX 官方 vLLM-metax 仓库目前展示的“已发布”版本主线是 v0.10.2（tag 日期 2025-10-05），并声明该版本对齐 vLLM v0.10.2。

使用最新可以下载的镜像cr.metax-tech.com/public-ai-release/maca/modelzoo.llm.vllm:1.0.0-maca.ai3.3.0.11-torch2.6-py312-ubuntu22.04-amd64
在新镜像里打印结果：
vLLM 版本：0.11.0
supported_quantization：['awq', 'gptq', 'compressed-tensors', 'compressed_tensors', 'moe_wna16', 'gguf']
平台声明支持的量化方法（不含 mxfp4）
实际启动 vLLM 加载 /data/models/gpt-oss-20b：直接退出
启动容器后（端口 18082，指定空闲 GPU），容器 Exited (1)，日志关键报错：
Value error, mxfp4 quantization is currently not supported in maca.

目前解决方案：继续用transformers 会把 MXFP4 dequantize 到 bf16 后可正常推理

后续是否支持mxfp4量化？

link