在 v0.10.2 的官方 release notes 写了:新增 “MXFP4 for MoE models” 的量化支持
MetaX 官方 vLLM-metax 仓库目前展示的“已发布”版本主线是 v0.10.2(tag 日期 2025-10-05),并声明该版本对齐 vLLM v0.10.2。
使用最新可以下载的镜像cr.metax-tech.com/public-ai-release/maca/modelzoo.llm.vllm:1.0.0-maca.ai3.3.0.11-torch2.6-py312-ubuntu22.04-amd64
在新镜像里打印结果:
vLLM 版本:0.11.0
supported_quantization:['awq', 'gptq', 'compressed-tensors', 'compressed_tensors', 'moe_wna16', 'gguf']
平台声明支持的量化方法(不含 mxfp4)
实际启动 vLLM 加载 /data/models/gpt-oss-20b:直接退出
启动容器后(端口 18082,指定空闲 GPU),容器 Exited (1),日志关键报错:
Value error, mxfp4 quantization is currently not supported in maca.
目前解决方案:继续用transformers 会把 MXFP4 dequantize 到 bf16 后可正常推理
后续是否支持mxfp4量化?