GLM-5.1 在 MetaX C500 上部署遇到的问题
【系统环境】
GPU:MetaX C500 × 16 卡(2 节点,各 8 卡,64GB/卡)
操作系统:Ubuntu 22.04, x86_64
MACA SDK:3.5.3.102
Docker 镜像:pub-registry1.metax-tech.com/ai-opentest/dev/vllm-metax:0.14.0-maca.ai3.5.3.102-torch2.8-py310-ubuntu22.04-amd64_gl
m_w4a8_full (49.3GB)
vLLM 版本:vLLM-MetaX 0.14.0(v1 引擎)
Ray 版本:2.53.0
部署方式:2 节点 PP=2 TP=8,Ray 集群已组建
模型存储:GPFS 共享存储,所有节点可访问
【问题 1:FP8 模型不兼容】
模型:GLM-5.1-FP8(705GB)
报错:fp8 quantization is currently not supported in maca
MACA 当前不支持 FP8 量化
【问题 2:Eco-Tech W4A8 模型不兼容】
模型:Eco-Tech/GLM-5.1-w4a8(~783GB)
该模型使用 msmodelslim 格式(为昇腾设计),权重文件名为 quant_model_weights 而非标准 model,配置文件为
quant_model_description.json 而非标准 quantization_config,vLLM-MetaX 无法识别加载
【问题 3:v1 引擎多节点 Pipeline Parallelism】
报错:local_rank 10 is out of bounds / device id 2 not exist
v1 引擎的 multiproc_executor 将所有 worker 当作本地进程,无法正确映射远程节点 GPU
此版本已移除 v0 引擎(VLLM_USE_V1=0 无效)
--distributed-executor-backend ray 也遇到相同的 device 映射错误
【请求】
1. 是否有 MACA 兼容的 GLM-5.1 W4A8 模型(compressed-tensors 格式)?
2. 该镜像正确的多节点部署方式是什么?