Threads | jiaqian | 沐曦开发者论坛

See post chevron_right

jiaqian
Members

GLM-5 PP=3 推理卡死问题解决中 2026年4月16日 19:40
一、软硬件信息

服务器厂家: 算丰

沐曦GPU型号: MetaX C500 (64GB), 4 节点 x 8 卡, 共 32 卡

操作系统内核版本: 5.15.0-119-generic (Ubuntu 22.04.5 LTS)

是否开启CPU虚拟化: 是 (Intel VT-x, CPU: Intel Xeon Platinum 8460Y+)

mx-smi回显:

mx-smi version: 2.2.9 MX-SMI 2.2.9 Kernel Mode Driver Version: 3.4.4 MACA Version: 3.3.0.15 BIOS Version: 1.30.0.0 Board Name | GPU Persist-M | Bus-id | GPU-Util sGPU-M Pwr:Usage/Cap | Temp Perf | Memory-Usage | GPU-State 0 MetaX C500 | 0 Off | 0000:08:00.0 | 0% Disabled 69W / 350W | 36C P9 | 56938/65536 MiB| Available 1 MetaX C500 | 1 Off | 0000:09:00.0 | 0% Disabled 69W / 350W | 37C P9 | 57578/65536 MiB| Available ... (8 卡, 每卡 65536 MiB, 状态 Available)

docker info回显:

Server Version: 20.10.19 Storage Driver: overlay2 Cgroup Driver: systemd Kernel Version: 5.15.0-119-generic Operating System: Ubuntu 22.04.5 LTS CPUs: 160 Total Memory: 1.968TiB

镜像版本: pub-registry1.metax-tech.com/ai-opentest/dev/vllm-metax:0.14.0-maca.ai3.5.3.102-torch2.8-py310-ubuntu22.04-amd64_glm_w4a8_full

启动容器命令:

Head 节点 (节点0, 10.66.3.10):

sudo docker run -d --name ray-head --privileged --network host --shm-size 64g \ -v /data/models/GLM-5-W8A8:/model \ -v /dev/mxcd:/dev/mxcd \ -e RAY_EXPERIMENTAL_NOSET_CUDA_VISIBLE_DEVICES=1 \ pub-registry1.metax-tech.com/ai-opentest/dev/vllm-metax:0.14.0-maca.ai3.5.3.102-torch2.8-py310-ubuntu22.04-amd64_glm_w4a8_full \ bash -c '/opt/conda/bin/ray start --head --port=6379 && sleep infinity'

Worker 节点 (节点1/2/3):

sudo docker run -d --name ray-worker --privileged --network host --shm-size 64g \ -v /data/models/GLM-5-W8A8:/model \ -v /dev/mxcd:/dev/mxcd \ -e RAY_EXPERIMENTAL_NOSET_CUDA_VISIBLE_DEVICES=1 \ 9. 容器内执行命令: ```bash python -m vllm.entrypoints.openai.api_server \ --model /model \ --tensor-parallel-size 8 \ --pipeline-parallel-size 3 \ --distributed-executor-backend ray \ --enforce-eager \ --max-model-len 65536 \ --gpu-memory-utilization 0.90

二、问题现象

问题1: PP=3 推理卡死

使用上述命令部署 GLM-5-W8A8 (PP=3 TP=8, 3 节点 24 卡), 部署启动完全正常 (模型加载、KV cache 分配、API server 启动全部成功)。但发送推理请求后:

前约 10 秒有少量输出 (prompt throughput ~1.1 tok/s, generation throughput ~0.1 tok/s)

之后 throughput 降为 0, 请求卡死不返回

300 秒后超时报错 RayChannelTimeoutError

已用 --enforce-eager 禁用 CUDA graph, 仍然卡死, 排除 CUDA graph 问题。

关键对比: PP=2 全部正常

我们测试了所有可用节点对的 PP=2 推理 (PP=2 TP=8, 2 节点 16 卡), 全部正常:

| 节点对 | IP | PP=2 推理结果 |
|--------|-----|--------------|
| 节点0 + 节点1 | 10.66.3.10 + 10.66.3.11 | 正常 |
| 节点0 + 节点3 | 10.66.3.10 + 10.66.3.13 | 正常 |
| 节点1 + 节点3 | 10.66.3.11 + 10.66.3.13 | 正常 |
| 节点2 + 节点3 | 10.66.3.12 + 10.66.3.13 | 正常 |
| PP=3 任意 3 节点 | | 卡死 |

所有节点两两 PP=2 跨节点通信正常, 只有 PP=3 (3 节点) 时卡死。怀疑 MCCL 在 3 节点通信组场景下存在问题。

请求

排查 PP=3 推理卡死问题, 怀疑 MCCL 3 节点通信组场景
See post chevron_right

jiaqian
Members

多节点部署问题解决中 2026年4月16日 19:07
GLM-5 PP=3 推理卡死问题

环境

4 节点, 每节点 8 张 C500 (64GB), 共 32 卡

MACA 3.5.3, vLLM-MetaX 0.14.0 镜像 (vllm-metax:0.14.0-maca.ai3.5.3.102-torch2.8-py310-ubuntu22.04-amd64_glm_w4a8_full)

模型: GLM-5-W8A8, PP=3 TP=8, 3 节点 24 卡

Ray 分布式, MCCL 跨节点通信

问题

PP=3 TP=8 部署启动正常 (模型加载、KV cache、API server 全部成功), 但发送推理请求后:

前 10 秒有少量输出 (prompt throughput 1.1 tok/s)

之后 throughput 降为 0, 请求卡死不返回

300 秒后超时报 RayChannelTimeoutError

用 --enforce-eager 禁用 CUDA graph 后仍然卡死, 排除 CUDA graph 问题。

关键对比: PP=2 全部正常

我们测试了所有节点对的 PP=2 推理:

| 节点对 | PP=2 推理 |
|--------|----------|
| 节点0 ↔ 节点1 | ✅ 正常 |
| 节点0 ↔ 节点3 | ✅ 正常 |
| 节点1 ↔ 节点3 | ✅ 正常 |
| 节点2 ↔ 节点3 | ✅ 正常 |
| PP=3 任意 3 节点 | ❌ 卡死 |

所有节点两两 PP=2 通信正常, 只有 3 节点 PP=3 时卡死。

另一个问题

PP=2 只有 16 卡, KV cache 不够, 最大只能支持 ~62k 上下文。尝试 --kv-cache-dtype fp8_e5m2 来减少 KV cache 内存占用, 但 FLASHMLA_SPARSE 不支持 FP8 KV cache:

FLASHMLA_SPARSE: [kv_cache_dtype not supported]

如果支持 FP8 KV cache, PP=2 就能到 ~124k, 不需要 PP=3。

请求

排查 PP=3 推理卡死问题, 怀疑 MCCL 3 节点通信组场景

评估 FLASHMLA_SPARSE 支持 FP8 KV cache 的可行性
See post chevron_right

jiaqian
Members

GLM5.1适配问题已解决 2026年4月14日 10:13

GLM-5.1 在 MetaX C500 上部署遇到的问题

【系统环境】
GPU：MetaX C500 × 16 卡（2 节点，各 8 卡，64GB/卡）
操作系统：Ubuntu 22.04, x86_64
MACA SDK：3.5.3.102
Docker 镜像：pub-registry1.metax-tech.com/ai-opentest/dev/vllm-metax:0.14.0-maca.ai3.5.3.102-torch2.8-py310-ubuntu22.04-amd64_gl
m_w4a8_full (49.3GB)
vLLM 版本：vLLM-MetaX 0.14.0（v1 引擎）
Ray 版本：2.53.0
部署方式：2 节点 PP=2 TP=8，Ray 集群已组建
模型存储：GPFS 共享存储，所有节点可访问

【问题 1：FP8 模型不兼容】
模型：GLM-5.1-FP8（705GB）
报错：fp8 quantization is currently not supported in maca
MACA 当前不支持 FP8 量化

【问题 2：Eco-Tech W4A8 模型不兼容】
模型：Eco-Tech/GLM-5.1-w4a8（~783GB）
该模型使用 msmodelslim 格式（为昇腾设计），权重文件名为 quant_model_weights 而非标准 model，配置文件为
quant_model_description.json 而非标准 quantization_config，vLLM-MetaX 无法识别加载

【问题 3：v1 引擎多节点 Pipeline Parallelism】
报错：local_rank 10 is out of bounds / device id 2 not exist
v1 引擎的 multiproc_executor 将所有 worker 当作本地进程，无法正确映射远程节点 GPU
此版本已移除 v0 引擎（VLLM_USE_V1=0 无效）
--distributed-executor-backend ray 也遇到相同的 device 映射错误

【请求】
1. 是否有 MACA 兼容的 GLM-5.1 W4A8 模型（compressed-tensors 格式）？
2. 该镜像正确的多节点部署方式是什么？

jiaqian

一、软硬件信息

二、问题现象

问题1: PP=3 推理卡死

请求

环境

问题

关键对比: PP=2 全部正常

另一个问题

请求