MetaX-Tech Developer Forum 论坛首页
  • 沐曦开发者
search
Sign in

jiaqian

  • Members
  • Joined 2026年4月14日
  • message 帖子
  • forum 主题
  • favorite 关注者
  • favorite_border Follows
  • person_outline 详细信息

jiaqian has started 3 threads.

  • See post chevron_right
    jiaqian
    Members
    GLM-5 PP=3 推理卡死问题 解决中 2026年4月16日 19:40

    一、软硬件信息

    1. 服务器厂家: 算丰
    2. 沐曦GPU型号: MetaX C500 (64GB), 4 节点 x 8 卡, 共 32 卡
    3. 操作系统内核版本: 5.15.0-119-generic (Ubuntu 22.04.5 LTS)
    4. 是否开启CPU虚拟化: 是 (Intel VT-x, CPU: Intel Xeon Platinum 8460Y+)
    5. mx-smi回显:
    mx-smi  version: 2.2.9
    MX-SMI 2.2.9    Kernel Mode Driver Version: 3.4.4
    MACA Version: 3.3.0.15    BIOS Version: 1.30.0.0
    
    Board       Name | GPU   Persist-M | Bus-id         | GPU-Util  sGPU-M
    Pwr:Usage/Cap    | Temp       Perf | Memory-Usage   | GPU-State
    0     MetaX C500 | 0           Off | 0000:08:00.0   | 0%      Disabled
    69W / 350W       | 36C          P9 | 56938/65536 MiB| Available
    1     MetaX C500 | 1           Off | 0000:09:00.0   | 0%      Disabled
    69W / 350W       | 37C          P9 | 57578/65536 MiB| Available
    ... (8 卡, 每卡 65536 MiB, 状态 Available)
    
    1. docker info回显:
    Server Version: 20.10.19
    Storage Driver: overlay2
    Cgroup Driver: systemd
    Kernel Version: 5.15.0-119-generic
    Operating System: Ubuntu 22.04.5 LTS
    CPUs: 160
    Total Memory: 1.968TiB
    
    1. 镜像版本: pub-registry1.metax-tech.com/ai-opentest/dev/vllm-metax:0.14.0-maca.ai3.5.3.102-torch2.8-py310-ubuntu22.04-amd64_glm_w4a8_full
    2. 启动容器命令:

    Head 节点 (节点0, 10.66.3.10):

    sudo docker run -d --name ray-head --privileged --network host --shm-size 64g \
      -v /data/models/GLM-5-W8A8:/model \
      -v /dev/mxcd:/dev/mxcd \
      -e RAY_EXPERIMENTAL_NOSET_CUDA_VISIBLE_DEVICES=1 \
      pub-registry1.metax-tech.com/ai-opentest/dev/vllm-metax:0.14.0-maca.ai3.5.3.102-torch2.8-py310-ubuntu22.04-amd64_glm_w4a8_full \
      bash -c '/opt/conda/bin/ray start --head --port=6379 && sleep infinity'
    

    Worker 节点 (节点1/2/3):

    sudo docker run -d --name ray-worker --privileged --network host --shm-size 64g \
      -v /data/models/GLM-5-W8A8:/model \
      -v /dev/mxcd:/dev/mxcd \
      -e RAY_EXPERIMENTAL_NOSET_CUDA_VISIBLE_DEVICES=1 \
    
    9. 容器内执行命令:
    ```bash
    python -m vllm.entrypoints.openai.api_server \
      --model /model \
      --tensor-parallel-size 8 \
      --pipeline-parallel-size 3 \
      --distributed-executor-backend ray \
      --enforce-eager \
      --max-model-len 65536 \
      --gpu-memory-utilization 0.90
    

    二、问题现象

    问题1: PP=3 推理卡死

    使用上述命令部署 GLM-5-W8A8 (PP=3 TP=8, 3 节点 24 卡), 部署启动完全正常 (模型加载、KV cache 分配、API server 启动全部成功)。但发送推理请求后:

    1. 前约 10 秒有少量输出 (prompt throughput ~1.1 tok/s, generation throughput ~0.1 tok/s)
    2. 之后 throughput 降为 0, 请求卡死不返回
    3. 300 秒后超时报错 RayChannelTimeoutError

    已用 --enforce-eager 禁用 CUDA graph, 仍然卡死, 排除 CUDA graph 问题。

    关键对比: PP=2 全部正常

    我们测试了所有可用节点对的 PP=2 推理 (PP=2 TP=8, 2 节点 16 卡), 全部正常:

    | 节点对 | IP | PP=2 推理结果 |
    |--------|-----|--------------|
    | 节点0 + 节点1 | 10.66.3.10 + 10.66.3.11 | 正常 |
    | 节点0 + 节点3 | 10.66.3.10 + 10.66.3.13 | 正常 |
    | 节点1 + 节点3 | 10.66.3.11 + 10.66.3.13 | 正常 |
    | 节点2 + 节点3 | 10.66.3.12 + 10.66.3.13 | 正常 |
    | PP=3 任意 3 节点 | | 卡死 |

    所有节点两两 PP=2 跨节点通信正常, 只有 PP=3 (3 节点) 时卡死。怀疑 MCCL 在 3 节点通信组场景下存在问题。

    请求

    1. 排查 PP=3 推理卡死问题, 怀疑 MCCL 3 节点通信组场景
  • See post chevron_right
    jiaqian
    Members
    多节点部署问题 解决中 2026年4月16日 19:07

    GLM-5 PP=3 推理卡死问题

    环境

    • 4 节点, 每节点 8 张 C500 (64GB), 共 32 卡
    • MACA 3.5.3, vLLM-MetaX 0.14.0 镜像 (vllm-metax:0.14.0-maca.ai3.5.3.102-torch2.8-py310-ubuntu22.04-amd64_glm_w4a8_full)
    • 模型: GLM-5-W8A8, PP=3 TP=8, 3 节点 24 卡
    • Ray 分布式, MCCL 跨节点通信

    问题

    PP=3 TP=8 部署启动正常 (模型加载、KV cache、API server 全部成功), 但发送推理请求后:

    1. 前 10 秒有少量输出 (prompt throughput 1.1 tok/s)
    2. 之后 throughput 降为 0, 请求卡死不返回
    3. 300 秒后超时报 RayChannelTimeoutError

    用 --enforce-eager 禁用 CUDA graph 后仍然卡死, 排除 CUDA graph 问题。

    关键对比: PP=2 全部正常

    我们测试了所有节点对的 PP=2 推理:

    | 节点对 | PP=2 推理 |
    |--------|----------|
    | 节点0 ↔ 节点1 | ✅ 正常 |
    | 节点0 ↔ 节点3 | ✅ 正常 |
    | 节点1 ↔ 节点3 | ✅ 正常 |
    | 节点2 ↔ 节点3 | ✅ 正常 |
    | PP=3 任意 3 节点 | ❌ 卡死 |

    所有节点两两 PP=2 通信正常, 只有 3 节点 PP=3 时卡死。

    另一个问题

    PP=2 只有 16 卡, KV cache 不够, 最大只能支持 ~62k 上下文。尝试 --kv-cache-dtype fp8_e5m2 来减少 KV cache 内存占用, 但 FLASHMLA_SPARSE 不支持 FP8 KV cache:

    FLASHMLA_SPARSE: [kv_cache_dtype not supported]
    

    如果支持 FP8 KV cache, PP=2 就能到 ~124k, 不需要 PP=3。

    请求

    1. 排查 PP=3 推理卡死问题, 怀疑 MCCL 3 节点通信组场景
    2. 评估 FLASHMLA_SPARSE 支持 FP8 KV cache 的可行性
  • See post chevron_right
    jiaqian
    Members
    GLM5.1适配问题 已解决 2026年4月14日 10:13

    GLM-5.1 在 MetaX C500 上部署遇到的问题

    【系统环境】
    GPU:MetaX C500 × 16 卡(2 节点,各 8 卡,64GB/卡)
    操作系统:Ubuntu 22.04, x86_64
    MACA SDK:3.5.3.102
    Docker 镜像:pub-registry1.metax-tech.com/ai-opentest/dev/vllm-metax:0.14.0-maca.ai3.5.3.102-torch2.8-py310-ubuntu22.04-amd64_gl
    m_w4a8_full (49.3GB)
    vLLM 版本:vLLM-MetaX 0.14.0(v1 引擎)
    Ray 版本:2.53.0
    部署方式:2 节点 PP=2 TP=8,Ray 集群已组建
    模型存储:GPFS 共享存储,所有节点可访问

    【问题 1:FP8 模型不兼容】
    模型:GLM-5.1-FP8(705GB)
    报错:fp8 quantization is currently not supported in maca
    MACA 当前不支持 FP8 量化

    【问题 2:Eco-Tech W4A8 模型不兼容】
    模型:Eco-Tech/GLM-5.1-w4a8(~783GB)
    该模型使用 msmodelslim 格式(为昇腾设计),权重文件名为 quant_model_weights 而非标准 model,配置文件为
    quant_model_description.json 而非标准 quantization_config,vLLM-MetaX 无法识别加载

    【问题 3:v1 引擎多节点 Pipeline Parallelism】
    报错:local_rank 10 is out of bounds / device id 2 not exist
    v1 引擎的 multiproc_executor 将所有 worker 当作本地进程,无法正确映射远程节点 GPU
    此版本已移除 v0 引擎(VLLM_USE_V1=0 无效)
    --distributed-executor-backend ray 也遇到相同的 device 映射错误

    【请求】
    1. 是否有 MACA 兼容的 GLM-5.1 W4A8 模型(compressed-tensors 格式)?
    2. 该镜像正确的多节点部署方式是什么?

  • 沐曦开发者论坛
powered by misago