• Members 2 posts
    2025年10月6日 12:12

    使用镜像:cr.metax-tech.com/public-ai-release/maca/modelzoo.llm.vllm:maca.ai3.1.0.7-torch2.6-py310-ubuntu22.04-amd64

    INFO 10-06 11:53:14 [multiproc_worker_utils.py:138] Terminating local vLLM worker processes
    === MXC500 ModelZoo LLM 启动 ===
    当前时间: Mon Oct 6 11:53:24 CST 2025
    工作目录: /workspace
    检查MXC500设备...
    crw-rw---- 1 root video 505, 0 Oct 6 11:53 /dev/mxcd
    激活conda环境...
    检查Python环境...
    /opt/conda/bin/python
    Python 3.10.10
    PyTorch version: 2.6.0+metax3.1.0.4
    vLLM version: 0.10.0

    视觉编码器(Vision Tower)加载过大
    The sequence length (8192) is smaller than the pre-defined worst-case total number of multimodal tokens (16384)
    表示 Qwen3-VL 模型的视觉部分在 profile_run() 阶段创建了 16 K multimodal token 的 dummy 输入,显存暴涨到峰值(≈58 GiB/卡)。
    profile_run() 阶段未跳过 → 全量分配显存
    self.model_runner.profile_run()
    即 vLLM 正在执行假输入推理,没使用你的 VLLM_SKIP_PROFILE=1 优化路径。
    MetaX 驱动 mcModuleLaunchKernel 连锁报错
    mcModuleLaunchKernel: Returned mcErrorInvalidValue
    → 说明底层 device malloc 失败(非 CUDA,而是 MetaX 层的 memory allocator 报错)。

    GPU 推理错误(cuDNN + MXC Runtime)

    关键段:
    [11:53:14.308][MCR][E]mx_device.cpp :9646: Fail to allocate device memory
    RuntimeError: Unable to find a valid cuDNN algorithm to run convolution

    视觉编码器 (Qwen3_VL_MoE.visual) 触发 3D convolution(CLIP-like patch embedding);
    cuDNN(或 MetaX cuDNN shim 层)找不到合适算法;
    同时 MXMACA runtime 报 Fail to allocate device memory;
    导致整个 worker MQLLMEngine 被强制中断。
    注意:这不是 FP8 KV Cache 或文本部分的问题,而是 视觉模块 (Vision Transformer) 初始化阶段。

    在 GPU 上初始化失败,核心报错如下:
    RuntimeError: Unable to find a valid cuDNN algorithm to run convolution
    [11:59:52][MCR][E]mc_runtime_api.cpp :499 : mcModuleLaunchKernel: Returned mcErrorInvalidValue

    Qwen3-VL 模型在处理图像输入时调用了 3D 卷积(conv3d);
    MetaX 的 MACA runtime 没有找到对应的 CUDA/cuDNN 算法(即不支持这个算子);
    导致 GPU 端 kernel 启动失败,返回 mcErrorInvalidValue;
    vLLM 检测不到 cuDNN 算法可用,于是抛出异常并终止整个 engine。

  • Members 2 posts
    2025年10月6日 12:19

    调试一通,模型跑起来了,主要问题

    Qwen3-VL 模型在处理图像输入时调用了 3D 卷积(conv3d);
    MetaX 的 MACA runtime 没有找到对应的 CUDA/cuDNN 算法(即不支持这个算子)

    无法正常使用模型

  • Members 61 posts
    2025年10月9日 15:04

    尊敬的开发者您好,当前vllm镜像未支持Qwen3-VL-30B-A3B-Instruct,请等后续镜像发布

  • arrow_forward

    Thread has been moved from 产品&运维.