使用镜像:cr.metax-tech.com/public-ai-release/maca/modelzoo.llm.vllm:maca.ai3.1.0.7-torch2.6-py310-ubuntu22.04-amd64
INFO 10-06 11:53:14 [multiproc_worker_utils.py:138] Terminating local vLLM worker processes
=== MXC500 ModelZoo LLM 启动 ===
当前时间: Mon Oct 6 11:53:24 CST 2025
工作目录: /workspace
检查MXC500设备...
crw-rw---- 1 root video 505, 0 Oct 6 11:53 /dev/mxcd
激活conda环境...
检查Python环境...
/opt/conda/bin/python
Python 3.10.10
PyTorch version: 2.6.0+metax3.1.0.4
vLLM version: 0.10.0
视觉编码器(Vision Tower)加载过大
The sequence length (8192) is smaller than the pre-defined worst-case total number of multimodal tokens (16384)
表示 Qwen3-VL 模型的视觉部分在 profile_run() 阶段创建了 16 K multimodal token 的 dummy 输入,显存暴涨到峰值(≈58 GiB/卡)。
profile_run() 阶段未跳过 → 全量分配显存
self.model_runner.profile_run()
即 vLLM 正在执行假输入推理,没使用你的 VLLM_SKIP_PROFILE=1 优化路径。
MetaX 驱动 mcModuleLaunchKernel 连锁报错
mcModuleLaunchKernel: Returned mcErrorInvalidValue
→ 说明底层 device malloc 失败(非 CUDA,而是 MetaX 层的 memory allocator 报错)。
GPU 推理错误(cuDNN + MXC Runtime)
关键段:
[11:53:14.308][MCR][E]mx_device.cpp :9646: Fail to allocate device memory
RuntimeError: Unable to find a valid cuDNN algorithm to run convolution
视觉编码器 (Qwen3_VL_MoE.visual) 触发 3D convolution(CLIP-like patch embedding);
cuDNN(或 MetaX cuDNN shim 层)找不到合适算法;
同时 MXMACA runtime 报 Fail to allocate device memory;
导致整个 worker MQLLMEngine 被强制中断。
注意:这不是 FP8 KV Cache 或文本部分的问题,而是 视觉模块 (Vision Transformer) 初始化阶段。
在 GPU 上初始化失败,核心报错如下:
RuntimeError: Unable to find a valid cuDNN algorithm to run convolution
[11:59:52][MCR][E]mc_runtime_api.cpp :499 : mcModuleLaunchKernel: Returned mcErrorInvalidValue
Qwen3-VL 模型在处理图像输入时调用了 3D 卷积(conv3d);
MetaX 的 MACA runtime 没有找到对应的 CUDA/cuDNN 算法(即不支持这个算子);
导致 GPU 端 kernel 启动失败,返回 mcErrorInvalidValue;
vLLM 检测不到 cuDNN 算法可用,于是抛出异常并终止整个 engine。