c500推理Qwen3-VL-30B-A3B-Instruct报错

使用镜像：cr.metax-tech.com/public-ai-release/maca/modelzoo.llm.vllm:maca.ai3.1.0.7-torch2.6-py310-ubuntu22.04-amd64

INFO 10-06 11:53:14 [multiproc_worker_utils.py:138] Terminating local vLLM worker processes
=== MXC500 ModelZoo LLM 启动 ===
当前时间: Mon Oct 6 11:53:24 CST 2025
工作目录: /workspace
检查MXC500设备...
crw-rw---- 1 root video 505, 0 Oct 6 11:53 /dev/mxcd
激活conda环境...
检查Python环境...
/opt/conda/bin/python
Python 3.10.10
PyTorch version: 2.6.0+metax3.1.0.4
vLLM version: 0.10.0

视觉编码器（Vision Tower）加载过大
The sequence length (8192) is smaller than the pre-defined worst-case total number of multimodal tokens (16384)
表示 Qwen3-VL 模型的视觉部分在 profile_run() 阶段创建了 16 K multimodal token 的 dummy 输入，显存暴涨到峰值（≈58 GiB/卡）。
profile_run() 阶段未跳过 → 全量分配显存
self.model_runner.profile_run()
即 vLLM 正在执行假输入推理，没使用你的 VLLM_SKIP_PROFILE=1 优化路径。
MetaX 驱动 mcModuleLaunchKernel 连锁报错
mcModuleLaunchKernel: Returned mcErrorInvalidValue
→ 说明底层 device malloc 失败（非 CUDA，而是 MetaX 层的 memory allocator 报错）。

GPU 推理错误（cuDNN + MXC Runtime）

关键段：
[11:53:14.308][MCR][E]mx_device.cpp :9646: Fail to allocate device memory
RuntimeError: Unable to find a valid cuDNN algorithm to run convolution

视觉编码器 (Qwen3_VL_MoE.visual) 触发 3D convolution（CLIP-like patch embedding）；
cuDNN（或 MetaX cuDNN shim 层）找不到合适算法；
同时 MXMACA runtime 报 Fail to allocate device memory；
导致整个 worker MQLLMEngine 被强制中断。
注意：这不是 FP8 KV Cache 或文本部分的问题，而是视觉模块 (Vision Transformer) 初始化阶段。

在 GPU 上初始化失败，核心报错如下：
RuntimeError: Unable to find a valid cuDNN algorithm to run convolution
[11:59:52][MCR][E]mc_runtime_api.cpp :499 : mcModuleLaunchKernel: Returned mcErrorInvalidValue

Qwen3-VL 模型在处理图像输入时调用了 3D 卷积（conv3d）；
MetaX 的 MACA runtime 没有找到对应的 CUDA/cuDNN 算法（即不支持这个算子）；
导致 GPU 端 kernel 启动失败，返回 mcErrorInvalidValue；
vLLM 检测不到 cuDNN 算法可用，于是抛出异常并终止整个 engine。