Posts | noodyyeung | 沐曦开发者论坛

为你整合了前面几轮的配置信息，生成了最完整、最专业的工单提报内容。包含你的 Dockerfile 和 docker-compose.yml 可以让沐曦（Metax）的技术支持人员更直观地了解你的部署方式，从而给出更准确的答复。

你可以直接点击文本框，将以下全部内容复制并粘贴进去：

一、软硬件信息
2.沐曦GPU型号：C500
3.操作系统内核版本：[请补充，如 Ubuntu 22.04]
Linux muxi-gpu-worker-1 5.15.0-58-generic #64~20.04.1-Ubuntu SMP Fri Jan 6 16:42:31 UTC 2023 x86_64 x86_64 x86_64 GNU/Linux

4.是否开启CPU虚拟化：no
5.mx-smi回显：
+---------------------------------------------------------------------------------+
| MX-SMI 2.2.9 Kernel Mode Driver Version: 3.4.4 |
| MACA Version: 3.3.0.15 BIOS Version: 1.30.0.0 |
|------------------+-----------------+---------------------+----------------------|
| Board Name | GPU Persist-M | Bus-id | GPU-Util sGPU-M |
| Pwr:Usage/Cap | Temp Perf | Memory-Usage | GPU-State |

6.docker info回显：[无特殊配置可填略]
7.镜像版本：cr.metax-tech.com/public-ai-release/maca/vllm-metax:0.17.0-maca.ai3.5.3.307-torch2.8-py312-kylinv11-amd64
8.启动容器命令：使用 docker-compose 启动（具体配置见下文）
9.容器内执行命令：vllm serve （具体 entrypoint 见下文）

二、问题现象与详细配置
您好，我想咨询一下当前环境下的模型支持情况。

在使用沐曦 C500 GPU 以及上述 vLLM 0.17 版本镜像（基于 MACA 3.3 平台）环境下，是否支持部署和推理 Qwen3.5-9B-AWQ-4bit 量化模型？
模型 Hugging Face 地址为：huggingface.co/cyankiwi/Qwen3.5-9B-AWQ-4bit

为了部署该模型，我准备了如下的构建与启动配置：

Dockerfile:

FROM cr.metax-tech.com/public-ai-release/maca/vllm-metax:0.17.0-maca.ai3.5.3.307-torch2.8-py312-kylinv11-amd64

RUN /opt/conda/bin/pip install --no-cache-dir qwen-vl-utils==0.0.14

docker-compose.yml:

services:
  vllm-qwen3.5-9b-awq:
    build:
      context: .
      dockerfile: dockerfile
    restart: unless-stopped
    devices:
      - /dev/mxcd
      - /dev/dri/renderD133
    group_add:
      - video
    environment:
      - MACA_GRAPH_LAUNCH_MODE=1
      - MACA_SMALL_PAGESIZE_ENABLE=1
      - VLLM_ALLOW_LONG_CONTEXT_LEN_OVERRIDE=1
      - NCCL_DEBUG=INFO
    volumes:
      - /mnt/mydisk/models/:/llm_models
    networks:
      - shared_network
    shm_size: 20gb
    entrypoint: [
      "/opt/conda/bin/vllm", "serve", "/llm_models/cyankiwi/Qwen3.5-9B-AWQ-4bit",
      "--host", "0.0.0.0",
      "--port", "8001",
      "--api-key", "monitorpoc",
      "--served-model-name", "Qwen3.5-9B-AWQ-4bit",
      "--trust-remote-code",
      "--tensor-parallel-size", "1",
      "--max-model-len", "32768",
      "--max-num-batched-tokens", "32768",
      "--enable-chunked-prefill",
      "--max-num-seqs", "20",
      "--gpu-memory-utilization", "0.90",
      "--quantization", "awq",
      "--dtype", "half",
      "--async-scheduling",
      "--enable-auto-tool-choice",
      "--tool-call-parser", "hermes"
    ]

networks:
  shared_network:
    external: true

我的主要疑问是：
1. 如果当前 C500 及该镜像版本支持 AWQ 4-bit 量化模型，请问我上述配置的启动参数（如 --quantization awq 和 --dtype half）是否正确且最优？是否有其他推荐的性能优化参数？
2. 如果当前版本暂不支持 AWQ 格式，请问后续的 MACA 版本或 vLLM 镜像是否有适配该格式的计划？

期待您的回复，非常感谢！