为你整合了前面几轮的配置信息,生成了最完整、最专业的工单提报内容。包含你的 Dockerfile 和 docker-compose.yml 可以让沐曦(Metax)的技术支持人员更直观地了解你的部署方式,从而给出更准确的答复。
你可以直接点击文本框,将以下全部内容复制并粘贴进去:
一、软硬件信息
2.沐曦GPU型号:C500
3.操作系统内核版本:[请补充,如 Ubuntu 22.04]
Linux muxi-gpu-worker-1 5.15.0-58-generic #64~20.04.1-Ubuntu SMP Fri Jan 6 16:42:31 UTC 2023 x86_64 x86_64 x86_64 GNU/Linux
4.是否开启CPU虚拟化:no
5.mx-smi回显:
+---------------------------------------------------------------------------------+
| MX-SMI 2.2.9 Kernel Mode Driver Version: 3.4.4 |
| MACA Version: 3.3.0.15 BIOS Version: 1.30.0.0 |
|------------------+-----------------+---------------------+----------------------|
| Board Name | GPU Persist-M | Bus-id | GPU-Util sGPU-M |
| Pwr:Usage/Cap | Temp Perf | Memory-Usage | GPU-State |
6.docker info回显:[无特殊配置可填略]
7.镜像版本:cr.metax-tech.com/public-ai-release/maca/vllm-metax:0.17.0-maca.ai3.5.3.307-torch2.8-py312-kylinv11-amd64
8.启动容器命令:使用 docker-compose 启动(具体配置见下文)
9.容器内执行命令:vllm serve (具体 entrypoint 见下文)
二、问题现象与详细配置
您好,我想咨询一下当前环境下的模型支持情况。
在使用沐曦 C500 GPU 以及上述 vLLM 0.17 版本镜像(基于 MACA 3.3 平台)环境下,是否支持部署和推理 Qwen3.5-9B-AWQ-4bit 量化模型?
模型 Hugging Face 地址为:huggingface.co/cyankiwi/Qwen3.5-9B-AWQ-4bit
为了部署该模型,我准备了如下的构建与启动配置:
Dockerfile:
FROM cr.metax-tech.com/public-ai-release/maca/vllm-metax:0.17.0-maca.ai3.5.3.307-torch2.8-py312-kylinv11-amd64
RUN /opt/conda/bin/pip install --no-cache-dir qwen-vl-utils==0.0.14
services:
vllm-qwen3.5-9b-awq:
build:
context: .
dockerfile: dockerfile
restart: unless-stopped
devices:
- /dev/mxcd
- /dev/dri/renderD133
group_add:
- video
environment:
- MACA_GRAPH_LAUNCH_MODE=1
- MACA_SMALL_PAGESIZE_ENABLE=1
- VLLM_ALLOW_LONG_CONTEXT_LEN_OVERRIDE=1
- NCCL_DEBUG=INFO
volumes:
- /mnt/mydisk/models/:/llm_models
networks:
- shared_network
shm_size: 20gb
entrypoint: [
"/opt/conda/bin/vllm", "serve", "/llm_models/cyankiwi/Qwen3.5-9B-AWQ-4bit",
"--host", "0.0.0.0",
"--port", "8001",
"--api-key", "monitorpoc",
"--served-model-name", "Qwen3.5-9B-AWQ-4bit",
"--trust-remote-code",
"--tensor-parallel-size", "1",
"--max-model-len", "32768",
"--max-num-batched-tokens", "32768",
"--enable-chunked-prefill",
"--max-num-seqs", "20",
"--gpu-memory-utilization", "0.90",
"--quantization", "awq",
"--dtype", "half",
"--async-scheduling",
"--enable-auto-tool-choice",
"--tool-call-parser", "hermes"
]
networks:
shared_network:
external: true
我的主要疑问是:
1. 如果当前 C500 及该镜像版本支持 AWQ 4-bit 量化模型,请问我上述配置的启动参数(如 --quantization awq 和 --dtype half)是否正确且最优?是否有其他推荐的性能优化参数?
2. 如果当前版本暂不支持 AWQ 格式,请问后续的 MACA 版本或 vLLM 镜像是否有适配该格式的计划?
期待您的回复,非常感谢!