MetaX-Tech Developer Forum 论坛首页
  • 沐曦开发者
search
Sign in

noodyyeung

  • Members
  • Joined 2026年4月20日
  • message 帖子
  • forum 主题
  • favorite 关注者
  • favorite_border Follows
  • person_outline 详细信息

noodyyeung has posted 1 message.

  • See post chevron_right
    noodyyeung
    Members
    vllm 0.17 version  支持 Qwen3.5-9B-AWQ-4bit 量化嗎? 已解决 2026年4月20日 14:42

    为你整合了前面几轮的配置信息,生成了最完整、最专业的工单提报内容。包含你的 Dockerfile 和 docker-compose.yml 可以让沐曦(Metax)的技术支持人员更直观地了解你的部署方式,从而给出更准确的答复。

    你可以直接点击文本框,将以下全部内容复制并粘贴进去:


    一、软硬件信息
    2.沐曦GPU型号:C500
    3.操作系统内核版本:[请补充,如 Ubuntu 22.04]
    Linux muxi-gpu-worker-1 5.15.0-58-generic #64~20.04.1-Ubuntu SMP Fri Jan 6 16:42:31 UTC 2023 x86_64 x86_64 x86_64 GNU/Linux

    4.是否开启CPU虚拟化:no
    5.mx-smi回显:
    +---------------------------------------------------------------------------------+
    | MX-SMI 2.2.9 Kernel Mode Driver Version: 3.4.4 |
    | MACA Version: 3.3.0.15 BIOS Version: 1.30.0.0 |
    |------------------+-----------------+---------------------+----------------------|
    | Board Name | GPU Persist-M | Bus-id | GPU-Util sGPU-M |
    | Pwr:Usage/Cap | Temp Perf | Memory-Usage | GPU-State |

    6.docker info回显:[无特殊配置可填略]
    7.镜像版本:cr.metax-tech.com/public-ai-release/maca/vllm-metax:0.17.0-maca.ai3.5.3.307-torch2.8-py312-kylinv11-amd64
    8.启动容器命令:使用 docker-compose 启动(具体配置见下文)
    9.容器内执行命令:vllm serve (具体 entrypoint 见下文)

    二、问题现象与详细配置
    您好,我想咨询一下当前环境下的模型支持情况。

    在使用沐曦 C500 GPU 以及上述 vLLM 0.17 版本镜像(基于 MACA 3.3 平台)环境下,是否支持部署和推理 Qwen3.5-9B-AWQ-4bit 量化模型?
    模型 Hugging Face 地址为:huggingface.co/cyankiwi/Qwen3.5-9B-AWQ-4bit

    为了部署该模型,我准备了如下的构建与启动配置:

    Dockerfile:

    FROM cr.metax-tech.com/public-ai-release/maca/vllm-metax:0.17.0-maca.ai3.5.3.307-torch2.8-py312-kylinv11-amd64
    
    RUN /opt/conda/bin/pip install --no-cache-dir qwen-vl-utils==0.0.14
    

    docker-compose.yml:

    services:
      vllm-qwen3.5-9b-awq:
        build:
          context: .
          dockerfile: dockerfile
        restart: unless-stopped
        devices:
          - /dev/mxcd
          - /dev/dri/renderD133
        group_add:
          - video
        environment:
          - MACA_GRAPH_LAUNCH_MODE=1
          - MACA_SMALL_PAGESIZE_ENABLE=1
          - VLLM_ALLOW_LONG_CONTEXT_LEN_OVERRIDE=1
          - NCCL_DEBUG=INFO
        volumes:
          - /mnt/mydisk/models/:/llm_models
        networks:
          - shared_network
        shm_size: 20gb
        entrypoint: [
          "/opt/conda/bin/vllm", "serve", "/llm_models/cyankiwi/Qwen3.5-9B-AWQ-4bit",
          "--host", "0.0.0.0",
          "--port", "8001",
          "--api-key", "monitorpoc",
          "--served-model-name", "Qwen3.5-9B-AWQ-4bit",
          "--trust-remote-code",
          "--tensor-parallel-size", "1",
          "--max-model-len", "32768",
          "--max-num-batched-tokens", "32768",
          "--enable-chunked-prefill",
          "--max-num-seqs", "20",
          "--gpu-memory-utilization", "0.90",
          "--quantization", "awq",
          "--dtype", "half",
          "--async-scheduling",
          "--enable-auto-tool-choice",
          "--tool-call-parser", "hermes"
        ]
    
    networks:
      shared_network:
        external: true
    

    我的主要疑问是:
    1. 如果当前 C500 及该镜像版本支持 AWQ 4-bit 量化模型,请问我上述配置的启动参数(如 --quantization awq 和 --dtype half)是否正确且最优?是否有其他推荐的性能优化参数?
    2. 如果当前版本暂不支持 AWQ 格式,请问后续的 MACA 版本或 vLLM 镜像是否有适配该格式的计划?

    期待您的回复,非常感谢!

  • 沐曦开发者论坛
powered by misago