• Members 21 posts
    2025年10月21日 09:25

    我一台C500, 单GPU 64G, 部署了2个镜像,我想要每一个镜像单独控制一个vllm推理服务,目前发现第一个服务启动完毕以后,第二个在启动就卡在中间不动了,但是如果我把第一个服务关闭以后,第二个服务立刻就继续执行启动完毕了,第二个启动的时候中途有时候会报一个.c文件的错误,显示的是GPU那里报错了,是不是不能一张显卡公用GPU呀?还是我用的方式有问题。下面的是我的2个镜像:
    docker run -itd --device=/dev/dri --device=/dev/mxcd --group-add video --network=host --name vllm --security-opt seccomp=unconfined --security-opt apparmor=unconfined --shm-size 100gb --ulimit memlock=-1 -v /data:/data cr.metax-tech.com/public-ai-release/maca/modelzoo.llm.vllm:maca.ai3.1.0.7-torch2.6-py310-ubuntu22.04-amd64

    服务是:vllm serve /data/model/qwen2.5-14b-instruct-awq -tp 1 --trust-remote-code --dtype bfloat16 --max-model-len 8192 --gpu-memory-utilization 0.4

    docker run -itd --device=/dev/dri --device=/dev/mxcd --group-add video --network=host --name vllm-tm --security-opt seccomp=unconfined --security-opt apparmor=unconfined --shm-size 100gb --ulimit memlock=-1 -v /data:/data cr.metax-tech.com/public-ai-release/maca/modelzoo.llm.vllm:maca.ai3.1.0.7-torch2.6-py310-ubuntu22.04-amd64

    服务是:vllm serve /data/model/hunyuan-mt-chimera-7b -tp 1 --trust-remote-code --dtype bfloat16 --max-model-len 8192 --gpu-memory-utilization 0.4 --port 8001

  • Members 139 posts
    2025年10月21日 11:08

    尊敬的开发者您好,容器启动请使用特权模式即可共享卡。一个容器内可启用两个vllm服务,更换vllm服务化端口即可。您两种方式都可以尝试。

  • Members 21 posts
    2025年10月21日 12:28

    还是不行,
    docker 运行如下:
    docker run -itd --privileged --group-add video --network=host --name vllm --shm-size 100gb --ulimit memlock=-1 -v /data:/data cr.metax-tech.com/public-ai-release/maca/modelzoo.llm.vllm:maca.ai3.1.0.7-torch2.6-py310-ubuntu22.04-amd64
    之后
    docker exec -it vllm bash
    然后运行:
    nohup vllm serve /data/model/hunyuan-mt-chimera-7b/ -tp 1 --trust-remote-code --dtype bfloat16 --max-model-len 4096 --gpu-memory-utilization 0.4 --swap-space 16 --port 8001 &
    启动成功以后运行:
    nohup vllm serve /data/model/qwen2.5-14b-instruct-awq/ --trust-remote-code --dtype bfloat16 --max-model-len 4096 --gpu-memory-utilization 0.4 --swap-space 16 --port 8000 &
    第二个启动到这里就不动了,会一直等待下去:
    INFO 10-21 12:18:14 [gpu_model_runner.py:1843] Starting to load model /data/model/qwen2.5-14b-instruct-awq/...
    INFO 10-21 12:18:14 [gpu_model_runner.py:1875] Loading model from scratch...
    INFO 10-21 12:18:14 [cuda.py:290] Using Flash Attention backend on V1 engine.
    Loading safetensors checkpoint shards: 0% Completed | 0/3 [00:00<?, ?it/s]
    Loading safetensors checkpoint shards: 33% Completed | 1/3 [00:03<00:07, 3.66s/it]
    Loading safetensors checkpoint shards: 67% Completed | 2/3 [00:07<00:03, 3.70s/it]
    Loading safetensors checkpoint shards: 100% Completed | 3/3 [00:13<00:00, 4.68s/it]
    Loading safetensors checkpoint shards: 100% Completed | 3/3 [00:13<00:00, 4.41s/it]

    INFO 10-21 12:18:28 [default_loader.py:262] Loading weights took 13.63 seconds
    INFO 10-21 12:18:29 [gpu_model_runner.py:1892] Model loading took 9.3788 GiB and 13.882232 seconds

  • Members 139 posts
    2025年10月21日 12:31

    尊敬的开发者您好,请您尝试一个容器内部署两个vllm服务,更换vllm服务化端口。

  • Members 21 posts
    2025年10月21日 12:35

    我现在的方式已经是一个docker容器中了,启动了2个服务,也是不同端口,但是还卡住,是我哪里理解有问题吗?请指教

  • Members 139 posts
    2025年10月21日 12:45

    尊敬的开发者您好,请您提供以下信息
    一、软硬件信息
    1.服务器厂家:
    2.沐曦GPU型号:
    3.操作系统内核版本:
    4.是否开启CPU虚拟化:
    5.mx-smi回显:
    6.docker info回显:
    7.镜像版本:

  • Members 21 posts
    2025年10月21日 12:58

    从下方mx-smi可以看到显存占用已经执行了,目前有2个vllm服务占用了显存
    一、软硬件信息
    1.服务器厂家:
    System Information
    Manufacturer: RongXinZhiYuan
    Product Name: DAU-H100
    Version: 0.1
    Serial Number: 001BBW18010027
    UUID: 00112233-4455-6677-8899-aabbccddeeff
    Wake-up Type: Power Switch
    SKU Number: Kunlun_Hygon65N32_SKU
    Family: Type1Family

    Handle 0x0013, DMI type 12, 5 bytes
    System Configuration Options
    Option 1: ConfigOptions String 1
    Option 2: ConfigOptions String 2

    Handle 0x0015, DMI type 32, 11 bytes
    System Boot Information
    Status: No errors detected

    2.沐曦GPU型号:
    MetaX C500

    3.操作系统内核版本:
    Static hostname: host
    Icon name: computer-server
    Chassis: server
    Machine ID: d03463cf8d154a38873c9161c0aa65da
    Boot ID: f0934e776e614dd3aa36820d16e7ee84
    Operating System: Ubuntu 22.04.5 LTS
    Kernel: Linux 5.15.0-119-generic
    Architecture: x86-64

    4.是否开启CPU虚拟化:
    Virtualization: AMD-V

    5.mx-smi回显: 这里是因为2个服务都开启了,但是有一个开启了一半,一直卡住,但是显存已经占用完毕了。
    mx-smi version: 2.2.3

    =================== MetaX System Management Interface Log ===================
    Timestamp : Tue Oct 21 04:52:31 2025

    Attached GPUs : 1
    +---------------------------------------------------------------------------------+
    | MX-SMI 2.2.3 Kernel Mode Driver Version: 2.14.6 |
    | MACA Version: 2.32.0.6 BIOS Version: 1.24.3.0 |
    |------------------------------------+---------------------+----------------------+
    | GPU NAME | Bus-id | GPU-Util |
    | Temp Pwr:Usage/Cap | Memory-Usage | |
    |====================================+=====================+======================|
    | 0 MetaX C500 | 0000:0f:00.0 | 0% |
    | 74C 75W / 350W | 41244/65536 MiB | |
    +------------------------------------+---------------------+----------------------+

    +---------------------------------------------------------------------------------+
    | Process: |
    | GPU PID Process Name GPU Memory |
    | Usage(MiB) |
    |=================================================================================|
    | 0 2317608 python3.10 20480 |
    | 0 2327607 python3.10 19904 |
    +---------------------------------------------------------------------------------+

    6.docker info回显:
    Client: Docker Engine - Community
    Version: 28.5.1
    Context: default
    Debug Mode: false
    Plugins:
    buildx: Docker Buildx (Docker Inc.)
    Version: v0.29.1
    Path: /usr/libexec/docker/cli-plugins/docker-buildx
    compose: Docker Compose (Docker Inc.)
    Version: v2.40.0
    Path: /usr/libexec/docker/cli-plugins/docker-compose

    Server:
    Containers: 2
    Running: 2
    Paused: 0
    Stopped: 0
    Images: 3
    Server Version: 28.5.1
    Storage Driver: overlay2
    Backing Filesystem: extfs
    Supports d_type: true
    Using metacopy: false
    Native Overlay Diff: true
    userxattr: false
    Logging Driver: json-file
    Cgroup Driver: systemd
    Cgroup Version: 2
    Plugins:
    Volume: local
    Network: bridge host ipvlan macvlan null overlay
    Log: awslogs fluentd gcplogs gelf journald json-file local splunk syslog
    CDI spec directories:
    /etc/cdi
    /var/run/cdi
    Swarm: inactive
    Runtimes: io.containerd.runc.v2 runc
    Default Runtime: runc
    Init Binary: docker-init
    containerd version: b98a3aace656320842a23f4a392a33f46af97866
    runc version: v1.3.0-0-g4ca628d1
    init version: de40ad0
    Security Options:
    apparmor
    seccomp
    Profile: builtin
    cgroupns
    Kernel Version: 5.15.0-119-generic
    Operating System: Ubuntu 22.04.5 LTS
    OSType: linux
    Architecture: x86_64
    CPUs: 16
    Total Memory: 62.47GiB
    Name: host
    ID: 8eec869e-d6f4-4a72-a7c6-bc08d84e93e1
    Docker Root Dir: /var/lib/docker
    Debug Mode: false
    Experimental: false
    Insecure Registries:
    ::1/128
    127.0.0.0/8
    Live Restore Enabled: false

    7.镜像版本:
    cr.metax-tech.com/public-ai-release/maca/modelzoo.llm.vllm:maca.ai3.1.0.7-torch2.6-py310-ubuntu22.04-amd64

  • Members 139 posts
    2025年10月21日 15:16

    尊敬的开发者您好,请分开起两个vllm服务,使用mx-smi查看显存占用,两个加起是否超过最大显存。

  • Members 21 posts
    2025年10月21日 15:33

    没有超过最大显存,2个加起来不到50G显存,64G的卡

  • Members 139 posts
    2025年10月21日 15:35

    尊敬的开发者您好,您的CPU内存总量为64GB,可能存在CPU内存不足卡住。请时刻使用free -m关注内存变化,尤其是启第二个服务启动的时候持续监控。

  • Members 21 posts
    2025年10月21日 15:49

    卡住的时候内存没有太大变化,信息如下:
    total used free shared buff/cache available
    Mem: 62Gi 36Gi 2.7Gi 0.0Ki 23Gi 25Gi
    Swap: 8.0Gi 2.6Gi 5.4Gi

  • Members 21 posts
    2025年10月21日 15:50
  • Members 139 posts
    2025年10月21日 15:55

    尊敬的开发者您好,请减少gpu-memory-utilization参数重新尝试启动。

  • Members 139 posts
    2025年10月21日 15:55
  • Members 21 posts
    2025年10月21日 16:01

    gpu-memory-utilization 也减少过了,都不行,我设置的一个是0.4, 一个是0.36

  • Members 139 posts
    2025年10月21日 16:03

    尊敬的开发者您好,请您再降低gpu-memory-utilization参数尝试。比如两个0.3等。

  • arrow_forward

    Thread has been moved from 公共.

  • Members 21 posts
    2025年10月29日 09:41

    你好,我一个设置的0.34,一个0.3还是不行,一直卡在下面这里就不走了,显存明显还有20G的剩余:
    [rank0]:W1029 09:35:11.250000 1875 site-packages/torch/_inductor/utils.py:1197] [0/0] Forcing disable 'CUTLASS' backend as it is not supported in maca platform.
    [rank0]:W1029 09:35:11.259000 1875 site-packages/torch/_inductor/utils.py:1197] [0/0] Forcing disable 'CUTLASS' backend as it is not supported in maca platform.
    INFO 10-29 09:35:12 [backends.py:215] Compiling a graph for dynamic shape takes 71.86 s
    INFO 10-29 09:35:47 [monitor.py:34] torch.compile takes 84.68 s in total
    INFO 10-29 09:35:48 [gpu_worker.py:255] Available KV cache memory: 1.55 GiB
    INFO 10-29 09:35:48 [kv_cache_utils.py:833] GPU KV cache size: 12,688 tokens
    INFO 10-29 09:35:48 [kv_cache_utils.py:837] Maximum concurrency for 4,096 tokens per request: 3.10x

    image.pngimage.png

    image.png

    PNG, 34.4 KB, uploaded by Raining on 2025年10月29日.

  • Members 139 posts
    2025年10月29日 10:22

    尊敬的开发者您好,麻烦您将gpu-memory-utilization 设置成0.8,0.4试一下