vllm镜像部署问题 | 已解决 | 沐曦开发者论坛

Raining

2025年10月21日

chat_bubble_outline 34

link

Raining
Members 21 posts

2025年10月21日 09:25 2025年10月21日 09:25
link

我一台C500，单GPU 64G，部署了2个镜像，我想要每一个镜像单独控制一个vllm推理服务，目前发现第一个服务启动完毕以后，第二个在启动就卡在中间不动了，但是如果我把第一个服务关闭以后，第二个服务立刻就继续执行启动完毕了，第二个启动的时候中途有时候会报一个.c文件的错误，显示的是GPU那里报错了，是不是不能一张显卡公用GPU呀？还是我用的方式有问题。下面的是我的2个镜像：
docker run -itd --device=/dev/dri --device=/dev/mxcd --group-add video --network=host --name vllm --security-opt seccomp=unconfined --security-opt apparmor=unconfined --shm-size 100gb --ulimit memlock=-1 -v /data:/data cr.metax-tech.com/public-ai-release/maca/modelzoo.llm.vllm:maca.ai3.1.0.7-torch2.6-py310-ubuntu22.04-amd64

服务是：vllm serve /data/model/qwen2.5-14b-instruct-awq -tp 1 --trust-remote-code --dtype bfloat16 --max-model-len 8192 --gpu-memory-utilization 0.4

docker run -itd --device=/dev/dri --device=/dev/mxcd --group-add video --network=host --name vllm-tm --security-opt seccomp=unconfined --security-opt apparmor=unconfined --shm-size 100gb --ulimit memlock=-1 -v /data:/data cr.metax-tech.com/public-ai-release/maca/modelzoo.llm.vllm:maca.ai3.1.0.7-torch2.6-py310-ubuntu22.04-amd64

服务是：vllm serve /data/model/hunyuan-mt-chimera-7b -tp 1 --trust-remote-code --dtype bfloat16 --max-model-len 8192 --gpu-memory-utilization 0.4 --port 8001
link

shuai_chen
Members 221 posts

2025年10月21日 11:08 2025年10月21日 11:08
link

尊敬的开发者您好，容器启动请使用特权模式即可共享卡。一个容器内可启用两个vllm服务，更换vllm服务化端口即可。您两种方式都可以尝试。
link

Raining
Members 21 posts

2025年10月21日 12:28 2025年10月21日 12:28
link

还是不行，
docker 运行如下：
docker run -itd --privileged --group-add video --network=host --name vllm --shm-size 100gb --ulimit memlock=-1 -v /data:/data cr.metax-tech.com/public-ai-release/maca/modelzoo.llm.vllm:maca.ai3.1.0.7-torch2.6-py310-ubuntu22.04-amd64
之后
docker exec -it vllm bash
然后运行：
nohup vllm serve /data/model/hunyuan-mt-chimera-7b/ -tp 1 --trust-remote-code --dtype bfloat16 --max-model-len 4096 --gpu-memory-utilization 0.4 --swap-space 16 --port 8001 &
启动成功以后运行：
nohup vllm serve /data/model/qwen2.5-14b-instruct-awq/ --trust-remote-code --dtype bfloat16 --max-model-len 4096 --gpu-memory-utilization 0.4 --swap-space 16 --port 8000 &
第二个启动到这里就不动了，会一直等待下去：
INFO 10-21 12:18:14 [gpu_model_runner.py:1843] Starting to load model /data/model/qwen2.5-14b-instruct-awq/...
INFO 10-21 12:18:14 [gpu_model_runner.py:1875] Loading model from scratch...
INFO 10-21 12:18:14 [cuda.py:290] Using Flash Attention backend on V1 engine.
Loading safetensors checkpoint shards: 0% Completed | 0/3 [00:00<?, ?it/s]
Loading safetensors checkpoint shards: 33% Completed | 1/3 [00:03<00:07, 3.66s/it]
Loading safetensors checkpoint shards: 67% Completed | 2/3 [00:07<00:03, 3.70s/it]
Loading safetensors checkpoint shards: 100% Completed | 3/3 [00:13<00:00, 4.68s/it]
Loading safetensors checkpoint shards: 100% Completed | 3/3 [00:13<00:00, 4.41s/it]

INFO 10-21 12:18:28 [default_loader.py:262] Loading weights took 13.63 seconds
INFO 10-21 12:18:29 [gpu_model_runner.py:1892] Model loading took 9.3788 GiB and 13.882232 seconds
link

shuai_chen
Members 221 posts

2025年10月21日 12:31 2025年10月21日 12:31
link

尊敬的开发者您好，请您尝试一个容器内部署两个vllm服务，更换vllm服务化端口。
link

Raining
Members 21 posts

2025年10月21日 12:35 2025年10月21日 12:35
link

我现在的方式已经是一个docker容器中了，启动了2个服务，也是不同端口，但是还卡住，是我哪里理解有问题吗？请指教
link

shuai_chen
Members 221 posts

2025年10月21日 12:45 2025年10月21日 12:45
link

尊敬的开发者您好，请您提供以下信息
一、软硬件信息
1.服务器厂家:
2.沐曦GPU型号：
3.操作系统内核版本：
4.是否开启CPU虚拟化：
5.mx-smi回显：
6.docker info回显：
7.镜像版本：
link

Raining
Members 21 posts

2025年10月21日 12:58 2025年10月21日 12:58
link

从下方mx-smi可以看到显存占用已经执行了，目前有2个vllm服务占用了显存
一、软硬件信息
1.服务器厂家:
System Information
Manufacturer: RongXinZhiYuan
Product Name: DAU-H100
Version: 0.1
Serial Number: 001BBW18010027
UUID: 00112233-4455-6677-8899-aabbccddeeff
Wake-up Type: Power Switch
SKU Number: Kunlun_Hygon65N32_SKU
Family: Type1Family

Handle 0x0013, DMI type 12, 5 bytes
System Configuration Options
Option 1: ConfigOptions String 1
Option 2: ConfigOptions String 2

Handle 0x0015, DMI type 32, 11 bytes
System Boot Information
Status: No errors detected

2.沐曦GPU型号：
MetaX C500

3.操作系统内核版本：
Static hostname: host
Icon name: computer-server
Chassis: server
Machine ID: d03463cf8d154a38873c9161c0aa65da
Boot ID: f0934e776e614dd3aa36820d16e7ee84
Operating System: Ubuntu 22.04.5 LTS
Kernel: Linux 5.15.0-119-generic
Architecture: x86-64

4.是否开启CPU虚拟化：
Virtualization: AMD-V

5.mx-smi回显：这里是因为2个服务都开启了，但是有一个开启了一半，一直卡住，但是显存已经占用完毕了。
mx-smi version: 2.2.3

=================== MetaX System Management Interface Log ===================
Timestamp : Tue Oct 21 04:52:31 2025

Attached GPUs : 1
+---------------------------------------------------------------------------------+
| MX-SMI 2.2.3 Kernel Mode Driver Version: 2.14.6 |
| MACA Version: 2.32.0.6 BIOS Version: 1.24.3.0 |
|------------------------------------+---------------------+----------------------+
| GPU NAME | Bus-id | GPU-Util |
| Temp Pwr:Usage/Cap | Memory-Usage | |
|====================================+=====================+======================|
| 0 MetaX C500 | 0000:0f:00.0 | 0% |
| 74C 75W / 350W | 41244/65536 MiB | |
+------------------------------------+---------------------+----------------------+

+---------------------------------------------------------------------------------+
| Process: |
| GPU PID Process Name GPU Memory |
| Usage(MiB) |
|=================================================================================|
| 0 2317608 python3.10 20480 |
| 0 2327607 python3.10 19904 |
+---------------------------------------------------------------------------------+

6.docker info回显：
Client: Docker Engine - Community
Version: 28.5.1
Context: default
Debug Mode: false
Plugins:
buildx: Docker Buildx (Docker Inc.)
Version: v0.29.1
Path: /usr/libexec/docker/cli-plugins/docker-buildx
compose: Docker Compose (Docker Inc.)
Version: v2.40.0
Path: /usr/libexec/docker/cli-plugins/docker-compose

Server:
Containers: 2
Running: 2
Paused: 0
Stopped: 0
Images: 3
Server Version: 28.5.1
Storage Driver: overlay2
Backing Filesystem: extfs
Supports d_type: true
Using metacopy: false
Native Overlay Diff: true
userxattr: false
Logging Driver: json-file
Cgroup Driver: systemd
Cgroup Version: 2
Plugins:
Volume: local
Network: bridge host ipvlan macvlan null overlay
Log: awslogs fluentd gcplogs gelf journald json-file local splunk syslog
CDI spec directories:
/etc/cdi
/var/run/cdi
Swarm: inactive
Runtimes: io.containerd.runc.v2 runc
Default Runtime: runc
Init Binary: docker-init
containerd version: b98a3aace656320842a23f4a392a33f46af97866
runc version: v1.3.0-0-g4ca628d1
init version: de40ad0
Security Options:
apparmor
seccomp
Profile: builtin
cgroupns
Kernel Version: 5.15.0-119-generic
Operating System: Ubuntu 22.04.5 LTS
OSType: linux
Architecture: x86_64
CPUs: 16
Total Memory: 62.47GiB
Name: host
ID: 8eec869e-d6f4-4a72-a7c6-bc08d84e93e1
Docker Root Dir: /var/lib/docker
Debug Mode: false
Experimental: false
Insecure Registries:
::1/128
127.0.0.0/8
Live Restore Enabled: false

7.镜像版本：
cr.metax-tech.com/public-ai-release/maca/modelzoo.llm.vllm:maca.ai3.1.0.7-torch2.6-py310-ubuntu22.04-amd64
link

shuai_chen
Members 221 posts

2025年10月21日 15:16 2025年10月21日 15:16
link

尊敬的开发者您好，请分开起两个vllm服务，使用mx-smi查看显存占用，两个加起是否超过最大显存。
link

Raining
Members 21 posts

2025年10月21日 15:33 2025年10月21日 15:33
link

没有超过最大显存，2个加起来不到50G显存，64G的卡
link

shuai_chen
Members 221 posts

2025年10月21日 15:35 2025年10月21日 15:35
link

尊敬的开发者您好，您的CPU内存总量为64GB，可能存在CPU内存不足卡住。请时刻使用free -m关注内存变化，尤其是启第二个服务启动的时候持续监控。
link

Raining
Members 21 posts

2025年10月21日 15:49 2025年10月21日 15:49
link

卡住的时候内存没有太大变化，信息如下：
total used free shared buff/cache available
Mem: 62Gi 36Gi 2.7Gi 0.0Ki 23Gi 25Gi
Swap: 8.0Gi 2.6Gi 5.4Gi
link

Raining
Members 21 posts

2025年10月21日 15:50 2025年10月21日 15:50
link

镜像这么启动有问题吗？
docker run -itd --privileged --group-add video --network=host --name vllm --shm-size 100gb --ulimit memlock=-1 -v /data:/data cr.metax-tech.com/public-ai-release/maca/modelzoo.llm.vllm:maca.ai3.1.0.7-torch2.6-py310-ubuntu22.04-amd64
link

shuai_chen
Members 221 posts

2025年10月21日 15:55 2025年10月21日 15:55
link

尊敬的开发者您好，请减少gpu-memory-utilization参数重新尝试启动。
link

shuai_chen
Members 221 posts

2025年10月21日 15:55 2025年10月21日 15:55
link

@Raining has written:

镜像这么启动有问题吗？
docker run -itd --privileged --group-add video --network=host --name vllm --shm-size 100gb --ulimit memlock=-1 -v /data:/data cr.metax-tech.com/public-ai-release/maca/modelzoo.llm.vllm:maca.ai3.1.0.7-torch2.6-py310-ubuntu22.04-amd64

尊敬的开发者您好，这个是没有问题的。
link

Raining
Members 21 posts

2025年10月21日 16:01 2025年10月21日 16:01
link

gpu-memory-utilization 也减少过了，都不行，我设置的一个是0.4，一个是0.36
link

shuai_chen
Members 221 posts

2025年10月21日 16:03 2025年10月21日 16:03
link

尊敬的开发者您好，请您再降低gpu-memory-utilization参数尝试。比如两个0.3等。
arrow_forward
Thread has been moved from 公共.
- By shuai_chen on 2025年10月24日 11:07.
link

Raining
Members 21 posts

2025年10月29日 09:41 2025年10月29日 09:41
link

你好，我一个设置的0.34，一个0.3还是不行，一直卡在下面这里就不走了，显存明显还有20G的剩余：
[rank0]:W1029 09:35:11.250000 1875 site-packages/torch/_inductor/utils.py:1197] [0/0] Forcing disable 'CUTLASS' backend as it is not supported in maca platform.
[rank0]:W1029 09:35:11.259000 1875 site-packages/torch/_inductor/utils.py:1197] [0/0] Forcing disable 'CUTLASS' backend as it is not supported in maca platform.
INFO 10-29 09:35:12 [backends.py:215] Compiling a graph for dynamic shape takes 71.86 s
INFO 10-29 09:35:47 [monitor.py:34] torch.compile takes 84.68 s in total
INFO 10-29 09:35:48 [gpu_worker.py:255] Available KV cache memory: 1.55 GiB
INFO 10-29 09:35:48 [kv_cache_utils.py:833] GPU KV cache size: 12,688 tokens
INFO 10-29 09:35:48 [kv_cache_utils.py:837] Maximum concurrency for 4,096 tokens per request: 3.10x

image.png
PNG, 34.4 KB, uploaded by Raining on 2025年10月29日.
link

shuai_chen
Members 221 posts

2025年10月29日 10:22 2025年10月29日 10:22
link

尊敬的开发者您好，麻烦您将gpu-memory-utilization 设置成0.8,0.4试一下