8卡MetaX C500 部署qwen3.6推理速度太慢

link

langhongbin

Members 15 posts

2026年5月21日 09:08 2026年5月21日 09:08

link

一、软硬件信息：
1.服务器厂家：浪潮

2.沐曦GPU型号：MetaX C500 8卡

3.操作系统内核版本：6.6.0-32.7.v2505.ky11.x86_64

4.是否开启CPU虚拟化：开启

5.mx-smi回显：
mx-smi version: 2.2.12

=================== MetaX System Management Interface Log ===================
Timestamp : Wed May 20 18:14:56 2026

Attached GPUs : 8
+---------------------------------------------------------------------------------+
| MX-SMI 2.2.12 Kernel Mode Driver Version: 3.6.11 |
| MACA Version: unknown BIOS Version: 1.31.1.0 |
|------------------+-----------------+---------------------+----------------------|
| Board Name | GPU Persist-M | Bus-id | GPU-Util sGPU-M |
| Pwr:Usage/Cap | Temp Perf | Memory-Usage | GPU-State |
|==================+=================+=====================+======================|
| 0 MetaX C500 | 0 Off | 0000:04:00.0 | 0% Disabled |
| 82W / 350W | 61C P9 | 40353/65536 MiB | Available |
+------------------+-----------------+---------------------+----------------------+
| 1 MetaX C500 | 1 Off | 0000:05:00.0 | 0% Disabled |
| 75W / 350W | 58C P9 | 40993/65536 MiB | Available |
+------------------+-----------------+---------------------+----------------------+
| 2 MetaX C500 | 2 Off | 0000:63:00.0 | 0% Disabled |
| 80W / 350W | 56C P9 | 40353/65536 MiB | Available |
+------------------+-----------------+---------------------+----------------------+
| 3 MetaX C500 | 3 Off | 0000:64:00.0 | 0% Disabled |
| 80W / 350W | 59C P9 | 40993/65536 MiB | Available |
+------------------+-----------------+---------------------+----------------------+
| 4 MetaX C500 | 4 Off | 0000:83:00.0 | 0% Disabled |
| 82W / 350W | 56C P9 | 40993/65536 MiB | Available |
+------------------+-----------------+---------------------+----------------------+
| 5 MetaX C500 | 5 Off | 0000:84:00.0 | 0% Disabled |
| 72W / 350W | 53C P9 | 40353/65536 MiB | Available |
+------------------+-----------------+---------------------+----------------------+
| 6 MetaX C500 | 6 Off | 0000:e4:00.0 | 0% Disabled |
| 81W / 350W | 58C P9 | 40993/65536 MiB | Available |
+------------------+-----------------+---------------------+----------------------+
| 7 MetaX C500 | 7 Off | 0000:e5:00.0 | 0% Disabled |
| 74W / 350W | 54C P9 | 40353/65536 MiB | Available |
+------------------+-----------------+---------------------+----------------------+

6.docker info回显：
[root@localhost ~]# docker info
Client:
Version: 24.0.9
Context: default
Debug Mode: false

Server:
Containers: 1
Running: 1
Paused: 0
Stopped: 0
Images: 1
Server Version: 24.0.9
Storage Driver: overlay2
Backing Filesystem: xfs
Supports d_type: true
Using metacopy: false
Native Overlay Diff: true
userxattr: false
Logging Driver: json-file
Cgroup Driver: cgroupfs
Cgroup Version: 1
Plugins:
Volume: local
Network: bridge host ipvlan macvlan null overlay
Log: awslogs fluentd gcplogs gelf journald json-file local logentries splunk syslog
Swarm: inactive
Runtimes: io.containerd.runc.v2 runc
Default Runtime: runc
Init Binary: docker-init
containerd version: 9a04df1519ac2967eece6c6a5d13d3b846b574b2.m
runc version:
init version:
Security Options:
seccomp
Profile: builtin
Kernel Version: 6.6.0-32.7.v2505.ky11.x86_64
Operating System: Kylin Linux Advanced Server V11 (Swan25)
OSType: linux
Architecture: x86_64
CPUs: 256
Total Memory: 1.472TiB
Name: localhost.localdomain
ID: ded90092-4000-426b-a3ca-08950e376242
Docker Root Dir: /home/docker
Debug Mode: false
Experimental: false
Insecure Registries:
127.0.0.0/8
Registry Mirrors:
docker.1ms.run/
dockerpull.com/
registry.docker-cn.com/
Live Restore Enabled: false

7.镜像版本：
cr.metax-tech.com/public-ai-release/maca/vllm-metax:0.19.0-maca.ai3.5.3.502-torch2.8-py312-kylinv11-amd64

8.启动容器命令：
docker run -itd \
--name qwen3.6 \
--network host \
--shm-size 512G \
--device=/dev/dri \
--device=/dev/mxcd \
--group-add video \
--security-opt seccomp=unconfined \
--security-opt apparmor=unconfined \
--shm-size 100gb \
--ulimit memlock=-1 \
-v /home/modelscope:/root/vllm \
-e TZ=Asia/Shanghai \
-p 8000:8000 \
-p 8001:8001 \
-p 8002:8002 \
cr.metax-tech.com/public-ai-release/maca/vllm-metax:0.19.0-maca.ai3.5.3.502-torch2.8-py312-kylinv11-amd64

9.容器内执行命令：
nohup vllm serve /root/vllm/Qwen/Qwen3.6-35B-A3B/ -tp 8\
--host 0.0.0.0 \
--port 8000 \
--served-model-name qwen3.6 \
--dtype bfloat16 \
--trust-remote-code \
--tensor-parallel-size 8 \
--distributed-executor-backend mp \
--gpu-memory-utilization 0.8 \
--max-model-len 32768 \
--max-num-batched-tokens 327680 \
--kv-cache-dtype fp8_e4m3 >qwen.log 2>& 1 &

二、问题现象
推理速度慢，首轮 prompt 预填：2.2 tokens/s（输入解析慢）生成阶段稳定：70~73 tokens/s
日志信息如下：
(APIServer pid=254754) INFO 05-20 20:11:26 [loggers.py:259] Engine 000: Avg prompt throughput: 2.2 tokens/s, Avg generation throughput: 7.1 tokens/s, Running: 1 reqs, Waiting: 0 reqs, GPU KV cache usage:
0.6%, Prefix cache hit rate: 0.0%
(APIServer pid=254754) INFO 05-20 20:11:36 [loggers.py:259] Engine 000: Avg prompt throughput: 0.0 tokens/s, Avg generation throughput: 73.8 tokens/s, Running: 1 reqs, Waiting: 0 reqs, GPU KV cache usage
: 0.7%, Prefix cache hit rate: 0.0%
(APIServer pid=254754) INFO 05-20 20:11:46 [loggers.py:259] Engine 000: Avg prompt throughput: 0.0 tokens/s, Avg generation throughput: 72.9 tokens/s, Running: 1 reqs, Waiting: 0 reqs, GPU KV cache usage
: 0.9%, Prefix cache hit rate: 0.0%
(APIServer pid=254754) INFO 05-20 20:11:56 [loggers.py:259] Engine 000: Avg prompt throughput: 0.0 tokens/s, Avg generation throughput: 72.6 tokens/s, Running: 1 reqs, Waiting: 0 reqs, GPU KV cache usage
: 1.2%, Prefix cache hit rate: 0.0%
(APIServer pid=254754) INFO 05-20 20:12:06 [loggers.py:259] Engine 000: Avg prompt throughput: 0.0 tokens/s, Avg generation throughput: 71.7 tokens/s, Running: 1 reqs, Waiting: 0 reqs, GPU KV cache usage
: 1.3%, Prefix cache hit rate: 0.0%
(APIServer pid=254754) INFO 05-20 20:12:16 [loggers.py:259] Engine 000: Avg prompt throughput: 0.0 tokens/s, Avg generation throughput: 71.0 tokens/s, Running: 1 reqs, Waiting: 0 reqs, GPU KV cache usage
: 1.6%, Prefix cache hit rate: 0.0%
(APIServer pid=254754) INFO: 10.217.247.136:54410 - "POST /v1/chat/completions HTTP/1.1" 200 OK
(APIServer pid=254754) INFO 05-20 20:12:26 [loggers.py:259] Engine 000: Avg prompt throughput: 0.0 tokens/s, Avg generation throughput: 32.3 tokens/s, Running: 0 reqs, Waiting: 0 reqs, GPU KV cache usage
: 0.0%, Prefix cache hit rate: 0.0%
(APIServer pid=254754) INFO 05-20 20:12:36 [loggers.py:259] Engine 000: Avg prompt throughput: 0.0 tokens/s, Avg generation throughput: 0.0 tokens/s, Running: 0 reqs, Waiting: 0 reqs, GPU KV cache usage:
0.0%, Prefix cache hit rate: 0.0%

link

shuai_chen

Members 650 posts

2026年5月21日 10:36 2026年5月21日 10:36

link

尊敬的开发者您好，请使用单卡推理尝试

link

langhongbin

Members 15 posts

2026年5月21日 10:45 2026年5月21日 10:45

link

单卡部署显存不足

link

shuai_chen

Members 650 posts

2026年5月21日 10:47 2026年5月21日 10:47

link

尊敬的开发者您好，请使用双卡推理尝试，删除kv cache参数，C500不支持FP8

link

langhongbin

Members 15 posts

2026年5月21日 10:50 2026年5月21日 10:50

link

是否需要添加环境变量进行优化，需要的话具体添加哪些？

link

shuai_chen

Members 650 posts

2026年5月21日 10:55 2026年5月21日 10:55

link

尊敬的开发者您好，请先使用双卡推理尝试

link

langhongbin

Members 15 posts

2026年5月21日 11:05 2026年5月21日 11:05

link

双卡推理服务启动卡死
服务启动命令：
nohup vllm serve /root/vllm/Qwen/Qwen3.6-35B-A3B/ -tp 2\
--host 0.0.0.0 \
--port 8000 \
--served-model-name qwen3.6 \
--dtype bfloat16 \
--trust-remote-code \
--tensor-parallel-size 2 \
--distributed-executor-backend mp \
--gpu-memory-utilization 0.8 \
--max-model-len 32768 \
--max-num-batched-tokens 131072 \
--max-num-seqs 64 \

qwen.log 2>& 1 &

日志信息：
(Worker_TP0 pid=1133)
(Worker_TP0 pid=1133) INFO 05-21 10:58:12 [default_loader.py:384] Loading weights took 19.40 seconds
(Worker_TP0 pid=1133) INFO 05-21 10:58:13 [gpu_model_runner.py:4820] Model loading took 32.86 GiB memory and 20.283825 seconds
(Worker_TP0 pid=1133) INFO 05-21 10:58:15 [gpu_model_runner.py:5753] Encoder cache will be initialized with a budget of 131072 tokens, and profiled with 8 image items of the maximum feature size.
(Worker_TP0 pid=1133) INFO 05-21 10:58:30 [backends.py:1051] Using cache directory: /root/.cache/vllm/torch_compile_cache/583c9adccf/rank_0_0/backbone for vLLM's torch.compile
(Worker_TP0 pid=1133) INFO 05-21 10:58:30 [backends.py:1111] Dynamo bytecode transform time: 11.64 s
(EngineCore pid=785) INFO 05-21 10:59:16 [shm_broadcast.py:681] No available shared memory broadcast block found in 60 seconds. This typically happens when some processes are hanging or doing some time-c
onsuming work (e.g. compilation, weight/kv cache quantization).
(EngineCore pid=785) INFO 05-21 11:00:16 [shm_broadcast.py:681] No available shared memory broadcast block found in 60 seconds. This typically happens when some processes are hanging or doing some time-c
onsuming work (e.g. compilation, weight/kv cache quantization).
(EngineCore pid=785) INFO 05-21 11:01:16 [shm_broadcast.py:681] No available shared memory broadcast block found in 60 seconds. This typically happens when some processes are hanging or doing some time-c
onsuming work (e.g. compilation, weight/kv cache quantization).
(EngineCore pid=785) INFO 05-21 11:02:16 [shm_broadcast.py:681] No available shared memory broadcast block found in 60 seconds. This typically happens when some processes are hanging or doing some time-c
onsuming work (e.g. compilation, weight/kv cache quantization).
(EngineCore pid=785) INFO 05-21 11:03:16 [shm_broadcast.py:681] No available shared memory broadcast block found in 60 seconds. This typically happens when some processes are hanging or doing some time-c
onsuming work (e.g. compilation, weight/kv cache quantization).

(EngineCore pid=785) INFO 05-21 11:04:16 [shm_broadcast.py:681] No available shared memory broadcast block found in 60 seconds. This typically happens when some processes are hanging or doing some time-c
onsuming work (e.g. compilation, weight/kv cache quantization).

link

shuai_chen

Members 650 posts

2026年5月21日 11:10 2026年5月21日 11:10

link

尊敬的开发者您好，四卡推理尝试一下

link

langhongbin

Members 15 posts

2026年5月21日 12:16 2026年5月21日 12:16

link

四卡仍然报相同错误，启动命令
nohup vllm serve /root/vllm/Qwen/Qwen3.6-35B-A3B/ -tp 4 \
--host 0.0.0.0 \
--port 8000 \
--served-model-name qwen3.6 \
--dtype bfloat16 \
--trust-remote-code \
--tensor-parallel-size 4 \
--distributed-executor-backend mp \
--gpu-memory-utilization 0.8 \
--max-model-len 32768 \
--max-num-batched-tokens 131072 \
--max-num-seqs 64 \

qwen.log 2>& 1 &

日志
tail -500f qwen.log
nohup: ignoring input
INFO 05-21 12:08:03 [init.py:44] Available plugins for group vllm.platform_plugins:
INFO 05-21 12:08:03 [init.py:46] - metax -> vllm_metax:register
INFO 05-21 12:08:03 [init.py:49] All plugins in this group will be loaded. Set VLLM_PLUGINS to control which plugins to load.
INFO 05-21 12:08:03 [init.py:239] Platform plugin metax is activated
(EngineCore pid=758) INFO 05-21 12:08:12 [shm_broadcast.py:681] No available shared memory broadcast block found in 60 seconds. This typically happens when some processes are hanging or doing some time-c
onsuming work (e.g. compilation, weight/kv cache quantization).
(EngineCore pid=758) INFO 05-21 12:09:12 [shm_broadcast.py:681] No available shared memory broadcast block found in 60 seconds. This typically happens when some processes are hanging or doing some time-c
onsuming work (e.g. compilation, weight/kv cache quantization).
(EngineCore pid=758) INFO 05-21 12:10:12 [shm_broadcast.py:681] No available shared memory broadcast block found in 60 seconds. This typically happens when some processes are hanging or doing some time-c
onsuming work (e.g. compilation, weight/kv cache quantization).
(EngineCore pid=758) INFO 05-21 12:11:12 [shm_broadcast.py:681] No available shared memory broadcast block found in 60 seconds. This typically happens when some processes are hanging or doing some time-c
onsuming work (e.g. compilation, weight/kv cache quantization).
(EngineCore pid=758) INFO 05-21 12:12:12 [shm_broadcast.py:681] No available shared memory broadcast block found in 60 seconds. This typically happens when some processes are hanging or doing some time-c
onsuming work (e.g. compilation, weight/kv cache quantization).
(EngineCore pid=758) INFO 05-21 12:13:12 [shm_broadcast.py:681] No available shared memory broadcast block found in 60 seconds. This typically happens when some processes are hanging or doing some time-c
onsuming work (e.g. compilation, weight/kv cache quantization).
(EngineCore pid=758) INFO 05-21 12:14:12 [shm_broadcast.py:681] No available shared memory broadcast block found in 60 seconds. This typically happens when some processes are hanging or doing some time-c
onsuming work (e.g. compilation, weight/kv cache quantization).
(EngineCore pid=758) INFO 05-21 12:15:12 [shm_broadcast.py:681] No available shared memory broadcast block found in 60 seconds. This typically happens when some processes are hanging or doing some time-c
onsuming work (e.g. compilation, weight/kv cache quantization).
(EngineCore pid=758) INFO 05-21 12:16:12 [shm_broadcast.py:681] No available shared memory broadcast block found in 60 seconds. This typically happens when some processes are hanging or doing some time-c
onsuming work (e.g. compilation, weight/kv cache quantization).

link

langhongbin

Members 15 posts

2026年5月21日 12:30 2026年5月21日 12:30

link

该报错持续一段时间后服务正常启动了，但是推理速度依然很慢，日志如下

(APIServer pid=53) INFO 05-21 12:28:35 [loggers.py:259] Engine 000: Avg prompt throughput: 2.2 tokens/s, Avg generation throughput: 15.3 tokens/s, Running: 1 reqs, Waiting: 0 reqs, GPU KV cache usage: 0.
1%, Prefix cache hit rate: 0.0%
(APIServer pid=53) INFO 05-21 12:28:45 [loggers.py:259] Engine 000: Avg prompt throughput: 0.0 tokens/s, Avg generation throughput: 78.9 tokens/s, Running: 1 reqs, Waiting: 0 reqs, GPU KV cache usage: 0.
2%, Prefix cache hit rate: 0.0%
(APIServer pid=53) INFO 05-21 12:28:55 [loggers.py:259] Engine 000: Avg prompt throughput: 0.0 tokens/s, Avg generation throughput: 78.6 tokens/s, Running: 1 reqs, Waiting: 0 reqs, GPU KV cache usage: 0.
2%, Prefix cache hit rate: 0.0%
(APIServer pid=53) INFO 05-21 12:29:05 [loggers.py:259] Engine 000: Avg prompt throughput: 0.0 tokens/s, Avg generation throughput: 79.6 tokens/s, Running: 1 reqs, Waiting: 0 reqs, GPU KV cache usage: 0.
2%, Prefix cache hit rate: 0.0%
(APIServer pid=53) INFO 05-21 12:29:15 [loggers.py:259] Engine 000: Avg prompt throughput: 0.0 tokens/s, Avg generation throughput: 79.6 tokens/s, Running: 1 reqs, Waiting: 0 reqs, GPU KV cache usage: 0.
3%, Prefix cache hit rate: 0.0%
(APIServer pid=53) INFO: 10.217.247.136:40238 - "POST /v1/chat/completions HTTP/1.1" 200 OK
(APIServer pid=53) INFO 05-21 12:29:25 [loggers.py:259] Engine 000: Avg prompt throughput: 0.0 tokens/s, Avg generation throughput: 65.8 tokens/s, Running: 0 reqs, Waiting: 0 reqs, GPU KV cache usage: 0.
0%, Prefix cache hit rate: 0.0%
(APIServer pid=53) INFO 05-21 12:29:35 [loggers.py:259] Engine 000: Avg prompt throughput: 0.0 tokens/s, Avg generation throughput: 0.0 tokens/s, Running: 0 reqs, Waiting: 0 reqs, GPU KV cache usage: 0.0
%, Prefix cache hit rate: 0.0%

link

shuai_chen

Members 650 posts

2026年5月21日 13:36 2026年5月21日 13:36

link

尊敬的开发者您好，裸金属执行

dmesg -T | grep -i err

link

langhongbin

Members 15 posts

2026年5月21日 13:38 2026年5月21日 13:38

link

四 5月 21 11:15:48 2026] MXCD.B400.D0.RINGBUF.ERROR wait_ret failed, -110
[四 5月 21 11:15:48 2026] MXCD.B500.D0.RINGBUF.ERROR wait_ret failed, -110
[四 5月 21 11:15:48 2026] MXCD.B500.D0.RINGBUF.ERROR type 0x0 create ringbuf failed, -110
[四 5月 21 11:15:48 2026] MXCD.B400.D0.RINGBUF.ERROR type 0x0 create ringbuf failed, -110
[四 5月 21 11:15:58 2026] MXCD.B500.D0.RINGBUF.ERROR wait_ret failed, -110
[四 5月 21 11:15:58 2026] MXCD.B500.D0.RINGBUF.ERROR type 0x0 create ringbuf failed, -110
[四 5月 21 11:15:58 2026] MXCD.B400.D0.RINGBUF.ERROR wait_ret failed, -110
[四 5月 21 11:15:58 2026] MXCD.B400.D0.RINGBUF.ERROR type 0x0 create ringbuf failed, -110
[四 5月 21 11:16:09 2026] MXCD.B400.D0.RINGBUF.ERROR wait_ret failed, -110
[四 5月 21 11:16:09 2026] MXCD.B500.D0.RINGBUF.ERROR wait_ret failed, -110
[四 5月 21 11:16:09 2026] MXCD.B500.D0.RINGBUF.ERROR type 0x0 create ringbuf failed, -110
[四 5月 21 11:16:09 2026] MXCD.B400.D0.RINGBUF.ERROR type 0x0 create ringbuf failed, -110
[四 5月 21 11:16:19 2026] MXCD.B400.D0.RINGBUF.ERROR wait_ret failed, -110
[四 5月 21 11:16:19 2026] MXCD.B400.D0.RINGBUF.ERROR type 0x0 create ringbuf failed, -110
[四 5月 21 11:16:19 2026] MXCD.B500.D0.RINGBUF.ERROR wait_ret failed, -110
[四 5月 21 11:16:19 2026] MXCD.B500.D0.RINGBUF.ERROR type 0x0 create ringbuf failed, -110
[四 5月 21 11:16:29 2026] MXCD.B500.D0.RINGBUF.ERROR wait_ret failed, -110
[四 5月 21 11:16:29 2026] MXCD.B400.D0.RINGBUF.ERROR wait_ret failed, -110
[四 5月 21 11:16:29 2026] MXCD.B400.D0.RINGBUF.ERROR type 0x0 create ringbuf failed, -110
[四 5月 21 11:16:29 2026] MXCD.B500.D0.RINGBUF.ERROR type 0x0 create ringbuf failed, -110
[四 5月 21 11:16:39 2026] MXCD.B400.D0.RINGBUF.ERROR wait_ret failed, -110
[四 5月 21 11:16:39 2026] MXCD.B500.D0.RINGBUF.ERROR wait_ret failed, -110
[四 5月 21 11:16:39 2026] MXCD.B500.D0.RINGBUF.ERROR type 0x0 create ringbuf failed, -110
[四 5月 21 11:16:39 2026] MXCD.B400.D0.RINGBUF.ERROR type 0x0 create ringbuf failed, -110
[四 5月 21 11:16:50 2026] MXCD.B500.D0.RINGBUF.ERROR wait_ret failed, -110
[四 5月 21 11:16:50 2026] MXCD.B500.D0.RINGBUF.ERROR type 0x0 create ringbuf failed, -110
[四 5月 21 11:16:50 2026] MXCD.B400.D0.RINGBUF.ERROR wait_ret failed, -110
[四 5月 21 11:16:50 2026] MXCD.B400.D0.RINGBUF.ERROR type 0x0 create ringbuf failed, -110
[四 5月 21 11:17:29 2026] MXCD.B500.D0.RINGBUF.ERROR wait_ret failed, -110
[四 5月 21 11:17:29 2026] MXCD.B500.D0.RINGBUF.ERROR type 0x0 create ringbuf failed, -110
[四 5月 21 11:17:29 2026] MXCD.B400.D0.RINGBUF.ERROR wait_ret failed, -110
[四 5月 21 11:17:29 2026] MXCD.B400.D0.RINGBUF.ERROR type 0x0 create ringbuf failed, -110
[四 5月 21 12:11:31 2026] MXCD.B400.D0.RINGBUF.ERROR wait_ret failed, -110
[四 5月 21 12:11:31 2026] MXCD.B500.D0.RINGBUF.ERROR wait_ret failed, -110
[四 5月 21 12:11:31 2026] MXCD.B400.D0.RINGBUF.ERROR type 0x0 create ringbuf failed, -110
[四 5月 21 12:11:31 2026] MXCD.B500.D0.RINGBUF.ERROR type 0x0 create ringbuf failed, -110
[四 5月 21 12:11:41 2026] MXCD.B500.D0.RINGBUF.ERROR wait_ret failed, -110
[四 5月 21 12:11:41 2026] MXCD.B400.D0.RINGBUF.ERROR wait_ret failed, -110
[四 5月 21 12:11:41 2026] MXCD.B400.D0.RINGBUF.ERROR type 0x0 create ringbuf failed, -110
[四 5月 21 12:11:41 2026] MXCD.B500.D0.RINGBUF.ERROR type 0x0 create ringbuf failed, -110
[四 5月 21 12:11:51 2026] MXCD.B400.D0.RINGBUF.ERROR wait_ret failed, -110
[四 5月 21 12:11:51 2026] MXCD.B500.D0.RINGBUF.ERROR wait_ret failed, -110
[四 5月 21 12:11:51 2026] MXCD.B500.D0.RINGBUF.ERROR type 0x0 create ringbuf failed, -110
[四 5月 21 12:11:51 2026] MXCD.B400.D0.RINGBUF.ERROR type 0x0 create ringbuf failed, -110
[四 5月 21 12:12:02 2026] MXCD.B500.D0.RINGBUF.ERROR wait_ret failed, -110
[四 5月 21 12:12:02 2026] MXCD.B500.D0.RINGBUF.ERROR type 0x0 create ringbuf failed, -110
[四 5月 21 12:12:02 2026] MXCD.B400.D0.RINGBUF.ERROR wait_ret failed, -110
[四 5月 21 12:12:02 2026] MXCD.B400.D0.RINGBUF.ERROR type 0x0 create ringbuf failed, -110
[四 5月 21 12:12:12 2026] MXCD.B500.D0.RINGBUF.ERROR wait_ret failed, -110
[四 5月 21 12:12:12 2026] MXCD.B400.D0.RINGBUF.ERROR wait_ret failed, -110
[四 5月 21 12:12:12 2026] MXCD.B400.D0.RINGBUF.ERROR type 0x0 create ringbuf failed, -110
[四 5月 21 12:12:12 2026] MXCD.B500.D0.RINGBUF.ERROR type 0x0 create ringbuf failed, -110
[四 5月 21 12:12:22 2026] MXCD.B500.D0.RINGBUF.ERROR wait_ret failed, -110
[四 5月 21 12:12:22 2026] MXCD.B500.D0.RINGBUF.ERROR type 0x0 create ringbuf failed, -110
[四 5月 21 12:12:22 2026] MXCD.B400.D0.RINGBUF.ERROR wait_ret failed, -110
[四 5月 21 12:12:22 2026] MXCD.B400.D0.RINGBUF.ERROR type 0x0 create ringbuf failed, -110
[四 5月 21 12:12:32 2026] MXCD.B400.D0.RINGBUF.ERROR wait_ret failed, -110
[四 5月 21 12:12:32 2026] MXCD.B500.D0.RINGBUF.ERROR wait_ret failed, -110
[四 5月 21 12:12:32 2026] MXCD.B500.D0.RINGBUF.ERROR type 0x0 create ringbuf failed, -110
[四 5月 21 12:12:32 2026] MXCD.B400.D0.RINGBUF.ERROR type 0x0 create ringbuf failed, -110
[四 5月 21 12:18:14 2026] MXCD.B400.D0.RINGBUF.ERROR wait_ret failed, -110
[四 5月 21 12:18:14 2026] MXCD.B400.D0.RINGBUF.ERROR type 0x0 create ringbuf failed, -110
[四 5月 21 12:18:14 2026] MXCD.B500.D0.RINGBUF.ERROR wait_ret failed, -110
[四 5月 21 12:18:14 2026] MXCD.B500.D0.RINGBUF.ERROR type 0x0 create ringbuf failed, -110

link

shuai_chen

Members 650 posts

2026年5月21日 13:43 2026年5月21日 13:43

link

尊敬的开发者您好，请服务器关机，拔掉电源线，重新插拔GPU。

link

langhongbin

Members 15 posts

2026年5月25日 14:11 2026年5月25日 14:11

link

重新插拔后速度仍然没有提升，dmesg -T | grep -i err无新增日志，vllm日志内容如下
(APIServer pid=60) INFO 05-25 13:51:17 [loggers.py:259] Engine 000: Avg prompt throughput: 2.2 tokens/s, Avg generation throughput: 16.2 tokens/s, Running: 1 reqs, Waiting: 0 reqs, GPU KV cache usage: 0.
1%, Prefix cache hit rate: 0.0%
(APIServer pid=60) INFO 05-25 13:51:27 [loggers.py:259] Engine 000: Avg prompt throughput: 0.0 tokens/s, Avg generation throughput: 74.8 tokens/s, Running: 1 reqs, Waiting: 0 reqs, GPU KV cache usage: 0.
1%, Prefix cache hit rate: 0.0%
(APIServer pid=60) INFO 05-25 13:51:37 [loggers.py:259] Engine 000: Avg prompt throughput: 0.0 tokens/s, Avg generation throughput: 78.8 tokens/s, Running: 1 reqs, Waiting: 0 reqs, GPU KV cache usage: 0.
2%, Prefix cache hit rate: 0.0%
(APIServer pid=60) INFO 05-25 13:51:47 [loggers.py:259] Engine 000: Avg prompt throughput: 0.0 tokens/s, Avg generation throughput: 78.9 tokens/s, Running: 1 reqs, Waiting: 0 reqs, GPU KV cache usage: 0.
2%, Prefix cache hit rate: 0.0%
(APIServer pid=60) INFO 05-25 13:51:57 [loggers.py:259] Engine 000: Avg prompt throughput: 0.0 tokens/s, Avg generation throughput: 78.4 tokens/s, Running: 1 reqs, Waiting: 0 reqs, GPU KV cache usage: 0.
2%, Prefix cache hit rate: 0.0%
(APIServer pid=60) INFO 05-25 13:52:07 [loggers.py:259] Engine 000: Avg prompt throughput: 0.0 tokens/s, Avg generation throughput: 77.7 tokens/s, Running: 1 reqs, Waiting: 0 reqs, GPU KV cache usage: 0.
2%, Prefix cache hit rate: 0.0%
(APIServer pid=60) INFO: 10.217.247.136:57828 - "POST /v1/chat/completions HTTP/1.1" 200 OK
(APIServer pid=60) INFO 05-25 13:52:17 [loggers.py:259] Engine 000: Avg prompt throughput: 0.0 tokens/s, Avg generation throughput: 65.5 tokens/s, Running: 0 reqs, Waiting: 0 reqs, GPU KV cache usage: 0.
0%, Prefix cache hit rate: 0.0%
(APIServer pid=60) INFO 05-25 13:52:27 [loggers.py:259] Engine 000: Avg prompt throughput: 0.0 tokens/s, Avg generation throughput: 0.0 tokens/s, Running: 0 reqs, Waiting: 0 reqs, GPU KV cache usage: 0.0
%, Prefix cache hit rate: 0.0%

link

shuai_chen

Members 650 posts

2026年5月25日 14:13 2026年5月25日 14:13

link

尊敬的开发者您好，麻烦发一下您的测试命令

link

langhongbin

Members 15 posts

2026年5月25日 14:14 2026年5月25日 14:14

link

curl http://10.217.247.136:8000/v1/chat/completions \
-H "Content-Type: application/json" \
-H "Authorization: Bearer your_api_key_here" \
-d '{
"model": "qwen3.6",
"messages": [{"role": "user", "content": "生成一篇多于3000字的以勇气为主题的作文"}]
}'

link

shuai_chen

Members 650 posts

2026年5月25日 14:16 2026年5月25日 14:16

link

尊敬的开发者您好，您的输入token短，prefill速率属于正常。建议使用vllm benchmark进行性能测试