一、软硬件信息
1.服务器厂家:沐曦AI一体机(2GPU型)
2.沐曦GPU型号:曦云C500
3.操作系统内核版本:6.14.0-27-generic
4.是否开启CPU虚拟化:开启
5.mx-smi回显:正常
6.docker info回显:正常
7.镜像版本:sglang:0.5.9-maca.ai3.5.3.208-torch2.8-py310-ubuntu22.04-amd64
8.启动容器命令:
docker run -it \
--restart always \
--device=/dev/dri \
--device=/dev/mxcd \
--group-add 44 \
--name qwen36b-20260416-tool \
--device=/dev/mem \
-p 18000:8000 \
--security-opt seccomp=unconfined \
--security-opt apparmor=unconfined \
--shm-size '32gb' \
--ulimit memlock=-1 \
-v /data1/models/modelscope/:/data1/models/modelscope/ \
-v /etc/localtime:/etc/localtime \
-e PYTORCH_CUDA_ALLOC_CONF="expandable_segments:True,max_split_size_mb:256" \
sglang:0.5.9-maca.ai3.5.3.208-torch2.8-py310-ubuntu22.04-amd64 \
/opt/conda/bin/python -m sglang.launch_server \
--model-path /data1/models/modelscope/qwen36b_20260416 \
--port 8000 \
--host 0.0.0.0 \
--tensor-parallel-size 2 \
--context-length 32768 \
--trust-remote-code \
--served-model-name qwen3.6-35b-tool-20260416-metax \
--reasoning-parser qwen3 \
--tool-call-parser qwen3_coder
9.容器内执行命令:无
二、问题现象
请描述详细的问题现象日志。若日志过长,请上传附件(txt格式)。
运行推理很慢。Qwen3.6要求 sglang>=0.5.10 来运行 Qwen3.6
适配qwen3.6的sglang>=0.5.10镜像在哪下载